pusuke0418’s diary

異常にマルチタスクな社内SEのブログ

シンプルなWebスクレイピングとして

htmlから目的の部分がはっきりしていて、それが一意に決まって、後に特に処理も必要無いのであれば、Linuxシェルスクリプトがやぱり楽なのではないかという。
例えば、都営地下鉄から浅草線の運行情報を取りたい場合、

wget -O -  http://www.kotsu.metro.tokyo.jp/subway/schedule/ | grep -A 1 "class=\"asakusa\"" | sed -e 's/<[^>]*>//g' | sed -e 's/://g'


もとのhtmlには、

<th class="asakusa">浅草線:</th>
<td>現在、15分以上の遅延はありません。</td>

という部分があって、2行(もしかして遅延したときは変わるのかな?)。路線を表す部分は一意。それらの部分を取り出し→タグ削除→コロン削除。


結果は、

浅草線
現在、15分以上の遅延はありません。