シンプルなWebスクレイピングとして
htmlから目的の部分がはっきりしていて、それが一意に決まって、後に特に処理も必要無いのであれば、Linuxでシェルスクリプトがやぱり楽なのではないかという。
例えば、都営地下鉄から浅草線の運行情報を取りたい場合、
wget -O - http://www.kotsu.metro.tokyo.jp/subway/schedule/ | grep -A 1 "class=\"asakusa\"" | sed -e 's/<[^>]*>//g' | sed -e 's/://g'
もとのhtmlには、
<th class="asakusa">浅草線:</th> <td>現在、15分以上の遅延はありません。</td>
という部分があって、2行(もしかして遅延したときは変わるのかな?)。路線を表す部分は一意。それらの部分を取り出し→タグ削除→コロン削除。
結果は、
浅草線 現在、15分以上の遅延はありません。