gawk偉い
- なんかこの2か月ちょっと色々有り過ぎ。
- 地震以降人生不安定すぎる。
- 今更Javaをいま一番勉強すべきなのだけど出来てない。
- 仕事に使うことになりそうなので。
- 個人的にはJavaScript(p5.jsとWebAudioAPIとTree.js)やりたいのとRubyもちょっとやりたくなってきた。
- まだ「やりたい」だけだけど。
- JavaとJavaScriptとRubyならこれが良いかなと思ってNetBeans使ってるけど良いです。
- 仕事で厚生労働省のHPから100万行分のHTML読んできて2万件強のデータ取り出す作業をしました。
- もっとあったみたい。300万行くらい?
- 最初かなり自動化できるんじゃないかと思ったけれど、ページの作りが変で、複数ページにわたるデータを手でダウンロードしなくてはならなかった。
- 更にデータはテーブル形式でまとめてあるのだけれど、1セル内に複数データが入ってたり入ってなかったりとこれまた変。
- 最初エクセルでマクロ組んで処理してって言われたんだけどエクセルじゃ重いし面倒くさかったのでgawkでワンライナー書き飛ばしつつ最終的にCSVでエクセルで整形、でなんとか実質1日で作業終了しました。
- gawk速いし軽いしWindowsでも問題ないし偉い。
- 最近のヘビーローテーション。