sakaikの日々雑感～(T)編

テキストデータの統計学入門

book

テキストデータの統計科学入門

テキストデータの統計科学入門

作者: 金明哲
出版社/メーカー: 岩波書店
発売日: 2009/04/28
メディア: 単行本
購入: 4人クリック: 93回
この商品を含むブログ (12件) を見る

　いつ手に入れた本だったか記憶がおぼろげだが、おそらくオープンソースカンファレンス（OSC）に参加した際に会場の大学の書籍部で購入したものだった気がするこの本。
　長い間優先順位がやや下だったこともあって積まれたままだったのですが、このたび興味が上昇してようやく読むことができました。

　ひとことで言えばテキストマイニングの手法を紹介した本です。形態素解析に mecab や jugem 茶せんなどを使用し、その他のツールとして著者独自のツールやRなどを使っていますが、必ずしもこれらのツールを使用しなくても、テキストマイニングの考え方に触れることは十分できます。
　単語の長さやつながりのクセなどを元に著者同定を行う手法は、今回の私の関心とは別の話題ではありましたが非常に興味深いものでした。これを知っていればニセ手紙を書くときに自分だとバレないような文章を書けるぞ！などと、まったく利用機会のなさそうな知識を得られたことが、妙に嬉しかったりするのです(笑)。

　分析手法の解説に式が多く、それらをしっかり理解するところまでは今回じっくり読み込みませんでしたが、理論派の方にはこの式によってより理解が深まるのかなと思います。

　様々な手法が紹介されている中で、一番今の自分の目的で使いそうだと思ったのが「語のネットワーク分析」というのが、なんとも本書を生かし切っていないなぁと思うものの、多くの視点や手法に触れられたのは、本書を読んでよかったなと思いました。

.