テキストマイニングで消費者の声って本当に理解できるものなのか?!　（※昔取った杵柄的なつぶやき）

ユビキタスエンターテイメントがミニブログのための感情検索エンジン「feelfind.net」をリリースした。*1
http://v.japan.cnet.com/blog/story/0,2000071498,000269c-0000021714o,00.htm

キーワードで検索すると、haru.fm、twitter、jaiku、はてなハイク、feecleなどの書き込みの中から、そのキーワードについて「良い」と評価する発言が何件、「悪い」とする発言が何件…といったように、賛否を数値化して出してくれる（もちろん、個々の書き込みも見ることは可能）。

面白い。直感的に、こういうサービスは大好き。

webは、全人類の「キモチ」のデータベースだと思う。

インターネットの出現により、一方的なマスメディアによる情報発信のパラダイムに歪みが生じ、パーソナルレベルでのインタラクティブな情報発信が可能となった。コンピューターおよびインターネットの急激な普及、アプリケーションの簡易化、無料化がその流れを加速化し、そして、あっという間に「一億総発信者時代」が訪れた。デジタル・デバイドの問題はまだ完全には解決してはいないが、それでも10年前とは比べものにならないほど多くのひとが日々webに情報を流し続け、蓄積している。

ある時点において、「A」というモノはどう定義*2され、どのように使われ、どのような感情が抱かれているのか。web上のテキストデータを解析することで、よりリアルな「意味」を、「消費者のキモチ」を読み解くことができるのではないか？

そんな期待に満ちたwebテキスト分析の世界。近年は検索技術にとどまらず、テキストマイニングがマーケティングに使われたり、社会言語学や記号論、意味論の分野でもテキストマイニング研究が活発に行われている。

かくいう私も、以前「趣味：眼球運動分析とプロトコル分析とテキストマイニング☆」という荒んだ研究生活をしていたことがある。
といっても貧乏学部生。そんな高い解析ソフト、分析サービスは勿論使えない。ので、プロトコルの発話データやらアンケートデータを地道に書き起こし、発狂しそうになりがら手作業でデータクリーニングしまくり、フリーの形態素解析ソフトやらExcelやらを使ってゴリゴリと分析する…というかなりの荒技を使っていた。

そんな中で、テキストマイニングについて感じた課題は、以下の3つ。

データの質

インタビューで得られる発話データやweb上のテキストは、質のバラツキが大きい。そもそも正式な文章として成立していないものが大半、且つスラング、新語、造語などが入り交じっているため、分析前のデータクリーニングが煩雑。むしろクリーニングできないレベルのものも…

形態素解析の質

上の項で述べたように、かならずしも正しい文法規則に則っているわけではないテキストを、どこまで細かく、正しく分析できるか。また新しい言葉、文法にどれだけキャッチアップしていけるか。

キーワード分析の質

形態素解析で分解した言葉（＝キーワード）の結びつきを見る際、何を基準に、どういった重み付けで紐づけるか。

とにかく、上記3つの質を向上させれば、結果の精度もあがる…という仕組みになっていると思った。
形態素解析、キーワード分析あたりの問題は、リサーチ会社や検索エンジン会社の技術部隊が日々開発に励んでいてくれている（はず）なので、この先どんどん改善され、いいものになっていくだろう。
しかし、データの質ばかりは分析側の努力で変えられるものではない*3し、クリーニングを自動化するといっても、やはりこの部分は人の手を介さないとダメなんだろうなぁ…と思ったり。

まあ、ぶっちゃけ細かい部分は専門外（！）なので何とも言い難いのだが、ひとつだけ気になっていることがある。

テキストマイニングって、ほんとうにひとびとのキモチを抽出できるものなのだろうか？
実は、分析すればするほど、ものすごく細かいところに潜んでいた大切な事実を見過ごしてしまうんじゃないだろうか？

この「言葉」の裏にある「キモチ」を精密に抽出するために、日々新しい技術が生まれているのだろうが、どうしても気になってしまう。

たぶん、これもバランスの問題なんだろう。
コンピューターから弾き出されたデータを読むのは人間だし、データに頼りすぎず、感性に頼りすぎず、きちんと問題意識と本質を見失わずにいればいいだけの話だ。

*1:少し古い記事で恐縮。エントリアップし忘れてました…

*2:辞書的な定義ではなく、世論や流行などが反映された、その時代に独特な定義のこと。

*3:「ミナサン、ウェブデモ、タダシイコトバヲツカイマショウ！」なんて愚の骨頂。