Excelで学ぶテキストマイニング入門/林俊克

従来はスパコンクラスでしか実現できなかった大量データの処理が、Hadoopの普及で一般化し、「ビックデータの衝撃」など関連書籍も多く登場しています。

Hadoopが得意とするのは、非定型のデータを集計してトレンドを抽出する処理です。データを集計してトレンドを抽出すると何がわかるのかというと、特定の情報に関しての現在の状態がわかります。過去から現在にわたって、人気があるのかないのか?というトレンドが把握できるのです。

こういう新しい技術は、環境構築やハンドリングのハードルが高く、ごく一部システム会社の独壇場になるのが、今までのおきまりのパターンでした。
「うちしかノウハウ持ってないから高いよぉ!」という条件をユーザー企業は飲むしかなかったのですが、現在はHadoopが最初からバンドルされているサーバーがアマゾンなどから提供されています。
ユーザーはこういったサービスを利用すれば、安価でインターネット上で噂されている自社の情報を解析することが可能です。
アマゾンの「Amazon EMR」は月額70ドル程度から利用可能です。

こういった解析処理は、テキストマイニングの技術が基礎になっています。テキストマイニングとは、複数の文書を解析して登場する単語からトレンドを抽出する技術です。
ちょっと聞くととても難しそうな技術ですが、実は考え方はとてもシンプルで難しい数学を理解しなくても、利用できるところがお気に入りです。

Excelで学ぶテキストマイニング入門」はそのタイトル通りに、Excelテキストマイニングの基礎を学習しようという趣旨の図書です。
本書で記載されているテキストマイニング技術は、Excelですべての処理と確認ができます。内容も難解ではないので、これからテキストマイニングを学習しようと考えているという方にはおすすめの書です。

これからもインターネットを中心に文字情報は爆発的に増加していきます。文字情報からトレンドを抽出するということが重要になっていく時代には有用な1冊です。

目次

第1章 テキストマイニングの基礎
第2章 自由分の手作業によるテキストマイニング
第3章 形態素解析によるテキストのキーワード化
第4章 定型自由文のテキストマイニング
第5章 テキストから因果関係を探る
第6章 形態素解析による定型自由文のカテゴリ化
第7章 より高度なテキストマイニング