テキストマイニングを活用事例から手法まで丁寧に解説

AI・機械学習

2018/01/25

AI・機械学習

テキストマイニングという言葉を知っていますか?テキストマイニングとは、文章を対象としたデータマイニングのことです。

「自社サービスについて、アンケートを実施したものの、どのように集計すればいいのかわからない」「SNSでつぶやかれている内容をどうやって分析しよう?」など、困ったことはありませんか?

実は、テキストマイニングを使用することによって、SNSやアンケートなど大量のデータの中から、大切な情報を抽出できるのです。

今回は、そんな便利なテキストマイニングについて、そもそもテキストマイニングとは何なのか、またテキストマイニングの手順から活用事例までわかりやすく解説します。

 

テキストマイニングとは?意味と活用事例を解説!

まずは、テキストマイニングの意味について、解説していきましょう。

テキストマイニングとは、文章や言葉など文字列のデータを対象にしたデータマイニングのことです。

データマイニングとは、統計学や人工知能といったデータ解析の技術を利用して大量のデータを分析し、規則性のある情報を取り出す技術のことです。詳しくは「5分でわかる!データマイニングの意味と手法」を参照してください。

具体的には、「私は横浜市に住んでいます。」という文章を、自然言語処理によって「私//横浜市//住んで/います。」というように単語に区切ります。

そして、テキストマイニングでは、分解したキーワードから、出現頻度や出現傾向、タイミングなどを分析し、有用な情報を取り出すのです。

この文章だけではわかりませんが、例えば「夕方つぶやいている人は、神奈川県に住んでいる人が多い」などの情報が得られるのです。

では、テキストマイニングは具体的に、どのようなことに活用されているのでしょうか?

続いて、テキストマイニングが使用されている事例を紹介します。
テキストマイニング

テキストマイニングの活用事例その1Twitterなどの呟きを分析

近年SNSが流行し、様々なことがつぶやかれる世の中になりました。テキストマイニングの活用は、その中でもなされています。
企業は、ユーザーや顧客の声の詳細を拾うために、TwitterのつぶやきやFacebookに書き込まれた文章の内容をテキストマイニングし分析することがあります。

数あるSNSの中でもTwitterの場合、ユーザーは感じたこと、思ったことをすぐに書き込む傾向が強いため、企業が販売している商品に対しての嘘のない感想を拾い上げることができます。

ただし、企業側は顧客の声を拾うメディアを、その企業の商品やブランドによって選定する必要があります。

また、テキストマイニングして分析したデータの活用方法も企業によって様々で、他社との比較に使ったり、起用するインフルエンサーの特定などがあります。

 

テキストマイニングの活用事例その2:アンケートの分析

テキストマイニングは、実際に商品やサービスを使用したお客様の感想や意見が書き込まれる、マーケティング手法の1つでもあるアンケートの分析にも活用されています。

従来のアンケートの場合、選択肢の中から答えを選択してもらう方式でないと、データ分析を行うのは困難でした。しかし、テキストマイニングによって、自由回答欄に書かれた文章もデータ分析をすることができるようになり、質問・選択肢をつくる手間がなくなりました。

また、SNSで集めたアンケートといったビッグデータにも、テキストマイニングは活用できるため、企業は、これまでよりお客様の声をしっかりと聞き取ることができます。

 

テキストマイニングの活用事例その3:新聞から株式市場の予測

テキストマイニングは機械学習と組み合わせて、新聞記事から経済の流れや株式市場変動のデータ分析・予測をおこなう研究も進められています。

以前、日経新聞で頻繁に使用されている動詞と名詞、形容詞とそれぞれの単語に隣接している言葉にテキストマイニングを使用して分析し、市場の長期予測をおこないました。

そして、約10年間のデータ分析をおこなったところ、市場平均株価の60%の騰落正答率(とうらくせいとうりつ)の予測に成功しました。

 

テキストマイニングの手順は大きくわけると2ステップ!

テキストマイニングどのように活用できるのか、イメージできたところで、テキストマイニングの手順を紹介します。

テキストマイニングは、①はじめに辞書を使用して自然言語処理をおこない、②そのあとデータマイニングと同じ手法を使用する、という流れで分析をおこないます。

なお、自然言語処理は①形態素解析、②構文解析、③意味解析、④文脈解析の順番でおこないます。そして、文の単位で構造や意味がわかったあと、データマイニングを使用して新しい知識・情報を取り出します。

自然言語処理についてもっと詳しく知りたい人は「自然言語処理とは?スマートスピーカーにも使われている技術をわかりやすく解説!」を読んでみてください。データマイニングについて知りたい人は「5分でわかる!データマイニングの意味と手法」がおすすめです。

 

テキストマイニングの手法3選

では、具体的には、テキストマイニングをどのように進めていけばいいのでしょうか?

テキストマイニングでの分析手法は様々ですが、今回はその中からよく使われる3つの手法について紹介します。

手法によってデータ分析の方法がそれぞれ異なるため、ぜひ参考にしてみてください。
テキストマイニング

テキストマイニングの手法その1:センチメント分析

テキストマイニングの手法として代表的なのは、センチメント分析です。

センチメント分析とは、簡単にいうと顧客や消費者の感情を分析する手法です。

企業が販売した製品を実際に使用した人がネガティブ、もしくはポジティブといったどのような「感情」を持ったのか評価を分析する手法です。

SNSなどに書かれる書き込みの内容にセンチメント分析を使用し、「肯定的」「中立」「否定的」の3パターンに分けるのが主な使い方です。

ただし、「やばい」といった書き込みなどは、使用している年代によってポジティブなのか、ネガティブなのか言葉の意味合いが変わってきます。

そのため、はっきりとしない表現の場合、人が解釈をしたあとに、その解釈をもとにして新しいシステムを実装し、分析の精度を上げる必要があります。

 

テキストマイニングの手法その2:対応分析

続いて、テキストマイニングの手法として紹介するのは、対応分析です。

対応分析はコレスポンデンス分析ともいわれ、表に書かれているクロス集計やローデータなどのデータ結果を、散布図で表現できる解析手法です。

クロス集計の結果や、比較したグラフではわかりにくい場合に用いられる分析手法で、視覚的にわかりやすくなる点がメリットと言えるでしょう。

対応分析は、ブランドイメージの分析などによく使用されています。

 

テキストマイニングの手法その3:主成分分析

最後に、テキストマイニングには、主成分分析という手法がとられることがあります。

主成分分析とは、ビックデータなどたくさんのデータ項目(変数)があった時に、データを解釈しやすくするために、可能な限り変数を少なくする手法です。この技術のことは「次元の縮約」と呼ばれています。

主成分分析のメリットは、ビッグデータなど大量のデータであっても見やすくなり、分析しやすくなる点です。

ただし、デメリットもあります。それは主成分分析をおこなうことによって、一部の情報が捨てられてしまう点です。切り捨てられたデータは全ての情報を見られなくなってしまうのが、主成分分析のデメリットです。

 

このように、テキストマイニングの手法は、目的によってさまざまです。

また、テキストマイニングは、人工知能(AI)にテキストデータを学習させて分析することも可能です。

AIと聞くと難しいと感じる方もいるかもしれませんが、Udemyではテキストマイニングを含むデータサイエンスやAIについて、動画でわかりやすく解説しています!

これを機に、TwitterなどのSNS分析や株式市場の予測などをしてみてはいかがですか?

AI・機械学習を学びたい方におすすめの講座

AIとは何かを理解し、機械学習と数学の基礎を理解

分類・パターン認識からSVM、交差検証や過学習など機械学習に必要なあらゆるスキルが身に付く!

TensorFlowの環境構築から学べる、ディープラーニングの学習におすすめの講座

  • シェア
  • ツイート
  • Poket
  • はてなブックマーク
  • フォロー
  • シェア
  • ツイート
  • Poket
  • はてなブックマーク
  • フォロー

関連記事