テキストマイニングの簡単な解説

二本ほどテキストマイニングを使った記事を書いたので、簡単な説明をしておきます。

どんなことをするかというと、文章を単語(形態素)に分割します。

「民主主義の国ならば憲法を守るべきだ。」を分割するとこうなります。

形態素解析ウェブアプリUniDic-MeCab に行くと自分でできます。)

image

次の以下の三文を形態素解析して表にしてみます。

文1.民主主義の国ならば憲法を守るべきだ。
文2.憲法を守ることで民主主義が保証される。
文3.我が国は憲法によって民主主義を重んじる国である。

ある単語が現れるたびに1を振っておくと、文章が、1か0かの数字の配列に置き換わるわけです。1つの文章に一緒になって現れる割合が高い単語がありますね。すべての文章をこのような数表に置き換えて、相関係数に似たような計算方法で、1つの文章や1つのTwitter投稿に一緒に出てくる割合が高い単語同士が何なのかを計算します。

大体こんなかんじですね。

image

一緒に出てくる割合が高い単語を近接性

(類似性)

が高いと表現します。文例で言えば、民主主義、憲法、守るなどの単語は、近接性(類似性)が高いわけです。 KHCODERというフリーソフトでやりました。

これを図にして見やすくします。二つの記事で使ったのは多次元構成法です。

近接性を、2次元で表現することの例として次の図を上げておきます。各県間の距離を(近接性)を、2次元で表現するとこうなります。簡単に言えば地図です。 相互の距離から座標を計算します。  このような手法を使って、単語間の関係を表現したのがお見せした図です。

(出典 https://www1.doshisha.ac.jp/~mjin/R/27/27.html

image

距離と座標の関係はこんな感じです。

image

広告