テキストマイニングの簡単な解説

二本ほどテキストマイニングを使った記事を書いたので、簡単な説明をしておきます。

どんなことをするかというと、文章を単語(形態素)に分割します。

「民主主義の国ならば憲法を守るべきだ。」を分割するとこうなります。

形態素解析ウェブアプリUniDic-MeCab に行くと自分でできます。)

image

次の以下の三文を形態素解析して表にしてみます。

文1.民主主義の国ならば憲法を守るべきだ。
文2.憲法を守ることで民主主義が保証される。
文3.我が国は憲法によって民主主義を重んじる国である。

ある単語が現れるたびに1を振っておくと、文章が、1か0かの数字の配列に置き換わるわけです。1つの文章に一緒になって現れる割合が高い単語がありますね。すべての文章をこのような数表に置き換えて、相関係数に似たような計算方法で、1つの文章や1つのTwitter投稿に一緒に出てくる割合が高い単語同士が何なのかを計算します。

大体こんなかんじですね。

image

一緒に出てくる割合が高い単語を近接性

(類似性)

が高いと表現します。文例で言えば、民主主義、憲法、守るなどの単語は、近接性(類似性)が高いわけです。 KHCODERというフリーソフトでやりました。

これを図にして見やすくします。二つの記事で使ったのは多次元構成法です。

近接性を、2次元で表現することの例として次の図を上げておきます。各県間の距離を(近接性)を、2次元で表現するとこうなります。簡単に言えば地図です。 相互の距離から座標を計算します。  このような手法を使って、単語間の関係を表現したのがお見せした図です。

(出典 https://www1.doshisha.ac.jp/~mjin/R/27/27.html

image

距離と座標の関係はこんな感じです。

image

SEALDsに関するテキストマイニング(2)首都圏反原発連合との比較――内面的規律型行動基準から環境管理型行動基準へ――

(with KH Coder)

田村貴紀

SEALDs前回の続きです。

学会発表で使ったもう1つの図を公開します。SEALDsとの比較のために、「首都圏反原発連合」または「反原連」という単語をを含むツイートを分析したものです。研究の意図として、SEALDsや反原連に対してのメンションを焦点化したのではなく、それらをめぐるTwitter空間全体を見たかったので、そうなっています。

官邸前抗議が拡大し、車道解放が起こった2012年6月から9月にかけての89日間のデータを収集しました。
(検索式パターン:反原連 OR 首都圏反原発連合 since:2012-06-29 until:2012-09-16 -from:@MCANjp)

まず言及すべきなのは、データ量の大きな増加です。同じ期間の反原連のデータに比べて、SEALDsのデータはツイート数で9倍、データ量で 8.1倍に増加しています。しかも、SEALDsデータに関しては単語「シールズ」を含めていないので、実際はもっと多いでしょう。「シールズ」は多義的すぎたので。五野井郁夫さんが指摘するように、社会運動は「クラウド化」しているのですが、一口にクラウド化といっても歴史的変遷があるわけです。

image

次にテキストマイニングの結果を見てみます。テキストマイニングは、数百という単位で単語のみ扱うという目の粗い方法なので、全体を俯瞰できるのですが、詳細についてはわからないことがあるという前提で読んで下さい。

図の右上のあたりに、「批判」や「排除」というような言葉が見えます。路線をめぐる論争があったことが窺われます。
次に左下に「拡散」などの単語があります。Twitterを利用しての拡散に意識的で、「始まったばかりのクラウド化」という印象を受けます。

image

ここで、SEALDsの図と比べてみると、そこにあるようなレイシズ・セクシズム・エログロナンセンスをうかがわせるような単語は目立ちません。

image

つまり、反原連の図では、路線を巡るような議論は見えるけれども、それはまだ議論や討論と呼べるような次元のものでした。(個別な事例は色々あるわけですが。)しかしSEALDsの時代になると、全く対応が不可能であるようなレイシズム・セクシズムが投げつけられるようになったということです。

 

ネットでの議論は常に難しく、場にコミュニケーションが所属するBBSから、コミュニケーションが個人に所属するようになったブログ、Twitterへの変化、ネットでのパブリックとは何か、ネット空間の公共性と親密性の融合(personal as political)などについて、今後記事を投稿したいです。

それらは次にして、この記事で強調したいのは、

あえて極論すると、 「議論が成立するような環境」から「議論が不可能な環境」へと変化したということです。典型的なのは、「プリキュア」「出会い」などに見られるボットによる攻撃で、ソフトウェアが連続発信する嫌がらせのためだけのTweetと議論のしようがありません。そうなるとサイバーテロリズムへの対応ですから、内面的規律型行動基準から環境管理型行動基準へ、対話的対応からエンジニアリング的対応へと変えざるを得なくなります。ブロック機能やリストを利用するのはその一部でしょう。

実はSEALDsは、このような卑劣な攻撃を受け続けている多くの人々の一部に過ぎません。在日外国人や差別に反対する日本人、そして安田浩一『ネット私刑』にあるように、ある日突然さしたる理由もなく多くの人が攻撃を受け、心を砕いて抵抗し、エンジニアリング的対応 を迫られています。攻撃を受けるのは、明日は私もかもしれないし、あなたかもしれません。

そして、こんな社会にしてしまった責任の多くは、誰にあるのでしょうか?選挙権を持って数年で「憲法を守れ」と言っただけで殺害予告を受けている青年や、「平和を守れ」と言ったためにセクハラ攻撃を受け続けている未成年の女子学生にあるのでしょうか?私はそうは思いません。大きな責任を感じるべき人は他にいるでしょう。重要な事は、我々はこんな社会にしてしまったということです。そしてそれを変えなくてはならない、ということです。

日本の社会運動と音楽についての出版:The Revolution Will Not Be Televised: Protest Music After Fukushima

プリンストン大学Noriko Manabe教授が新しい本を出版しますが、そのなかで扱われたSASPLやECDの動画のリストです。 それ以外にも311以前からの沢山の動画がリストアップされています。各章ごとに扱った動画についてリストアアップしています。このリストにそって動画を見るだけでも興味深いし、勉強になります。Noriko ManabeはSEALDsに関する論文を書いていて、多分、最初の学術論文です。

SASPL時代のデモのコールが今以上にやりたいようにやっていて、だんだん変わったんだなぁというのがわかります。

ビデオリスト

本の紹介