技術メモ(仮)

IT系の話や研究,他のことなど話して行けたらいいな~って感じです.ただいまJavaを学習中

twitterデータを分析してみた その2(Word Count編)

概要

モチベーションなどは前回の記事を参照してくださいfuji-151a.hatenablog.com
を参照

ゴール

今回は全Tweetの1%を利用し1日のTweetでどの言葉が一番多いかを各曜日で比較する.
つまりWord Countをして特徴を算出する.またそれをゴールとする.

作業

今回対象とした日付は前回同様2015/05/17~23の1週間である.
GWとかイベントとか特にないはずなので特にイレギュラーな結果はでないはず...

ツール

Word Countを行うので文を形態素に分ける必要がある.
そこで今回MeCabという形態素解析器を使用する.
形態素解析器にも種類があるがMeCabを選んだ理由として最近辞書がパワーアップしたからである.
辞書については以下のページを参照.
[O] MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました

環境構築

今回はCentos上で解析を行った.
MeCabおよび辞書の設定については下記のリンクを参考にしてください.github.com

また今回mecab-javaを利用した.
インストール方法などは過去に紹介しているのでこちらを参考にしてください.fuji-151a.hatenablog.com

解析

データの形式は1行ずつjson形式になっている(ただしファイルはJsonでない...).
実際に各日付ごとのWord Countを出してみた.
そのTop10のワードを以下に示す.(左から2015/05/17..18..19という順番)

t	345604	t	329476	t	335349	t	335023	t	337940	t	341253	t	336030
co	334207	co	318427	co	323899	co	323908	co	326616	co	329157	co	325227
http://	321884	http://	309699	http://	314536	http://	314849	http://	318080	http://	321052	http://	314608
RT	217260	RT	191761	RT	189715	RT	193662	RT	191111	RT	193986	RT	198702
ー	67224	ー	58242	ー	55689	ー	58695	ー	58382	ー	60480	ー	64188
人	56920	人	50140	人	48743	人	49268	人	46693	人	46601	人	50928
笑	42760	笑	35548	笑	34438	笑	35322	笑	34913	笑	35150	笑	37540
w	27214	w	23806	w	23643	w	23019	w	23869	w	24429	w	25766
o	22980	゚	19152	o	19447	o	20143	o	19955	o	20358	o	21460
゚	21600	o	19082	゚	19369	゚	19678	゚	19690	゚	19937	゚	20775

考察

これを見てわかることは特徴でねぇ〜wどの日付も同じw.
確かにわかりきったことではあったけどまさかここまで一緒とは思わなかった.
「http://」や「co」などを見るとURLを貼ってTweetする人が多い.1%のデータでも約30万Tweetしている.
また,その次に言えることはRTも多い,約20万.このことからURL投稿の2/3はリツイートを利用したものである可能性が高い.
もう一つの特徴は「w」と「笑」が多い.つまり投稿しているTweetのほとんどはおもしろい投稿,あるいは面白かった投稿なのかもしれない.(wは笑いを表すネット用語?)
残りの「o」「゚」などはおそらく顔文字で利用しているものと思われる.ただ今回は顔文字も形態素解析器で分解してしまったためこのような結果になったと考えられる.
しかし「t」についてはなぞ.これは今度調べる.

まとめ

今回,twitter stream apiを用いて貯めた1%のデータから
各曜日のTweetのWord Countを算出した.さらに自分なりの考察を入れた.
しかしどの曜日も同じような言葉で特徴はでなかった.
ただTweetは基本的に以下のものをつぶやいているのがほとんど.

  • 「w」や「笑」などの面白い or 面白かった投稿
  • URL付きのもの(宣伝系や画像系)
  • リツイート

次回はTF-IDFを利用してより明確な特徴を出してみたいと思う.

コード

慌てて書いたので誤字脱字やコードの間違いなどあるかもしれません.
もし何か見かけたら連絡ください.よろしくお願いします.
https://github.com/fuji-151a/twitter_analysis