twitterデータを分析してみた その2(Word Count編)
概要
モチベーションなどは前回の記事を参照してくださいfuji-151a.hatenablog.com
を参照
作業
今回対象とした日付は前回同様2015/05/17~23の1週間である.
GWとかイベントとか特にないはずなので特にイレギュラーな結果はでないはず...
ツール
Word Countを行うので文を形態素に分ける必要がある.
そこで今回MeCabという形態素解析器を使用する.
形態素解析器にも種類があるがMeCabを選んだ理由として最近辞書がパワーアップしたからである.
辞書については以下のページを参照.
[O] MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました
環境構築
今回はCentos上で解析を行った.
MeCabおよび辞書の設定については下記のリンクを参考にしてください.github.com
また今回mecab-javaを利用した.
インストール方法などは過去に紹介しているのでこちらを参考にしてください.fuji-151a.hatenablog.com
解析
データの形式は1行ずつjson形式になっている(ただしファイルはJsonでない...).
実際に各日付ごとのWord Countを出してみた.
そのTop10のワードを以下に示す.(左から2015/05/17..18..19という順番)
t 345604 t 329476 t 335349 t 335023 t 337940 t 341253 t 336030 co 334207 co 318427 co 323899 co 323908 co 326616 co 329157 co 325227 http:// 321884 http:// 309699 http:// 314536 http:// 314849 http:// 318080 http:// 321052 http:// 314608 RT 217260 RT 191761 RT 189715 RT 193662 RT 191111 RT 193986 RT 198702 ー 67224 ー 58242 ー 55689 ー 58695 ー 58382 ー 60480 ー 64188 人 56920 人 50140 人 48743 人 49268 人 46693 人 46601 人 50928 笑 42760 笑 35548 笑 34438 笑 35322 笑 34913 笑 35150 笑 37540 w 27214 w 23806 w 23643 w 23019 w 23869 w 24429 w 25766 o 22980 ゚ 19152 o 19447 o 20143 o 19955 o 20358 o 21460 ゚ 21600 o 19082 ゚ 19369 ゚ 19678 ゚ 19690 ゚ 19937 ゚ 20775
考察
これを見てわかることは特徴でねぇ〜wどの日付も同じw.
確かにわかりきったことではあったけどまさかここまで一緒とは思わなかった.
「http://」や「co」などを見るとURLを貼ってTweetする人が多い.1%のデータでも約30万Tweetしている.
また,その次に言えることはRTも多い,約20万.このことからURL投稿の2/3はリツイートを利用したものである可能性が高い.
もう一つの特徴は「w」と「笑」が多い.つまり投稿しているTweetのほとんどはおもしろい投稿,あるいは面白かった投稿なのかもしれない.(wは笑いを表すネット用語?)
残りの「o」「゚」などはおそらく顔文字で利用しているものと思われる.ただ今回は顔文字も形態素解析器で分解してしまったためこのような結果になったと考えられる.
しかし「t」についてはなぞ.これは今度調べる.
まとめ
今回,twitter stream apiを用いて貯めた1%のデータから
各曜日のTweetのWord Countを算出した.さらに自分なりの考察を入れた.
しかしどの曜日も同じような言葉で特徴はでなかった.
ただTweetは基本的に以下のものをつぶやいているのがほとんど.
- 「w」や「笑」などの面白い or 面白かった投稿
- URL付きのもの(宣伝系や画像系)
- リツイート
次回はTF-IDFを利用してより明確な特徴を出してみたいと思う.
コード
慌てて書いたので誤字脱字やコードの間違いなどあるかもしれません.
もし何か見かけたら連絡ください.よろしくお願いします.
https://github.com/fuji-151a/twitter_analysis