形態素解析器MeCabをインストール
形態素解析とは?
文章を意味のある単語に区切り,辞書を利用して品詞や内容を判別すること.
コンピュータによる自然言語処理技術の一つ.(IT用語辞典 e-Wordsより)
例えば,「本日は晴天なり,絶好の洗濯日和だ.」という文があったとする.
これを形態素に分ける以下のようになる.
本日/は/晴天/なり/,/絶好/の/洗濯/日和/だ/.
/は分割を意味しています.
これが形態素解析.
この説明でわけわからんっていう人は僕の説明が悪いのでググったほうが早いです.
しかし,我々はこの分け方を理解することができるが,コンピュータはわからない.
そこで形態素解析器を用いることでそれコンピュータが理解し単語を分けてくれるのです.
今回はフリーソフトウェアであるMeCabを用いる.MeCabについては以下のURLを見るのが早い.
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
MeCabインストール
今回はCentos6.4にMeCabをインストールした.
MeCab本体のインストールを以下に示す.
$ wget http://mecab.googlecode.com/files/mecab-0.996.tar.gz // ダウンロード $ tar vfxz mecab-0.996.tar.gz $ cd mecab-0.996 $ ./configure --with-charset=utf8 --enable-utf8-only $ make $ sudo make install
MeCab本体だけでは何もできない.辞書が必要であるため辞書をインストール.
今回はIPA辞書を用いた.
$ wget http://mecab.googlecode.com/files/mecab-ipadic-2.7.0-20070801.tar.gz $ tar vzfx mecab-ipadic-2.7.0-20070801.tar.gz $ cd mecab-ipadic-2.7.0-20070801 $ ./configure --with-charset=utf8 // 文字コードをUTF-8に指定 $ make $ sudo make install
実際に動くかCHECK
$ mecab 本日は晴天なり. // 文を入力 本日 名詞,副詞可能,*,*,*,*,本日,ホンジツ,ホンジツ は 助詞,係助詞,*,*,*,*,は,ハ,ワ 晴天 名詞,一般,*,*,*,*,晴天,セイテン,セイテン なり 助動詞,*,*,*,文語・ナリ,基本形,なり,ナリ,ナリ . 記号,句点,*,*,*,*,.,.,. EOS
無事にインストールできた!!
これでTF-IDFとか計算できる!!
次回はこれをJavaから動かせれるようにする作業を行おうかと考えている.
以上