CentOSに形態素解析エンジン MeCabインストール

自然言語処理なるものに興味が出てきたので、ひとまずMeCabをインストールしてみました。
コンパイル環境などは必要に応じて適宜用意してください。

環境

CentOS 5.5 final (VMware Fusion)

MeCabインストール

注意点として、今回はあくまでお試しということで筆者はutf8のみ対応としています。
sjiseuc等も対応する場合はconfigureに指定している --enable-utf8-only を省略してください。

# cd /usr/local/src/
# wget []http://sourceforge.net/projects/mecab/files/mecab/0.98/mecab-0.98.tar.gz/download[]
# tar xvfz mecab-0.98.tar.gz 
# cd mecab-0.98
# ./configure --enable-utf8-only
# make
# make install
# ldconfig

辞書データインストール

今回はMeCabをutf8 onlyにしているので、辞書データも合わせてutf8のみの対応としています。

# cd /usr/local/src/
# wget []http://iij.dl.sourceforge.jp/naist-jdic/48487/mecab-naist-jdic-0.6.3-20100801.tar.gz[]
# tar xvfz mecab-naist-jdic-0.6.3-20100801.tar.gz
# cd mecab-naist-jdic-0.6.3-20100801
# ./configure --with-charset=utf8
# make
# make install
# vi /usr/local/etc/mecabrc
;dicdir =  /usr/local/lib/mecab/dic/ipadic
dicdir =  /usr/local/lib/mecab/dic/naist-jdic

とりあえず使ってみる

mecabコマンド実行後に、任意の文字列を入力しリターン。

# mecab
mecabインストール完了!

実行結果としては以下のようになります。

mecab	名詞,固有名詞,組織,*,*,*,*
インストール	名詞,一般,*,*,*,*,インストール,インストール,インストール,,
完了	名詞,サ変接続,*,*,*,*,完了,カンリョウ,カンリョー,,
!	記号,一般,*,*,*,*,!,!,!,,
EOS

駆け足でインストールしてみましたが、なんとなくで動くものですね。
しかしサ変接続なんて単語は生まれて初めて聞きました。(え