CentOSに形態素解析エンジン MeCabインストール
自然言語処理なるものに興味が出てきたので、ひとまずMeCabをインストールしてみました。
コンパイル環境などは必要に応じて適宜用意してください。
環境
CentOS 5.5 final (VMware Fusion)
MeCabインストール
注意点として、今回はあくまでお試しということで筆者はutf8のみ対応としています。
sjis、euc等も対応する場合はconfigureに指定している --enable-utf8-only を省略してください。
# cd /usr/local/src/ # wget []http://sourceforge.net/projects/mecab/files/mecab/0.98/mecab-0.98.tar.gz/download[] # tar xvfz mecab-0.98.tar.gz # cd mecab-0.98 # ./configure --enable-utf8-only # make # make install # ldconfig
辞書データインストール
今回はMeCabをutf8 onlyにしているので、辞書データも合わせてutf8のみの対応としています。
# cd /usr/local/src/ # wget []http://iij.dl.sourceforge.jp/naist-jdic/48487/mecab-naist-jdic-0.6.3-20100801.tar.gz[] # tar xvfz mecab-naist-jdic-0.6.3-20100801.tar.gz # cd mecab-naist-jdic-0.6.3-20100801 # ./configure --with-charset=utf8 # make # make install # vi /usr/local/etc/mecabrc ;dicdir = /usr/local/lib/mecab/dic/ipadic dicdir = /usr/local/lib/mecab/dic/naist-jdic
とりあえず使ってみる
mecabコマンド実行後に、任意の文字列を入力しリターン。
# mecab mecabインストール完了!
実行結果としては以下のようになります。
mecab 名詞,固有名詞,組織,*,*,*,* インストール 名詞,一般,*,*,*,*,インストール,インストール,インストール,, 完了 名詞,サ変接続,*,*,*,*,完了,カンリョウ,カンリョー,, ! 記号,一般,*,*,*,*,!,!,!,, EOS
駆け足でインストールしてみましたが、なんとなくで動くものですね。
しかしサ変接続なんて単語は生まれて初めて聞きました。(え