はじめに
道にあった蟻の巣を見ていたら形態素解析をやりたいと思い至りました。
なので、下調べも含めてブログに書いていきたいと思います。
(Python3を使っていてpip3でmecabをインストール出来ない人には価値のある記事)
概要
形態素解析(けいたいそかいせき、Morphological Analysis)とは、文法的な情報の注記の無い自然言語のテキストデータ(文)から、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態(Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの形態素の品詞等を判別する作業である。
MeCabはオープンソースの形態素解析エンジンで、奈良先端科学技術大学院大学出身、現GoogleソフトウェアエンジニアでGoogle 日本語入力開発者の一人である工藤拓によって開発されている。名称は開発者の好物「和布蕪(めかぶ)」から取られた。
今回はオープンソースで形態素解析ツールのMeCabを使いたいと思います。
ここの実装も時間があれば追いたいとおもいます。
環境導入
現在の環境
インストール
- pip ではmecab-python3を行っても失敗するため
Ubuntu14.04とPython3でMeCabを使う方法 | トライフィールズ
を参考にしました。
テスト
はい、やったね!!!
今回は環境構築に意外に手こずったのでテストまでにします。