「MeCabで形態素解析をして単語を抽出しましょう」とはよく見る文言ですが、いつから形態素と単語が同じものと錯覚していた?というお話です。 例として、「参考人を呼んだ」という文を形態素解析してみます。 普通の感覚では「参考人/を/呼んだ」になりますが、実際に形態素解析すると以下のようになります。 参考 名詞,サ変接続,*,*,*,*,参考,サンコウ,サンコー 人 名詞,接尾,一般,*,*,*,人,ジン,ジン を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 呼ん 動詞,自立,*,*,五段・バ行,連用タ接続,呼ぶ,ヨン,ヨン だ 助動詞,*,*,*,特殊・タ,基本形,だ,ダ,ダ 「参考/人」と「呼ん/だ」で切れています。つまり、私たちが認識する「単語」と実際の形態素は、一致する場合もあれば形態素がより細かくなる場合もあるということです。 「単語」としてのまとまり: 語の統語性 何を「単語」とす