自定义 Mecacb 输出格式 - NoHeartPen's Digital Garden

[[UniDic]] 都是遵循这个格式的，所以就不要自己在[[Note/Python]]里面处理，而是自己定义的好。 [[Mecab]]的[[Mecab 实战]] 的第一篇文章。 > ダウンロードした解析用UniDicのフォルダの中にある「dicrc」というファイルをメモ帳などのテキストエディタで開いてみてください。そこに、「node-format」「unk-format」という行が（セミコロン「；」でコメントアウトされずに）記述してあれば、そこがMeCabの出力列を設定している箇所です。比如下面的`dicrc` ```lua node-format-unidic = %m\t%f[9]\t%f[6]\t%f[7]\t%F-[0,1,2,3]\t%f[4]\t%f[5]\t%f[13]\n unk-format-unidic = %m\t%m\t%m\t%m\tUNK\t%f[4]\t%f[5]\t\n ;unk-format-unidic = %m\t%m\t%m\t%m\t%F-[0,1,2,3]\t%f[4]\t%f[5]\t\n eos-format-unidic = EOS\n ;語彙素\t語彙素読み\t語形\t品詞\t活用型\t活用形\t書字形\t発音形\t語種\t語彙素ID node-format-chamame2 = \t%m\t%f[7]\t%f[6]\t%f[23]\t%F-[0,1,2,3]\t%f[4]\t%f[5]\t%f[8]\t%f[9]\t%f[12]\t%f[28]\n unk-format-chamame2 = \t%m\t\t\t%m\t未知語\t\t\t\t\t\t\n bos-format-chamame2 = B eos-format-chamame2 = ``` 而`dicrc`里的数字，其实是在`rewirte.def`这个文件里定义的。 ```lua # node: # $1: pos1 # $2: pos2 # $3: pos3 # $4: pos4 # $5: cType # $6: cForm # $7: lForm # $8: lemma # $9: orth # $10: pron # $11: orthBase # $12: pronBase # $13: goshu # $14: iType # $15: iForm # $16: fType # $17: fForm # $18: iConType # $19: fConType # $20: type # $21: kana # $22: kanaBase # $23: form # $24: formBase # $25: aType # $26: aConType # $27: aModType # unk: # $1: pos1 # $2: pos2 # $3: pos3 # $4: pos4 # $5: cType # $6: cForm ``` 而按照[[UniDic]]官方在「[列名の英語と日本語の対応関係がわかりません。](https://clrd.ninjal.ac.jp/unidic/faq.html#col_name)」解释： | 英語 | 日本語 | 食べる | | --------------- | ------------ | --- | | pos | 品詞 | | | pos1 | 品詞大分類 | 動詞 | | pos2 | 品詞中分類 | 一般 | | pos3 | 品詞小分類 | | | pos4 | 品詞細分類 | | | cType | 活用型 | 下一段 | | cForm | 活用形 | | | lForm | 語彙素読み | | | lemma | 語彙素（＋語彙素細分類） | | | orth, orthToken | 書字形出現形 | | | orthBase | 書字形基本形 | | | pron, pronToken | 発音形出現形 | | | pronBase | 発音形基本形 | | | kana, kanaToken | 仮名形出現形 | | | kanaBase | 仮名形基本形 | | | goshu, wType | 語種 | | | lType | 語彙素類 | | | form | 語形出現形 | | | formBase | 語形基本形 | | | iType | 語頭変化化型 | | | iForm | 語頭変化形 | | | iConType | 語頭変化結合型 | | | fType | 語末変化化型 | | | fForm | 語末変化形 | | | fConType | 語末変化結合型 | | | lid | 語彙表ID | | | lemma_id | 語彙素ID | |