[[2023-03-05]] 写[[我的本科毕业论文]]时第一次认真读这个东西。
# 原文
オープンな形態素解析器として Juman, ChaSen が存在する. それぞれの 基本的な開発理念は以下である
* コスト値推定に [Conditional Random Fields, CRF](http://www.cis.upenn.edu/~pereira/papers/crf.pdf) を採用
HMM は, 唯一の内部状態を定義する必要があった. 一方 CRF はオーバラッ プを含めた複数の内部状態を定義することが可能である. この機能により, 細い品詞階層と粗い品詞階層の確率値を混ぜるといった, 「スムージング」が自然にかつ自動的に実現できる. これは, 複雑な品詞体系を扱う上で便利な機能であり, 人手処理を大幅に簡略化することができる.
CRF の採用により, 品詞体系, 単語長, 辞書の変更に対し柔軟にかつ低コストで対応できるようになる. さらに, CRF は, HMM の 1/3 程度の学習コーパスで同程度の 性能が得られることが分かっている. つまり, 新しいドメインへの 適用といった事にも低コストで対処できるであろう.
また, CRF は, これまでの最小コスト法として定式化できるため, 解析速度の劣化はない.
MeCab 0.90 は, コスト推定プログラムも含め配布する. 最小限の設定でも高い精度が得られるようなユーザビリティーを 提供する.
解析結果: 上 Juman, 下 ChaSen との比較.
seg: わかち書きの精度, top: 品 詞まで含める, all: 活用まですべて含める
E-HMMs が現状の MeCab/ChaSen

* 未知語処理の外部定義
MeCab 0.90 では, ユーザが未知語処理の戦略を自由に定義可能となる. 基本的な戦略として字種に基づくわかち書きを行う. 字種そのものの定義 (どの文字コードがどの字種に対応するか), 各字種に対するわかち書きの定義 (グループ化するか, N 文字づつまとめる か), わかち書きされたものにどのような品詞を割りあてるか. といた事がユーザ自身で定義できる.
字種を表現するための内部コードに Unicode を用いており, 未知語処理の言語非依存性が (部分的に) 実現できる.
また, 未知語処理のパラメータも CRF により推定される. ChaSen や Juman に比べれば, 未知語に対する 解析精度の向上が期待できる
解析例
MeCab 0.81 の解析結果
```
ホリエモン氏に会った。
ホ 名詞,一般,*,*,*,*,ホ,ホ,ホ
リエ 名詞,固有名詞,人名,名,*,*,リエ,リエ,リエ
モン 名詞,固有名詞,一般,*,*,*,モン,モン,モン
氏 名詞,接尾,人名,*,*,*,氏,シ,シ
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ
会っ 動詞,自立,*,*,五段・ワ行促音便,連用タ接続,会う,アッ,アッ
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
。 記号,句点,*,*,*,*,。,。,。
```
MeCab 0.90 の解析結果 (周辺のコンテキストを考慮しながら「ホリエモン」を正しく解析できる)
```
ホリエモン氏に会った。
ホリエモン 名詞,固有名詞,人名,一般,*,*,* 0,10
氏 名詞,接尾,人名,*,*,*,氏,シ,シ 10,12
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ 12,14
会っ 動詞,自立,*,*,五段・ワ行促音便,連用タ接続,会う,アッ,アッ
14,18
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ 18,20
。 記号,句点,*,*,*,*,。,。,。 20,22
```
* ソフトなわかち書き
形態素解析器の仕事は, おおざっぱに言えば「入力文を形態素に区切る」こ とにある. しかし 「本部長」のように単独の解を得られない場合がある. (本 / 部長 or 本部 / 長). また長い複合語が定義されている時, その構成語が出力されないという問題もある.
MeCab 0.90 では, 「入力文を形態素に区切る」という機能とは別の 「入力文から形態素を抽出する」という機能を提供する. 「形態素を抽出する」機能を実現するには, 入力文のすべての部分文字列の「形態素らしさ」を 算出する必要がある. MeCab 0.90 では この「形態素らしさ」を「形態素周辺確率」 という形で算出する. 詳細は言語処理学会 2005 にて[発表](http://chasen.org/~taku/publications/nlp2005.pdf)済み
以下が解析例である
```
本部長
本部 名詞,固有名詞,地域,一般,*,*,本部,モトブ,モトブ 0.026441
本部 名詞,一般,*,*,*,*,本部,ホンブ,ホンブ 0.619559 *
本 名詞,固有名詞,人名,姓,*,*,本,モト,モト 0.010897
本 名詞,一般,*,*,*,*,本,ホン,ホン 0.046961
本 接頭詞,名詞接続,*,*,*,*,本,ホン,ホン 0.292945
部長 名詞,一般,*,*,*,*,部長,ブチョウ,ブチョー 0.352623
長 名詞,一般,*,*,*,*,長,チョウ,チョー 0.013549
長 名詞,接尾,一般,*,*,*,長,チョウ,チョー 0.624362 *
```
* が付いたものが実際の解析結果. 「形態素らしさ (形態素周辺確率)」も同時に 出力される
「形態素らしら」は入力文によって変わることに注意されたい.
```
松本さんに会う。
松本 名詞,固有名詞,人名,姓,*,*,松本,マツモト,マツモト 0.989497 *
さん 名詞,接尾,人名,*,*,*,さん,サン,サン 0.998228 *
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ 0.990367 *
会う 動詞,自立,*,*,五段・ワ行促音便,基本形,会う,アウ,アウ 0.999387 *
。 記号,句点,*,*,*,*,。,。,。 0.999999 *
EOS
松本市に行く。
松本 名詞,固有名詞,地域,一般,*,*,松本,マツモト,マツモト 0.919221 *
松本 名詞,固有名詞,人名,姓,*,*,松本,マツモト,マツモト 0.073882
市 名詞,接尾,地域,*,*,*,市,シ,シ 0.886151 *
市 名詞,一般,*,*,*,*,市,シ,シ 0.110607
に 助詞,副詞化,*,*,*,*,に,ニ,ニ 0.013169
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ 0.986618 *
行く 動詞,自立,*,*,五段・カ行促音便,基本形,行く,イク,イク 0.966972 *
行く 動詞,自立,*,*,五段・カ行促音便ユク,基本形,行く,ユク,ユク 0.030681
。 記号,句点,*,*,*,*,。,。,。 0.999997 *
EOS
```
上記のように「松本」の形態素らしさは周辺のコンテキストで変化する
* 複数の解析モデルを解析器とは別に配布
解析器とパラメータ (辞書, 連接コスト) が完全に独立に 設計されるので, 以下の辞書についてのパラメータを個別に配布する. ただし, ライセンスは個々の辞書に準ずる
* IPADIC
* JUMAN
* Canna (学習用コーパスが無いので作るかも?)
* 中国語解析 (未定)
* 英語解析 (未定)