# 形態素解析器『Sudachi』のための大規模辞書開発
> 坂本美保(株式会社ワークスアプリケーションズ)・川原 典子(株式会社ワークスアプリケーションズ)・久本 空海(株式会社ワークスアプリケーションズ)・髙岡 一馬(株式会社ワークスアプリケーションズ)・内田 佳孝(株式会社ワークスアプリケーションズ)
> 我々は,汎用的な日本語形態素解析器『Sudachi』とその辞書を開発した。本稿では,Sudachiの辞書開発内容について述べる。我々は,まず,UniDicをベースとして,見出し表記,品詞,各種パラメータ等,形態素解析をするための辞書情報を整えた。次に,実用上UniDicに不足している語句を見出しとして追加した。これには,NEologdから取り込んだ膨大な固有名称も含まれる。さらに,登録見出しについて,アプリケーションが利用しやすい形態素単位の整備,表記のゆれを同一視するための正規化表記の整備等を行い,辞書内容を充実させた。また,形態素解析精度の向上のため,UniDic由来の見出しについても,弊害となる見出しの抑制や間違いの修正,形態素単位の調整を行った。我々のこれまでの成果は,最新版の辞書ソースに反映しOSSとして公開している。
> <https://repository.ninjal.ac.jp/records/1660>
这篇论文也和 [[奈良先端科学技術大学院大学]] 的松本研究室有点关系。
> まず,UniDicをベースとして,見出し表記,品詞,各種パラメータ等,形態素解析をするための辞書情報を整えた。
> UniDic では,言語の形態論的側面に着目して規定された短単位7で見出し 登録されている。そのため,たとえば語義を取り扱いたい場合や語彙調査をする場合には そのままでは不足が生じる。一方,NEologd では,複数の短単位から成る固有表現が一塊 で登録されているため,そのまま検索システムで利用すると再現率が低くなる等,支障が ある8。
重点就是这里的[[短单位]],
[[UniDic]]
![[Sudachi 自定义词典说明书#フォーマット]]
[[大辞泉]]
0 見出し (TRIE 用) trie_entry
4 見出し (解析結果表示用) analysis_display_entry
5 品詞1 pos1
6 品詞2 pos2
7 品詞3 pos3
8 品詞4 pos4
9 品詞 (活用型) cType
10 品詞 (活用形) cForm
11 読み lForm
12 正規化表記 normalized_form
0 見出し (TRIE 用) trie_entry
1 左連接ID left_connection_id
2 右連接ID right_connection_id
3 コスト cost
4 見出し (解析結果表示用) analysis_display_entry
5 品詞1 pos1
6 品詞2 pos2
7 品詞3 pos3
8 品詞4 pos4
9 品詞 (活用型) cType
10 品詞 (活用形) cForm
11 読み lForm
12 正規化表記 normalized_form
13 辞書形ID dictionary_form_id()
14 分割タイプ segmentation_type
15 A単位分割情報 a_segmentation_type
16 B単位分割情報 b_segmentation_type
17 ※未使用 unused_field
![[「UniDic」国語研短単位自動解析用辞書 FAQ#Q 列名の英語と日本語の対応関係がわかりません。]]