# 形態素解析器『Sudachi』のための大規模辞書開発
> 坂本美保(株式会社ワークスアプリケーションズ)・川原 典子(株式会社ワークスアプリケーションズ)・久本 空海(株式会社ワークスアプリケーションズ)・髙岡 一馬(株式会社ワークスアプリケーションズ)・内田 佳孝(株式会社ワークスアプリケーションズ)
> 我々は,汎用的な日本語形態素解析器『Sudachi』とその辞書を開発した。本稿では,Sudachiの辞書開発内容について述べる。我々は,まず,UniDicをベースとして,見出し表記,品詞,各種パラメータ等,形態素解析をするための辞書情報を整えた。次に,実用上UniDicに不足している語句を見出しとして追加した。これには,NEologdから取り込んだ膨大な固有名称も含まれる。さらに,登録見出しについて,アプリケーションが利用しやすい形態素単位の整備,表記のゆれを同一視するための正規化表記の整備等を行い,辞書内容を充実させた。また,形態素解析精度の向上のため,UniDic由来の見出しについても,弊害となる見出しの抑制や間違いの修正,形態素単位の調整を行った。我々のこれまでの成果は,最新版の辞書ソースに反映しOSSとして公開している。
> <https://repository.ninjal.ac.jp/records/1660>
这篇论文也和 [[奈良先端科学技術大学院大学]] 的松本研究室有点关系。
> まず,UniDicをベースとして,見出し表記,品詞,各種パラメータ等,形態素解析をするための辞書情報を整えた。
根据来源和对话历史,我可以详细阐述“首先,以 UniDic 为基础,整理了用于形态素分析的词典信息,如词条标记、词性、各种参数等”这句话 [1]。
这句话描述了 Sudachi 词典开发过程中的第一步 [1]。研究人员以 **UniDic 作为基础** [1]。UniDic 是为了标注“现代日语书写均衡语料库”(BCCWJ)的形态学信息而开发的,收录了各种类型的词汇,并且单位统一 [2]。它包含了超过 75 万个词条 [2]。
在此基础上,研究人员进行了以下工作来**整理用于形态素分析的词典信息** [1]:
* **词条标记 (見出し表記)**:这是词典中的基本词汇单位 [1]。UniDic 的词条是基于形态学方面的“短单位”规定来注册的 [2]。尽管 UniDic 收录了大量的词条,但在短单位规定下,一些日常生活中常见的词语(如“小学校”、“自転車”)、地名(如“太平洋”、“東京都”)以及知名固有名称(如“集英社”、“サランラップ”)可能未被注册 [2, 3]。
* **词性 (品詞)**:UniDic 提供了词性信息 [1]。在 Sudachi 的开发过程中,对 UniDic 来源的词条进行了品词修正 [4]。
* **各种参数 (各種パラメータ)**:这些参数是进行形态素分析所必需的 [1]。Sudachi 利用了 UniDic 的单词成本和连接成本等参数 [4]。UniDic 来源的词条直接继承了这些值 [4]。
然而,仅基于 UniDic 存在一些不足 [1, 2]。UniDic 的短单位对于一些应用场景(如获取词义或进行词汇调查)来说可能不够 [2]。此外,由于其开发时间较早,UniDic 在新词方面也存在不足,例如“ゆるキャラ”和“スマホ”等词汇 [3]。同时,UniDic 由来的词条可能存在对形态素分析造成弊害的见出し(如两字符的片假名/平假名、一字符的汉字且词性为记号,以及复合型数词),这些被保留未注册 [5]。一些 UniDic 来源的词条还存在错误,需要进行修正 [4]。
因此,在以 UniDic 为基础进行整理后,研究人员需要进一步**补充 UniDic 中不足的词语**,并**充实词典内容**,例如加入了 NEologd 中的大量固有名称 [1, 3]。同时,他们也**对 UniDic 由来的见出し进行了抑制弊害和修正错误**,并调整了形态素单位,以**提高形态素分析精度** [1]。这些工作都是在 UniDic 奠定的基础上进行的 [1]。
总而言之,将 UniDic 作为基础是 Sudachi 词典开发的关键第一步,它提供了大量的词汇和基本的形态素分析信息,但也存在不足之处,需要通过后续的开发工作进行补充和完善 [1-3]。
> 次に,実用上UniDicに不足している語句を見出しとして追加した。これには,NEologdから取り込んだ膨大な固有名称も含まれる。
> また,形態素解析精度の向上のため,UniDic由来の見出しについても,弊害となる見出しの抑制や間違いの修正,形態素単位の調整を行った。