中文题目: 基于词法学的日语词典应用程序索引设计
外文题目: 形態論に基づく日本語辞書アプリのインデックス設計
## 摘要
对辞典使用者而言,电子辞典拥有比纸质辞典更灵活的检索途径,这些更方便的检索途径主要是结合计算机查询检索数据库的特点,在纸质辞典的索引的基础上,对词典应用程序的索引进行修改和补充。
本论文首先总结分析了日语辞典应用程序中常见的索引检索方法,重点分析了近年来新出现的“修正检索”功能。这种检索方式会对用户提交的内容进行预处理,自动识别并滤去词形变化或屈折变化和词缀,还原至目标语的原形或标准形式。目前,大多数常用日语辞典应用程序采用的做法都是依据词法学理论,将研究、分析和抽象出的各种词法规则表示为计算机可存储、 理解和使用的形式,而这一过程和日语自然语言处理的重要问题“形态素解析”是类似的。这种解决方法有2个关键点:记录原形的词典(即形态素解析词典)、对非原形的内容进行处理的词法规则或统计学算法。前人的研究指出:形态素解析词典中收录的用言活用形的多少和日语异形词表记的数量是影响解析效果的2个重要因素,本文也从这2点出发,基于词法学理论分析如何设计辞典应用程序的索引,以提高修正检索的准确率和查询速度。
Juman 辞書、IPA辞書和 UniDic 辞書是目前主流的日语形态素解析词典,三者在收录用言活用形和日语异形词时,采取了不同原则。三者本都是设计用于机器翻译、文章校对、文本分类等上下文语境清晰完整的场景,并未考虑到词典检索这样严重缺失上下文的情况,故将三者用于词典应用程序的修正检索时,需要根据具体的应用场景和需求,综合考虑数据规模、查询速度和查询准确率等因素,结合实际的使用场景,对这三个日语形态素解析词典做进一步的优化,才能在提高结果的准确率的同时,降低查询所需的时间和内存资源。
第二章通过最长匹配法这种索引查询算法,以兼顾辞典索引文件的大小和修正检索的准确率为目标,针对日语动词活用复杂多变的特点,基于词法学理论设计日语辞典应用程序的索引,使之具备更好的修正查询性能和准确率。
第三章则是就日语表记方法复杂多变这一特点,从片假名、平假名和汉字这三种日语的书写表记方式入手,指出在传统的纸质辞典编撰中被忽略的词条,并总结一些明显的规律,为解决日语异形词检索困难这一问题,应该如何构建词典索引提供一些普适性的参考意见。
最后,根据前三章的分析,总结设计日语词典应用程序的索引时应遵循的注意事项。希望本文能为日语电子词典的检索系统设计者提供一些参考建议,同时也希望能帮助用户在查询活动中最大限度地利用现有资源,提高日语词典应用程序的用户友好性。
关键词:电子词典;词法学;辞典检索;形态素解析
## 要旨
電子辞書は、紙の辞書に比べてより柔軟な検索方法を提供している。これらの便利な検索機能は、主にコンピュータによるデータベース検索の特徴を活かし、紙の辞書の索引を基に、辞書アプリのインデックスを修正・補強したものである。
本論文では、まず日本語辞書アプリでよく使われる検索方法をまとめ、特に近年登場した「修正検索」機能に焦点を当てて分析した。この検索方法は、ユーザーが入力した内容を事前処理し、語形変化や接辞を自動認識・除去して、対象語の原形または標準形に戻す。現在、多くの日本語辞書アプリでは、形態論理論に基づき、研究・分析・抽象化された各種の形態規則をコンピュータが保存・理解・利用可能な形で表現しており、このプロセスは日本語自然言語処理の重要な課題である「形態素解析」と類似している。この解決方法には2つのキーポイントがある:標準形を記録した辞書(形態素解析辞書)と、非標準形の内容を処理するルール、または統計学的アルゴリズムである。先行研究によると、形態素解析辞書に収録された用言活用形の数と日本語異表記の量が解析精度に大きく影響すると指摘されており、本論文もこの2点に着目し、形態論に基づいて辞書アプリのインデックスを設計し、修正検索の精度と検索速度を向上させる方法を分析した。
今よく使われている日本語形態素解析辞書は Juman辞書、IPA辞書、UniDic辞書であるが、これらは用言活用形と日本語異表記の収録において異なる原則を採用している。これらは元々、機械翻訳、文章校正、テキスト分類など文脈が明確な場面を想定して設計されており、辞書検索のように文脈が大幅に欠如する状況は考慮されていない。そのため、これらを辞書アプリの修正検索に適用する際には、具体的な利用シーンとニーズに応じて、データ規模、検索速度や検索精度などの要素を総合的に考慮し、さらに最適化を行う必要がある。これにより、結果の精度を向上させつつ、検索に必要な時間とメモリリソースを削減できる。
第2章では、最長一致法という形態素解析アルゴリズムを用い、辞書のインデックスファイルのサイズと修正検索の精度を両立させることを目標に、日本語動詞の複雑な活用パターンに対応するため、形態論に基づいて日本語辞書アプリの索引を設計し、より優れた修正検索性能と精度を実現した。
第3章では、日本語の表記方法の複雑さに焦点を当て、カタカナ、ひらがな、漢字という3つの表記方式から、伝統的な紙の辞書編集では見過ごされがちな見出し語を指摘し、明らかな規則性をまとめた。これにより、日本語異表記の検索困難さを解決するため、辞書索引を構築する際の普遍的な参考意見を提供する。
最後に、前三章の分析に基づき、日本語辞書アプリの索引設計時に注意すべき点をまとめた。本論文が日本語電子辞書の検索システム設計者にとって参考となり、また日本語学習者が辞書アプリを最大限活用し、辞書アプリのユーザーフレンドリー性を向上させる一助となることを願っている。
キーワード:電子辞書、形態論、辞書検索、形態素解析
## 致谢
本論文をまとめるにあたりまして、論文でいろいろ応援してくださった先生方や友達に衷心より感謝の意を表させていただきます。
まず、「形態素解析」という自分が前から興味があるものをテーマとして選定させていただき、構造の修正から論文の内容や表現まで、いろいろ貴重なご意見をしてくださった指導教官である楊玲先生に心から感謝の気持ちを表したいと存じます。先生のサポートがなければ、この論文を完成させることはできませんでした。心からお礼申し上げます。
次に、日本語学部の先生方に厚く感謝申し上げます。四年間にわたる勉強を通して、日本語レベルゼロから今日の実りを得られたことは先生方の平日のご指導とはなかなか切り離せないのです。いろいろお世話になって誠にありがとうございます。
さらに、この場をお借りして、参考資料の収集を手伝ってくれた日本語学部の先輩たちや友達にも、感謝いたします。
また、この情報科学学部のような論文を完成する間、満星 MAX、[MrCorn0-0](https://github.com/MrCorn0-0)などネットで知り合った友達が自然言語処理についての誤りを指摘し、協力してくれたことへ感謝を申し上げます。
最後に、再び、心から先生方と友達に感謝の意を表したいと存じます。
## 目次
[:contents]
## はじめに
本論文ではまず日本語辞書アプリケーションの修正検索機能を紹介する。この検索方式はユーザーの提出内容に対して前処理を行い、語形変化や屈折変化、接辞を自動的に認識してフィルタリングし、目標語の原形や標準形に戻す。英語の修正検索は「レンマ収集法」だけで解決できるが(石,1993)、日中韓辭典研究所が公開した「日本語全活用形データベース」[^1]はその理念で約 1 億 2000 万の項目を集めるが、実装環境でこれほどのデータから検索するスピードが遅いので、広く使われていない。実は、日本語の修正検索で解決すべき問題は、日本語の自然言語処理の重要なテーマの「形態素解析」とほぼ同じである。
現在よく使われているやり方は、形態論に基づき、入力文を解析することである。だが、今までの形態素解析システムは大きなソフトウェアと形態素解析辞典を実装しなければならないため、チュウ太の道具箱[^2]のような読解学習支援システムはネットでサーバーと接続する必要がある。だが、辞書検索に向けての形態素解析は語学研究ための形態素解析と違い、入力した文字列を辞書形に出力できるのは唯一の目標のため、形態素解析辞典の大きさを縮小できる。解析効果に大きな影響を与える要因は、『コーパス日本語学のための言語資源形態素解析』(伝ほか 2007)で、「語形の変異、表記の変異、発音の変異」[^3]という三つの部分と分類したが、「発音の変異」の例と「表記の変異」の例は同じの「データ」と「データー」であるから、用言活用型の多さと日本語の異形詞表記の数とまとめられる。本論文もこの二つの要因から、辞書検索の正解率を高める同時に、形態素解析辞典の大きさを小さくするためにはどうすればよいかを解説する。
## 第一章 日本語の辞書アプリ検索方法
### 第1節 辞書アプリの検索方法の分類
王(2016)らが『电子词典检索功能分析及其发展构想』のなかで、ユーザー側の視点から、英語の電子辞書検索モードを「トレース検索とクロス検索、オペレータ検索、修正検索、プログレッシブ検索、音声検索、抽出式検索、セマンティック連想検索、用例検索、ウェブクローラー検索」[^4]という九つの検索方法にまとめたが、日本語の電子辞書検索モードもほぼ同じに分類できる。ただし、辞書アプリ側の視点からみれば、インデックスを検索する方法は四つだけある。
<table><colgroup><col><col></colgroup><tbody><tr><td rowspan="1" colspan="2">表 1 辞書アプリのインデックス検索方法</td></tr><tr><td>直接検索</td><td>入力したものを検索する。つまり、入力したアルファベットや仮名、漢字、漢字仮名混じりをDBで検索する方法。</td></tr><tr><td>条件検索</td><td>設定された複数のキーワードの組合せで項目を探し出すこと。正規表現検索やワイルドカード検索とも呼ばれる。後方一致検索と前方一致検索もそれに属している。</td></tr><tr><td>メニュー検索</td><td>見出しが事前に項目リストに集められたので、入力したものを分類の条件とする検索方法である。</td></tr><tr><td>修正検索</td><td>ユーザーの提出内容に対して前処理を行い、語形変化や屈折変化、接辞を自動的に認識してフィルタリングし、目標語の原形や見出し形に還元する方法である。</td></tr></tbody></table>
「修正検索」は、パソコンで単語にマウスを当てて辞書を表示する機能や調べたい単語を長押ししてポップアップされる機能でよく用いられる。このような還元的な検索は、学習者の屈折変化や接辞の間違いを減らすだけでなく、学習者の認知負荷を減らすメリットにもつながる。しかし、英語の単語の区切りがほとんど明確に示されるので、石(1993)は『计算词法学中词法分析方法初探』で「レンマ収集法」を提出したが、日本語はべた書きなので、「レンマ収集法」だけではうまくいかない。このプロセスで解決すべき問題は、テキスト音声合成の分野で読み付与の問題(長野ほか,2006)や同表記異音語の解消の問題(伝ほか,2007)などと同じ、すなわち、「分節化された単位に対して、辞書的見出しを与える」という日本語の自然言語処理における主要なテーマである「形態素解析」に属する。
### 第2節 修正検索に形態素解析エンジン使用上の注意点
形態素解析処理の流れは以下の通り:
1. 与えられた文字列(主に「文」)の分かち書き(Segmentation)
2. 品詞タグ付け(Part Of Speech (POS) Tagging)
3. 活用推定(+原形推定)(Lemmatization)
文節を得るのが目的となる機械翻訳や語学研究の場合と異なり、入力した内容はもう文節であったため、辞書形に還元することが多い。そして、キーボードでかなを入力した漢字交じり文のかな漢字変換と似ているように、入力した文章の前の部分もその時点では存在しないので、文字列を分かち書きする必要がない、入力した部分の書字形等を判別するのは十分である。つまり、修正検索は上の3と同じである。
3で使われる解析用辞書は、形態論に基づき、研究、分析、抽象化された文法ルールを、コンピューターが記憶、理解、使用できる形式として表すものである。この解決法には、辞書形を記録している辞書と、辞書形でないものを処理する文法ルールという二つの重要な要素がある。
しかし、修正検索に形態素解析エンジンを応用するとき一つの注意点がある。今、よく使われている形態素解析エンジンシステム Mecab や茶筌などは修正検索で辞書を調べるのに設計されたものではない。それらのシステムは機械翻訳のようなセンテンスが完全に入力された場合に設けられたものである。だが、辞書を調べるとき、多くの使い方は全てのセンテンスではなく調べたい部分だけを入力する。例えば、学習者は「降ります」だけ、UniDicの『現代話し言葉UniDic』[^5]を形態素解析辞書に使うMecab形態素解析器に入力したら、「降りる」を基本形として解析され、『現代書き言葉UniDic』[^6]を使うときは「降る」と判断される。しかし、学習者が「雨が降ります」か、「ここで高速を降ります」かを見ない限り、正解はどちらかも断定できない。すなわち、辞書アプリの修正検索の機能はできるだけ、可能性がある全ての解析結果を返すべきである。つまり、修正検索に形態素解析エンジンを応用するとき、N-Best解の出力オプションを使う必要がある。オープンな形態素解析器としてMeCab、ChaSen、Juman、KAKASIがあるが、N-Best解の出力可能なのはMeCabだけである。
<table><colgroup><col><col><col><col><col></colgroup><tbody><tr><td rowspan="1" colspan="5">表 2 形態素解析器の相違点</td></tr><tr><td></td><td>MeCab</td><td>ChaSen</td><td>JUMAN</td><td>KAKASI</td></tr><tr><td>解析モデル</td><td rowspan="1" colspan="3">マルコフモデル</td><td>最長一致</td></tr><tr><td>コスト推定</td><td rowspan="1" colspan="3">ある</td><td>なし</td></tr><tr><td>N-best解</td><td>可能</td><td rowspan="1" colspan="3">不可能</td></tr></tbody></table>
[MeCab Yet Another Part-of-Speech and Morphological Analyzer](https://taku910.github.io/mecab/)により抜粋
だが、辞書検索の場合は、最初の単語は学習者が調べたい単語であるから、最初の単語だけ N-Best 解で出力するのは十分である。辞書の中からできるだけ長い単語を検索し未分割の文章を分割する構文解析のアルゴリズムである最長一致法を改善し、最初の単語を N-Best 解で出力できる。
学習者が「食べなかった」を入力した例で、辞書検索に向けての最長一致法はどのようなプロセスかを説明する。
<table><colgroup><col><col></colgroup><tbody><tr><td rowspan="1" colspan="2">表 3 辞書検索に向けての最長一致法で探す内容</td></tr><tr><td>探す内容</td><td>出力の結果</td></tr><tr><td>食</td><td rowspan="6" colspan="1"><div>インデックスに載った辞書形を結果として返す</div></td></tr><tr><td>食べ</td></tr><tr><td>食べな</td></tr><tr><td>食べなか</td></tr><tr><td>食べなかっ</td></tr><tr><td>食べなかった</td></tr></tbody></table>
つまり、辞書検索に向けての最長一致法は、最初の文字から始めて、順番に後ろの文字を増やしながら検索を進め、最後の文字まで続けるということである。
そして、インデックスで次のような関連関係を作らなければならない。
<table><colgroup><col><col></colgroup><tbody><tr><td rowspan="1" colspan="2">表 4 インデックスでの関連関係</td></tr><tr><td>食</td><td>食べる</td></tr><tr><td>食べ</td><td>食べる</td></tr><tr><td>食べな</td><td>食べる</td></tr><tr><td>食べなか</td><td>食べる</td></tr><tr><td>食べなかっ</td><td>食べる</td></tr><tr><td>食べなかった</td><td>食べる</td></tr></tbody></table>
「形態素」は「意味を有する表現要素の最小単位」と定義されるが、ここの関連関係で辞書形と結ばれたものとして、「最長一致法に向けの関連関係の最小単位」は良いかどうか、第二章の第2節で論じる。
つまり、最長一致法の完全の流れは次のようなものである。
<table><colgroup><col><col><col><col></colgroup><tbody><tr><td rowspan="1" colspan="4">表 5 最長一致法で修正検索するプロセス</td></tr><tr><td>探す内容</td><td>検索</td><td>関連関係</td><td>プロセスの結果</td></tr><tr><td>食</td><td>-></td><td>食-食べる</td><td>食べる</td></tr><tr><td>食べ</td><td>-></td><td>食べ-食べる</td><td>食べる</td></tr><tr><td>食べな</td><td>-></td><td>食べな-食べる</td><td>食べる</td></tr><tr><td>食べなか</td><td>-></td><td>食べなか-食べる</td><td>食べる</td></tr><tr><td>食べなかっ</td><td>-></td><td>食べなかっ-食べる</td><td>食べる</td></tr><tr><td>食べなかった</td><td>-></td><td>食べなかった-食べる</td><td>食べる</td></tr></tbody></table>
しかし、このやり方は日本語のあらゆる表現を記述すべきではない。「食べなか」、「食べなかっ」、「食べなかった」この三者は「食べなかった」しか対応しなくて通用性がないから、「食べ」のような基本の活用形をインデックスに載せばいい、「食べな」のような「辞書形」の長さと同じの部分をインデックスに載せるメリットとデメリットは第二章の第2節で詳しく説明する。そして、「食」と「食べる」を関連したから、学習者が「食」だけを入力したとき、修正検索の結果には「食べる」もあるが、学習者が「食」で始まる他の言葉を調べたいかもしれない。つまり、「食」と「食べる」というような関連関係を載せる必要もない。インデックスで載っている関連関係を改善したあと、最長一致法の流れは以下の通り。
表 6 辞書検索に向けての最長一致法で修正検索する流れ
<table><tr><th>探す内容</th><th>検索</th><th>関連関係</th><th>プロセスの結果</th><th valign="top">出力の結果</th></tr>
<tr><td>食</td><td>=></td><td>食-食</td><td>食</td><td rowspan="6">食べる</td></tr>
<tr><td>食べ</td><td>=></td><td>食べ-食べる</td><td>食べる</td></tr>
<tr><td>食べな</td><td>=></td><td>食べな-食べる</td><td>食べる</td></tr>
<tr><td>食べなか</td><td>=></td><td>×</td><td>×</td></tr>
<tr><td>食べなかっ</td><td>=></td><td>×</td><td>×</td></tr>
<tr><td>食べなかった</td><td>=></td><td>×</td><td>×</td></tr>
</table>
ここで、「食べなか」は辞書に登録していないので、もともとの最長一致法は、次のような流れである。
表 7 構文解析の最長一致法の流れ
<table><tr><th>探す内容</th><th>検索</th><th>関連関係</th><th>プロセスの結果</th><th valign="top">出力の結果</th></tr>
<tr><td>食</td><td>=></td><td>食-食</td><td>食</td><td rowspan="4">食べる</td></tr>
<tr><td>食べ</td><td>=></td><td>食べ-食べる</td><td>食べる</td></tr>
<tr><td>食べな</td><td>=></td><td>食べな-食べる</td><td>食べる</td></tr>
<tr><td>食べなか</td><td>=></td><td>×</td><td>×</td></tr>
<tr><td>か</td><td>=></td><td>×</td><td>×</td><td rowspan="3">かった</td></tr>
<tr><td>かっ</td><td>=></td><td>×</td><td>×</td></tr>
<tr><td>かった</td><td>=></td><td>×</td><td>×</td></tr>
</table>
つまり、本来、構文解析に応用されるので、最長一致法の流れは、マッチしなかった部分の文字から、検索し続ける流れである。そして、最後までマッチしなかった部分を全部で入力するのである。
だが、辞書検索に向けての最長一致法は、最初から最後までの文字列を検索する間、たとえ関連関係を見つけなくても、次も最初の文字から始め、検索を続けるという方法である。
構文解析に向けての最長一致法は複合動詞の修正検索で大きな問題を起こす。「沸き立たなかった」で説明する。
表 8 構文解析の最長一致法で修正検索の問題
<table><tr><th>探す内容</th><th>検索</th><th>関連関係</th><th>プロセスの結果</th><th>出力の結果</th></tr>
<tr><td>沸</td><td>=></td><td>沸-沸</td><td>沸</td><td rowspan="3">沸く</td></tr>
<tr><td>沸き</td><td>=></td><td>沸き-沸く</td><td>沸く</td></tr>
<tr><td>沸き立</td><td>=></td><td>×</td><td>×</td></tr>
<tr><td>立</td><td>=></td><td>立-立</td><td>立</td><td rowspan="3">立つ</td></tr>
<tr><td>立た</td><td>=></td><td>立た-立つ</td><td>立つ</td></tr>
<tr><td>立たな</td><td>=></td><td>×</td><td>×</td></tr>
<tr><td>な</td><td>=></td><td>×</td><td>×</td><td rowspan="4">なかった</td></tr>
<tr><td>なか</td><td>=></td><td>×</td><td>×</td></tr>
<tr><td>なかっ</td><td>=></td><td>×</td><td>×</td></tr>
<tr><td>なかっかた</td><td>=></td><td>×</td><td>×</td></tr>
</table>
出力の結果は正解の「沸き立つ」と関係ない、「沸く」、「立つ」、「なっかた」で、間違う結果とも言える。
表 9 最長一致法で複合動詞を修正検索する流れ
<table><tr><th>探す内容</th><th>検索</th><th>関連関係</th><th>プロセスの結果</th><th valign="top">出力の結果</th></tr>
<tr><td>沸</td><td>=></td><td>沸-沸</td><td>沸</td><td rowspan="8"><p></p><p>沸き立つ</p></td></tr>
<tr><td>沸き</td><td>=></td><td>沸き-沸く</td><td>沸く</td></tr>
<tr><td>沸き立</td><td>=></td><td>×</td><td>×</td></tr>
<tr><td>沸き立た</td><td>=></td><td>沸き立た-沸き立つ</td><td>沸き立つ</td></tr>
<tr><td>沸き立たな</td><td>=></td><td>×</td><td>×</td></tr>
<tr><td>沸き立たなか</td><td>=></td><td>×</td><td>×</td></tr>
<tr><td>沸き立たなかっ</td><td>=></td><td>×</td><td>×</td></tr>
<tr><td>沸き立たなかった</td><td>=></td><td>×</td><td>×</td></tr>
</table>
そして、形態論でみれば、「沸き立つ」は「沸く」の連用形「沸き」と「立つ」という二つの形態素で結合しており、文法で見れば「沸き立」は不完全なものである。また、伝統的な辞書の見出しの中では、「沸き立」は集められておらず、関連関係を作ると手間がかかるので、結び付ける必要性もない。
ここで論じる「関連関係」は形態素解析辞典に載っている見出しである。隋(2003)は『面向机器翻译的日语形态素解析』において、
> 論文のタイトルが機械翻訳に向けられる理由は、形態素解析の目的が異なるためであり、形態素解析システムの構成も異なるからです。<sup>[^7]</sup>
と述べている。そして、機械翻訳にと検索に向けた主な違いは、辞書の構築に表れている。[^8]も指摘した。
### 第3節 既存の形態素解析辞典の共通点と相違点
MeCabはJuman 辞書、IPA 辞書、Unidic 辞書という三つの形態素解析辞書に対応できる解析エンジンである。先行研究では、形態素解析辞書に収録されている用言活用形の数と日本語の異形詞表記の数が解析効果に大きな影響を与えるという二つの要因が指摘されており(伝ほか,2007)、その三つの形態素解析辞書の用言活用型の数と日本語の異形詞表記の数についての共通点と相違点を論じる。
共通点は以下の通り:
1. コスト値が付け加えられる。MeCab はコスト最小法という解析手法を用いられるため、解析に曖昧性がある場合は、コストの総計が低いものを優先することにする。ゆえに、三つの形態素解析辞書にはコスト値がある。
2. 異形詞を集めるが、辞書形と同じものとして同じところに置き、扱っている。
3. 基本的な活用形の中の「仮定形、命令形、未然形、連用形」で分類されて集めている。
主な相違点は下の通り、「品詞体系」、「活用に関する処理」、「省略意志形と意志形の処理」と「活用形」にまとめられる。
表 10 形態素解析辞典の相違点
| 品詞体系 | 活用に関する処理 | 省略意志形と意志形の処理 | 活用形 | |
| ------------- | -------------------------------------------------- | ----------------------------- | -------------------------------- | --------------------------------------------------------------------------------- |
| Juman辞書[^9] | 益岡・田窪文法を参照したもの | 基本形だけ記述し、活用のルールはほかのファイアに載っている | 活用のルールで「食べよう」と「食べよ」を区分している | 仮定形<br>命令形<br>未然形<br>連用形<br>基本形<br>基本条件形<br>基本連用形タ形<br>タ系条件形<br>タ系連用テ形<br>タ系連用タリ形 |
| IPA辞書[^10] | IPA品詞体系(THiMCO97)に基づいて一部修正を加えたもの | 基本形だけ記述し、活用のルールはほかのファイアに載っている | 「来よ」「食べよ」のように「よ」までを活用語尾とした。[^11] | 例外的な形のものに対してのみ、IPA品詞体系の活用形名を使用した[^12]。 |
| UniDic辞書[^13] | 学校文法におおむね基づき、『IPA辞書(ipadic2.7.0)』や『岩波国語辞典』を参考に作られる | あらゆる活用形をそのままに一つのファイルに記述した | 区分せずに記述した | 仮定形<br>命令形<br>未然形<br>連用形<br>終止形<br>連体形<br>意志推量形 |
## 第二章 用言活用による問題及び解決策
本章は用言活用に向けて修正検索の正解率を高めるためには、形態素解析辞書がどうのように仕組まれるかを論じる。
### 第1節 形容詞の活用
本論文では、学校文法で「形容動詞」と分類される「ナ形容詞」と、学校文法で「形容詞」と分類される「イ形容詞」を、「形容詞」として共通の呼称で扱っている。
#### ナ形容詞
ナ形容詞は学校文法で用言とされて語形変化があるが、最長一致法の原則から見れば、語形変化がないと思われても出力の結果に影響を与えない。未然形の「静かだろ」、連用形の「静かだっ」と「静かに」で説明する。
表 11 最長一致法で「静かだろ」を修正検索する流れ
<table><tr><th>探す内容</th><th>検索</th><th>関連関係</th><th>プロセスの結果</th><th valign="top">出力の結果</th></tr>
<tr><td>静</td><td>=></td><td>静-静</td><td>静</td><td rowspan="4">静か</td></tr>
<tr><td>静か</td><td>=></td><td>静か-静か</td><td>静か</td></tr>
<tr><td>静かだ</td><td>=></td><td>静かだ-静か</td><td>静か</td></tr>
<tr><td>静かだろ</td><td>=></td><td>静かだろ-静か</td><td>静か</td></tr>
</table>
表 12 最長一致法で「静かだっ」を修正検索する流れ
<table><tr><th>探す内容</th><th>検索</th><th>関連関係</th><th>プロセスの結果</th><th valign="top">出力の結果</th></tr>
<tr><td>静</td><td>=></td><td>静-静</td><td>静</td><td rowspan="4">静か</td></tr>
<tr><td>静か</td><td>=></td><td>静か-静か</td><td>静か</td></tr>
<tr><td>静かだ</td><td>=></td><td>静かだ-静か</td><td>静か</td></tr>
<tr><td>静かだっ</td><td>=></td><td>静かだろ-静か</td><td>静か</td></tr>
</table>
表 13 最長一致法で「静かに」を修正検索する流れ
<table><tr><th>探す内容</th><th>検索</th><th>関連関係</th><th>プロセスの結果</th><th valign="top">出力の結果</th></tr>
<tr><td>静</td><td>=></td><td>静-静</td><td>静</td><td rowspan="3">静か</td></tr>
<tr><td>静か</td><td>=></td><td>静か-静か</td><td>静か</td></tr>
<tr><td>静かに</td><td>=></td><td>静かに-静か</td><td>静か</td></tr>
</table>
つまり、語幹の「静か」だけまで検索するとしても、出力の結果に影響を与えない。
#### イ形容詞
ナ形容詞だけ見れば、語形変化で変化しない部分の概念である語幹は最長一致法での関連関係として問題がないが、多くのイ形容詞の語幹は一つの漢字であるため、「高-高い」のような関連関係を作ると、辞書に登録していない無関係の新語の最終結果に混じりかねない。
学校文法で形容詞の活用で語形変化は以下にまとめられるが、
表 14 学校文法で形容詞の活用
|未然形|高かろ|
| :- | :- |
|連用形①|高く|
|連用形②|高かっ|
|終止形/連体形|高い|
|仮定形|高けれ|
|命令形|高かれ|
実際、「高そうだ」や「高すぎる」のような普段文法に分けられたフレーズや、「高さ」と「重み」のような派生語など基本の活用形以外のものにもよく見られるから、それらもインデックスに載せなければならない。だが、共用部分の形態素「高」に基づいて「高-高い」のような関連関係を作ると、辞書に登録していない単語を調べるとき、無関係でも出力の結果に現れるから、「高-高い」のような関連関係ではなく、「高そ-高い」、「高す-高い」のような関連関係を加える。
形容詞の活用による問題を解決するために、インデックスに以下のような関連関係を加えなければならない。
表 15 形容詞の関連関係
<table><tr><th colspan="2">関連関係</th><th>修正できる入力した内容</th></tr>
<tr><td rowspan="8">高い</td><td>高う</td><td>高う</td></tr>
<tr><td>高か</td><td>高かろう/かった/たり</td></tr>
<tr><td>高く</td><td>高くて/ない/ても/とも/なる/する</td></tr>
<tr><td>高け</td><td>高ければ</td></tr>
<tr><td>高さ</td><td>高さ</td></tr>
<tr><td>高す</td><td>高す</td></tr>
<tr><td>高み</td><td>高み</td></tr>
<tr><td>高そ</td><td>高そう</td></tr>
</table>
### 第2節 動詞の活用
学校文法で一段動詞の活用で語形変化は以下にまとめられるが、
表 16 学校文法で一段動詞の活用
<table>
<tr>
<td>活用</td>
<td>例</td>
<td></td>
</tr>
<tr>
<td>未然形</td>
<td>食べ</td>
<td>寝</td>
</tr>
<tr>
<td>連用形</td>
<td>食べ</td>
<td>寝</td>
</tr>
<tr>
<td>終止形/連体形</td>
<td>食べる</td>
<td>寝る</td>
</tr>
<tr>
<td>仮定形</td>
<td>食べれ</td>
<td>寝れ</td>
</tr>
<tr>
<td>命令形</td>
<td>食べろ・食べよ</td>
<td>寝ろ・寝よ</td>
</tr>
</table>
一段動詞にも形容詞の「高そうだ」や「高さ」のような基本的な活用形に属していない表現もある。「食べといて」、「食べさせる」のようなものを考え含めれば、一段動詞の関連関係は以下の通り。
表 17 一段動詞の関連関係
<table><tr><th colspan="2">関連関係</th><th>修正できる入力した内容</th></tr>
<tr><td rowspan="17"><p>食べる</p><p></p></td><td>食べろ</td><td>食べろ</td></tr>
<tr><td>食べよ</td><td>食べよう</td></tr>
<tr><td>食べな</td><td>食べ-ない/ながら</td></tr>
<tr><td>食べま</td><td>食べます</td></tr>
<tr><td>食べた</td><td>食べ-た/たい</td></tr>
<tr><td>食べれ</td><td>食べ-れば/れる</td></tr>
<tr><td>食べて</td><td>食べ-て/ても</td></tr>
<tr><td>食べら</td><td>食べられる</td></tr>
<tr><td>食べさ</td><td>食べさせる</td></tr>
<tr><td>食べず</td><td>食べず</td></tr>
<tr><td>食べぬ</td><td>食べぬ</td></tr>
<tr><td>食べ、</td><td>食べ、</td></tr>
<tr><td>食べ</td><td>食べ始める</td></tr>
<tr><td>食べと</td><td>食べといて</td></tr>
<tr><td>食べち</td><td>食べちゃう</td></tr>
<tr><td>食べせ</td><td>食べせる</td></tr>
<tr><td>食べん</td><td>食べん</td></tr>
</table>
五段動詞、カ行変格活用動詞とサ行変格活用動詞には、基本的な活用形に属していない表現もあるが、末尾の活用する部分の表現が基本的な活用形の語形変化にも見られるため、関連関係として結ばれたのは形態論の語形変化の部分で十分のである。
表 18 五段動詞の関連関係
<table><tr><th colspan="2">関連関係</th><th>修正できる入力した内容</th></tr>
<tr><td rowspan="5">書く</td><td>書か</td><td>書か-ない/ず/ぬ/れる/せる/せられる/される</td></tr>
<tr><td>書こ</td><td>書こう</td></tr>
<tr><td>書き</td><td>書き-たい/ます/そうだ/ながら/つつ</td></tr>
<tr><td>書い</td><td>書い-て/た/たり/ても</td></tr>
<tr><td>書け</td><td>書け・書け-ば/る</td></tr>
<tr><td rowspan="5">泳ぐ</td><td>泳が</td><td>泳が-ない/ず/ぬ/れる/せる/せられる/される</td></tr>
<tr><td>泳ぎ</td><td>泳ぎ-たい/ます/そうだ/ながら/つつ</td></tr>
<tr><td>泳げ</td><td>泳げ・泳げ-ば/る</td></tr>
<tr><td>泳ご</td><td>泳ごう</td></tr>
<tr><td>泳い</td><td>泳い-で/だ/だり/でも</td></tr>
<tr><td rowspan="4">指す</td><td>指さ</td><td>指さ-ない/ず/ぬ/れる/せる/せられる</td></tr>
<tr><td>指し</td><td>指し-たい/ます/そうだ/ながら/つつ/て/た/たり/ても</td></tr>
<tr><td>指せ</td><td>指せ・指せ-ば/る</td></tr>
<tr><td>指そ</td><td>指そう</td></tr>
<tr><td rowspan="5">立つ</td><td>立た</td><td>立た-ない/ず/ぬ/れる/せる/せられる/される</td></tr>
<tr><td>立ち</td><td>立ち-たい/ます/そうだ/ながら/つつ</td></tr>
<tr><td>立て</td><td>立て・立てば/る</td></tr>
<tr><td>立と</td><td>立とう</td></tr>
<tr><td>立っ</td><td>立っ-て/た/たり/ても</td></tr>
<tr><td rowspan="5">死ぬ</td><td>死な</td><td>死な-ない/ず/ぬ/れる/せる/せられる/される</td></tr>
<tr><td>死に</td><td>死に-たい/ます/そうだ/ながら/つつ</td></tr>
<tr><td>死ね</td><td>死ね・死ね-ば/る</td></tr>
<tr><td>死の</td><td>死の-う</td></tr>
<tr><td>死ん</td><td>死ん-で/だ/だり/でも</td></tr>
<tr><td rowspan="5">飛ぶ</td><td>飛ば</td><td>飛ば-ない/ず/ぬ/れる/せる/せられる/される</td></tr>
<tr><td>飛び</td><td>飛び-たい/ます/そうだ/ながら/つつ</td></tr>
<tr><td>飛べ</td><td>飛べ・飛べ-ば/る</td></tr>
<tr><td>飛ぼ</td><td>飛ぼう</td></tr>
<tr><td>飛ん</td><td>飛ん-で/だ/だり/でも</td></tr>
<tr><td rowspan="5">読む</td><td>読ま</td><td>読ま-ない/ず/ぬ/れる/せる/せられる/される</td></tr>
<tr><td>読み</td><td>読み-たい/ます/そうだ/ながら/つつ</td></tr>
<tr><td>読め</td><td>読め・読め-る/ば</td></tr>
<tr><td>読も</td><td>読もう</td></tr>
<tr><td>読ん</td><td>読ん-で/だ/だり/でも</td></tr>
<tr><td rowspan="5">帰る</td><td>帰ら</td><td>帰ら-ない/ず/ぬ/れる/せる/せられる/される</td></tr>
<tr><td>帰り</td><td>帰り-たい/ます/そうだ/ながら/つつ</td></tr>
<tr><td>帰れ</td><td>帰れ-ば/る</td></tr>
<tr><td>帰ろ</td><td>帰ろう</td></tr>
<tr><td>帰っ</td><td>帰っ-て/た/たり/ても</td></tr>
</table>
表 19 カ行変格活用動詞の関連関係
<table><tr><th colspan="2">関連関係</th><th>修正できる入力した内容</th></tr>
<tr><td rowspan="4">来る</td><td>来</td><td>来-ない/ず/ぬ/れる/せる/せられる/される/たい/ます/そうだ/ながら/つつ/て/た/たり/ても</td></tr>
<tr><td>来い</td><td>来い</td></tr>
<tr><td>来よ</td><td>来よ</td></tr>
<tr><td>来れ</td><td>来れば</td></tr>
</table>
表 20 サ行変格活用動詞の関連関係
<table><tr><th colspan="2">関連関係</th><th>修正できる入力した内容</th></tr>
<tr><td rowspan="5">愛する</td><td>愛さ</td><td>愛さ-ない/れる/せる/せられる/される</td></tr>
<tr><td>愛し</td><td>愛し・愛し-ない/たい/ます/そうだ/ながら/つつ/て/た/たり/ても</td></tr>
<tr><td>愛す</td><td>愛すれば</td></tr>
<tr><td>愛せ</td><td>愛せ-ず/ぬ</td></tr>
<tr><td>愛そ</td><td>愛そし</td></tr>
<tr><td rowspan="3">断ずる</td><td>断じ</td><td>断じ-ない/ない/たい/ます/そうだ/ながら/つつ/て/た/たり/ても/じろ</td></tr>
<tr><td>断ず</td><td>断ずれば</td></tr>
<tr><td>断ぜ</td><td>断ぜぬ/ぜよ</td></tr>
</table>
最後に、本章は形態論の「形態素は意味を有する最小の言語単位」の概念に基づいて、「最長一致法に向けての関連関係の最小単位」を論じた。簡単に言うと、「形態素解析辞典での関連関係の最小単位は語形変化がある部分が辞書形と同じ長さの部分」でいい。実際の実装環境では、検索のスピードを早めるために、もっと効率的なインデックスの構造があるかもしれないが。それは言語学ではなく、情報工学の問題であるから、ここで論じない。
## 第三章 表記法のゆれによる問題及び解決策
日本語で同一の形態素であるものがいくつかの異なる形をもって現れる問題は表記法による問題である。日本語の書記体系で「平仮名」、「片仮名」、「漢字」と「ローマ字」の4つ文字種があるから、英語のようなアルファベットによって記述された言語と、漢字とローマ字表記があるが、混在させて表記されない中国語と違って、日本語の表記法のゆれによる問題は極めて複雑である。表記法のゆれによる互いに異なる形は形態論で異形態という概念に見られるが、非常に不規則的であるので、活用による問題の解決策のように、全ての異形態を集めなければならない。
### 第1節 平仮名によるゆれ
平仮名は振り仮名と送り仮名として使われるが、 使われたとき、全ての漢字を書くべきではない。例えば、「付く」と「付ける」の「付」を書く違和感を感じさせるかもしれない。
表 21 「付」について漢字を書く傾向の割合
| 語彙素 | 語彙素の頻度[^14] | 書字形 | 書字形の頻度[^15] | 総計 |
| ------------ | ----------- | ------ | ----------- | -------- |
| きづく【気付く】 | 131171 | 気づく | 1332 | 79\.333% |
| | | きづく | 5 | 0\.298% |
| | | 気付く | 342 | 20\.369% |
| おしつける【押し付ける】 | 14516 | 押しつける | 5402 | 37% |
| | | おしつける | 439 | 3% |
| | | おし付ける | 1 | 0% |
| | | 押し付ける | 8587 | 59% |
ほかには、「掛け」と「掛かる」、「上がる」と「上げる」にもその傾向が見える。
常用漢字表にない漢字はよく書かれなく、かわりに対応の平仮名を書く傾向が顕著である。
表 22 常用漢字表にない漢字を書く傾向の割合
<table><tr><th><a name="_hlk129556693"></a>語彙素</th><th>語彙素の頻度</th><th>書字形</th><th>書字形の頻度</th><th>総計</th></tr>
<tr><td rowspan="4"><p>ためいき【溜め息[^16]】</p></td><td rowspan="4">7037</td><td>ためいき</td><td>80</td><td>4.41%</td></tr>
<tr><td>ため息</td><td>1427</td><td>78.58%</td></tr>
<tr><td>溜めいき</td><td>0</td><td>0%</td></tr>
<tr><td>溜め息</td><td>309</td><td>17.02%</td></tr>
<tr><td rowspan="4"><p>てすり【手摺[^17]】</p></td><td rowspan="4">4168</td><td>てすり</td><td>0</td><td>0%</td></tr>
<tr><td>手すり</td><td>505</td><td>81.45%</td></tr>
<tr><td>手摺</td><td>49</td><td>7.90%</td></tr>
<tr><td>手摺り</td><td>66</td><td>10.65%</td></tr>
</table>
常用漢字音訓表にない読みがある単語にその傾向もある。
表 23 常用漢字音訓表にない読みを書く傾向の割合
| 語彙素 | 語彙素の頻度 | 書字形 | 書字形の頻度 | 総計 |
| -------------- | ------ | ---- | ------ | ----- |
| そよかぜ 【微風】[^18] | 1041 | そよかぜ | 12 | 6.1% |
| | | そよ風 | 103 | 52.3% |
| | | 微風 | 82 | 41.6% |
| よそもの【余所者】[^19] | 1191 | よそもの | 16 | 10% |
| | | よそ者 | 127 | 78.3% |
| | | 余所者 | 19 | 11.7% |
### 第2節 片仮名表記によるゆれ
日本語のオノマトペはカタカナで表記されることが比較的多いが、一般的には、国語辞典に見出し語として集められない。また、音を示すことを目的とする場合や、学術用語など一般と異なる表記による効果を目的とする場合は、普段平仮名で書く単語をカタカナで書くのも珍しくない。その違いは学習者にとって、辞書を調べることに障りになる。
表 24 片仮名と平仮名を使う傾向の割合
<table><tr><th>語彙素</th><th>語彙素の頻度</th><th>書字形</th><th>書字形の頻度</th><th>総計</th></tr>
<tr><td rowspan="3">くま【熊】</td><td rowspan="3">13233</td><td>くま</td><td>354</td><td>17.361%</td></tr>
<tr><td>熊</td><td>775</td><td>40.26%</td></tr>
<tr><td>クマ</td><td>910</td><td>43.562%</td></tr>
<tr><td rowspan="2">どきどき</td><td rowspan="2">4291</td><td>どきどき</td><td>240</td><td>20.356%</td></tr>
<tr><td>ドキドキ</td><td>939</td><td>79.644%</td></tr>
</table>
そして、カタカナしか書かれない外来語は片仮名表記によるゆれ問題もあるが、上と違って、規則は簡単にまとめられない。
外来語でよく使われる長音符「ー」は典型的な例である。「ー」は単語の中でも語尾でも使われるが、表記のゆれは同じものではない。単語の中「ー」は長母音にかわり、語尾の「ー」は省かれたのであるから。しかし、それは断じられない。
表 25 長音符と長母音を使う傾向の割合
| 語彙素 | 語彙素の頻度 | 書字形 | 書字形の頻度 | 総計 |
| --------- | ------ | --- | ------ | ----- |
| メイド【maid】 | 7,598 | メイド | 616 | 66.4% |
| | | メード | 69 | 10% |
| レース [^20] | 32,063 | レエス | 1 | 1% |
| | | レース | 4,307 | 99% |
また、外来語の語尾に長音符を付けるについての原則もある。JIS規格IS規格で「原語(英語)の語尾の長音符を省く場合の原則は、3音以上の場合には、語尾に長音符を付けない。2音以下の場合には、語尾に長音符を付ける。」と書かれたが、下の三つの外来語の書字形の頻度で見れば、実際に使うとき、多くの人がその原則に背いたかもしれない。
表 26 外来語の語尾に長音符を付ける傾向
| 語彙素 | 語彙素の頻度 | 書字形 | 書字形の頻度 | 総計 |
| ----------- | ------ | ------- | ------ | ----- |
| コンピューター | 50,104 | コンピュータ | 4,542 | 78.7% |
| 【computer】 | | コンピューター | 1,227 | 21.3% |
| エレベーター | 11,749 | エレベータ | 154 | 10.9% |
| 【Elevator】 | | エレベーター | 1,248 | 89.1% |
| エスカレーター | 3,130 | エスカレータ | 19 | 46.3% |
| 【Escalator】 | | エスカレーター | 22 | 53.7% |
### 第3節 異体字と簡体字によるゆれ
日本語では、「圓」と「円〕、「應」と「応」などの新旧字体の違いがある、これらはでは指摘されており(天沼寧 1981)、異体字による形態論の異形態だと注意されたが、中国語の簡体字と日本語の漢字の違いがあまりに重視されていない。逆に、中国語の簡体字と繁体字の違いが以前から研究されたが、日本語の漢字と繁体字はほぼ同じだと印象を与えるようになった。
中国人の学習者が読み方が分からないとき、中国語の簡体字や繁体字を日本の漢字としてやってみるのはよく見られる。そのやり方によって、辞書アプリは簡体字と繁体字を日本の漢字に直接的に繋げる必要がある。中国語の簡体字と繁体字で表記的にではなく意味的に等しい語彙素があるので、関係が非常に深いから、その変換も非常に難しい計算処理課題と見られるが、現在の解決方法は少数の誤りだけしかない。
しかし、中国語と日本語の関係はそんなに深くないため、今では系統的な解決方法が公開していない。日本人で開発された辞書アプリは日本語の漢字だけ認識できるが、Hujiang、YouDao、MOJiなど中国人が開発された辞書アプリは独自の転換ルールが使ったが、漏らされた漢字があるので、特に「太閤」と「太阁」のような文化や地名についての言葉の転換はあまりによくない。
そして、学習者にとって、中国の簡体字で書かれた日本人の名前を調べる時は一層難しくなる。例えば、「京极夏彦」を調べる時は「京極夏彦」を入力しなければならない。「太閤」と「太阁」、「京極夏彦」と「京极夏彦」は異形態として辞書アプリのインデックスに加える必要もある。
## おわりに
本論文は形態論に基づく日本語辞書アプリの索引設計について研究した。著者は、まず日本語辞書アプリにおける一般的な索引検索方法をまとめ、特に近年登場した「修正検索」機能を重点的に分析した。次に、形態素解析や最長一致法などの関連概念を紹介し、これらの概念を活用して日本語辞書アプリケーションの索引を設計する方法について探究した。Juman辞書、IPA辞書、UniDic辞書などの形態素解析辞書を分析することにより、用言活用形と異形語表記の数が修正検索の精度に影響する2つの重要な要因から、具体的な提言を行った。その結果として、辞書サイズの大幅な縮小の効果が得られた。
本論文は、複雑なアルゴリズムを使わず、既存の伝統的な紙の辞典の見出しに基づくインデックスを改善するために、アドバイスを電子辞書検索システムの設計者に提供できる。また、辞書アプリのユーザーは現在の資源を最大限に利用することも促進し、日本語辞書アプリケーションの使いやすさも向上させたいと思う。
また、本論文は活用と表記法に注目し、古文についてのことを考えないで、現代日本語に向けての修正検索の改善策だけ検討した。そして、本論文は最長一致法の規則によるアルゴリズムに基づいて論じたが、この方法は辞書に登録していない未定義語に対してよく処理できないので、隠れマルコフモデルや条件付き確率場などの確率的言語モデルの統合による修正検索も検討の価値がある。
今後の研究方向としては、実装環境で修正検索の精度と速度をより高め、「気が付く」と「気がつく」のような慣用句の異表記問題をより適切に処理できる方法について探求することも期待される。
## 参考文献
鴻野知暁,小木曽智信.見出し語の時代情報を付与した電子化辞書の構築[C].言語処理学会第20回年次大会発表論文集, (2014):209-212.
鈴木智美.日本語学習者は辞書からどのように言葉を探すのか―中級・中上級日本語学習者7 名の辞書使用についての調査事例報告から―〈研究ノート〉 [J].日本語・日本学研究,2016(6):1-24
前川喜久雄.コーパス入門講座日本語コーパス[M].東京:朝倉書店,2013.
小木曽智信,中村壮範.『現代日本語書き言葉均衡コーパス』形態論情報データベースの設計と実装[M].東京:国立国語研究所,2011.
川村よし子. 双方向の辞書引きを可能にする学習支援システムの開発と評価[J]. ヨーロッパ日本語教育, 2020, 24: 319-327.
天沼寧.中日漢字字体対照表[J].大妻女子大学文学部紀要,1981,13(03):59-82.
伝康晴,小木曽智信,小椋秀樹,山田篤,峯松信明,内元清貴,小磯花絵.コーパス日本語学のための言語資源:形態素解析用電子化辞書の開発とその応用[J].日本語科学,2007(22):101-123.
伝康晴,中村純平,小木曽智信,小椋秀樹:「語種情報を用いた同表記異音語の解消」[C]. 言語処理学会第14回年次大会, (2008):69-72.
春遍雀来. 面向中日韩文智能信息检索的基于词典的异形词排歧[C].中国辞书学会双语词典专业委员会第6届年会暨学术研讨会论文专辑.,2005:114-117.
何贝.国内主流手机词典检索结构的用户友善研究[D].广东外语外贸大学,2021.
石敏.计算词法学中词法分析方法初探[J].外语学刊(黑龙江大学学报),1993(04):21-26.
隋福民,黄德根. 面向机器翻译的日语形态素解析方法[C].语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集.,2003:461-467.
王怿旦,张雪梅.电子词典检索功能分析及其发展构想[J].辞书研究,2016(03):34-42+93-94.
张怀珠,孔健.日语词典的类型及使用[J].日语知识,1998(04):26-28.
## 脚注
[^1]: https://www.cjk.org/ja/data/japanese/nlp/japanese-full-form-lexicon/
[^2]: https://chuta.cegloc.tsukuba.ac.jp/tools.html
[^3]: 伝康晴,小木曽智信,小椋秀樹,等.コーパス日本語学のための言語資源:形態素解析用電子化辞書の開発とその応用[J].日本語科学,2007,22(5): 101-123.
[^4]: 追踪检索与跨典检索、操作符检索、修正检索、递进式检索、发音检索、提取式检索、语义联想检索、通库例句检索、网络释义检索
[^5]: https://clrd.ninjal.ac.jp/unidic/back\_number.html#unidic\_csj 2022/09/22リリースした3.1.1で解析した結果である
[^6]: https://clrd.ninjal.ac.jp/unidic/back\_number.html#unidic\_cwj 2022/09/06リリースした3.1.1で解析した結果である
[^7]: 隋福民,黄德根. 面向机器翻译的日语形态素解析方法[C].语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集.,2003:461-467. “论文题目之所以强调面向机器翻译,是因为形态素解析的目的不同,形态素解析系统的组织也将不同。”
[^8]: 隋福民,黄德根. 面向机器翻译的日语形态素解析方法[C].语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集.,2003:461-467. “面向机器翻译和面向检索的主要区别,体现在词典的构建上。”
[^9]: 2014/12/22公開 <https://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN>
[^10]: 2007/03/11公開 <https://ja.osdn.net/projects/ipadic/>
[^11]: IPA品詞体系で、「未然ウ接続」は五段活用の動詞については助動詞「う」が接続し、その他の活用型の動詞については「よう」が接続するための活用であるとされていた。
[^12]: 仮定形命令形未然形連用形基本形IPA品詞体系(THiMCO97)は「未然ナイ接続」「未然レル接続」「未然ウ接続」「連用タ接続」「連用マス接続」「連用タイ接続」· · ·のように、後続する助動詞類に応じて細かく定義されていた。
[^13]: 2022/03/22公開 <https://clrd.ninjal.ac.jp/unidic/>
[^14]: 語彙素の頻度は『[現代日本語書き言葉均衡コーパス 中納言版](https://clrd.ninjal.ac.jp/bccwj/index.html)』に基づいて著者作成
[^15]: 書字形の頻度は『[筑波大学・国立国語研究所・Lago言語研究所「NINJAL-LWP for TWC」](https://tsukubawebcorpus.jp)』に基づいて著者作成
[^16]: 溜は常用漢字表にない漢字である。
[^17]: 摺は常用漢字表にない漢字である。
[^18]: 微の「そよ」の読み方は常用漢字音訓表にない。
[^19]: 所の「そ」読み方は常用漢字音訓表にない。
[^20]: レース【race】、レース【lathe】、レース【lace】三つの語彙があるから、頻度を提供するデータベースは具体的な意味で検索できないので、同じものとする。