# 短単位 [[UniDic]] 的 [[UniDicの品詞体系]] ## 概要 > 短単位は、言語の形態論的側面に着目し、下で述べる最小単位を基に斉一性を重視して規定された言語単位(単位語)です。 1単位あたりの字数も短い(少ない)ため、短い検索クエリで目的の用例を広く多く集めることに向いています。 一方、長単位は、短単位では捉え難い複合語をカバーすることで、短単位よりも長い特定の語に着目した用例検索に向いています。 また文節を自立部と付属部にわけることで認定するため、言語の構文的な機能に着目して規定された言語単位ともいえます。 UniDicはこのうち、短単位の辞書というわけです。 現代日本語書き言葉均衡コーパス(BCCWJ)とUniDicの言語単位 日本語の電子辞書と非辞書の言語単位 > 短単位は、BCCWJからの用例収集を目的として、言語の形態論的側面に着目して 規定された単位です。 「形態論的側面に着目して」ということは、単語の内部構造を扱う領域の単位であり、長単位は反対に統語論、単語を組み合わせて文を作る領域の単位といえます。 > 短単位の認定に当たっては、 まず現代語において意味を持つ最小の単位(以下で説明する、最小単位)を規定します。 その上で、 最小単位を短単位の認定規定に基づいて結合させる、または結合させないことにより、 短単位を認定します。 > そのため、短単位の認定規程は、最小単位と短単位、2つの認定規定から成ります。 ### 認定規定 > 形態論情報規程集は、100ページを超える分厚さですが、実はほとんどが例外規定で、 基本となるルールは、以下の2つを原則とする単純なものです。 > 和語・漢語は、2最小単位の1次結合体を1短単位とする。 |母=親| |食べ=歩く| |言=語|資=源| |研=究|所| |本=箱|作り| > 外来語は、1最小単位を1短単位とする。 |コール|センター| |オレンジ|色| ### 階層的な見出し構造 > 上では、短単位が用例検索のための単位だということを説明しました。 しかし実は、UniDicにはさらに、用例検索に向けた設計思想が施されています。 それが、階層的な見出し構造です。 > 例えば、簡単な例として、コーパスから「大きい」という短単位の用例を集めたいとします。 単純な文字列検索ですと、例えばですが、もしコーパス中に「巨大きいちご」という文字列があったとしたら、 その文字列まで用例として上がってきてしまいます。 しかし、短単位に分割済みのコーパスならば、「巨大|きいちご」と分割してあるので、 この用例まで列挙してしまうことはありません。 > では、「大きい」の連用形である「大きく」や、仮定形の「大きけれ」はどうでしょうか? もし、集めたい対象が活用変化を含まないのならば、単に「大きい」という表層形(書字形出現形)を 集めればいいかもしれません。 しかし、もし「大きい」という短単位を活用の変化も含めてすべて列挙したいとするなら、どうすればいいでしょうか? > この問題に対応するため、UniDic中の書字形出現形には、対応する書字形基本形という項目が設定されており、 活用変化する短単位には、その書字形出現形が活用変化する前の基本形(終止形)、活用しない短単位には当該の書字形出現形がそのまま登録されています。 「大きい」「大きく」「大きけれ」の場合、いずれの書字形基本形も「大きい」です。 なので、書字形基本形が「大きい」の短単位を集めれば、活用変化を含めてすべての「大きい」の用例を集められます。 > しかし、もしコーパス中に「大きい」が「おおきい」と平仮名表記されていたらどうでしょう? 「大きい」「大きく」「大きけれ」の書字形基本形は「大きい」ですが、「おおきい」「おおきく」「おおきけれ」の書字形基本形は「おおきい」です。 なので、書字形基本形で「大きい」の用例を集めても、「おおきい」の用例は集められません。 ## 测试用例 这里主要列举短单位对[[辞典检索]]的影响。若无特殊说明,解析结果均是[[Web 茶まめ]]。 ### 〇〇っと > いや==ぱっと==見騙されるわ ぱっ パッ 副詞 と と 助詞-格助詞 > 会えない日が続くと 胸が==グッと==重くなったりしないか? > ぐっと > テレビアニメ・『ヴァイオレット・エヴァーガーデン』 ぐっ グッ 副詞 と と 助詞-格助詞 ### 复合名词 > ったく ==自分勝手==な依頼人だぜ > 自分勝手・じぶんかって > テレビアニメ・『名探偵コナン・11・ピアノソナタ『月光』殺人事件』 自分 ジブン 名詞-普通名詞-一般 勝手 カッテ 名詞-普通名詞-形状詞可能 > あの後 ==心臓まひ==でぽっくり > 心臟麻痺・しんぞうまひ > テレビアニメ・『名探偵コナン・11・ピアノソナタ『月光』殺人事件』 彼の アノ 連体詞 後 ゴ 名詞-普通名詞-副詞可能 TODO 心臓 シンゾウ 名詞-普通名詞-一般 麻痺 マヒ 名詞-普通名詞-サ変可能