# Unidc
官网:<https://clrd.ninjal.ac.jp/unidic/>
> 私の資料だと ==ちーちゃん==の説が成り立たないの
> 根据我的资料 小千的假设不能成立
- [ ] [[UniDic]] 对于这样的特殊名词就只能自定义了
[[自然语言处理]] 日语的话,首先应该从这里开始。 应该专门[[非辞書]]和[[UniDic]]互相
https://clrd.ninjal.ac.jp/unidic/back_number.html#unidic_cwj
另外,值得注意的是其他版本的Unidic不提供可供训练的服务。
UniDic提取以及转换脚本,提取读音,转为IPADAC,先看看这方面的那个Git仓库面有没有人做过了
- [ ] 提取[[UniDic]]的所有词性,当然其实也可以反过来,搜索完的结果过滤就行了
## 品词分类
这个的品词请参考:[[UniDicの品詞体系]]
## 辞典分类
[[非辞書]] 所有[[UniDic]] 相关的项目的命名标准:
| 現代語用UniDic<br> | 查询参数 | 主なターゲット |
| -------------- | ---- | -------------- |
| 現代書き言葉UniDic | cwj | 現代語の書き言葉一般 |
| 現代話し言葉UniDic | csj | 現代語の話し言葉の書き起こし |
| 古文用UniDic | 参数 | 主なターゲット |
| ------------- | --------------- | -------------------------- |
| 近現代口語小説UniDic | novel | 近現代の小説(新旧仮名遣い) |
| 旧仮名口語UniDic | qkana | 旧仮名遣いの口語文(雑誌記事・教科書など) |
| 近代文語UniDic | kindai_bungo | 明治大正期の文語文(新聞・雑誌記事など) |
| 近世江戸口語UniDic | kinsei_edo | 江戸時代の江戸語の話し言葉資料(人情本など) |
| 近世上方口語UniDic | kinsei_kamigata | 江戸時代の上方語の話し言葉資料(浄瑠璃・洒落本など) |
| 近世文語UniDic | kinsei_bungo | 江戸時代の書き言葉資料(随筆・紀行文など) |
| 中世口語UniDic | chusei_kougo | 室町時代の話し言葉資料(狂言など) |
| 中世文語UniDic | chusei_bungo | 鎌倉・室町時代の書き言葉資料(軍記など) |
| 和歌UniDic | waka | 和歌全般 |
| 中古和文UniDic | chuko | 平安時代の仮名文学作品(和歌を含む) |
| 上代語UniDic | jodai | 万葉集・祝詞など(読み下し文) |
参考:[「Web茶まめ」の辞書選択](https://chamame.ninjal.ac.jp/about.html)
## 数据分析
```python
里面似乎有点奇怪的数据
・
((.*?))
呂比須 ロペス
呂比須 ロペス-外国
\t(.*?)-(.*?)$
\t$1
^(.*?)-(.*?)\t(.*?)$
$1\t$3
```
需要指明的是,如果想要用 full 版本,以`csv`结尾的文件中就是记录了日语所有非辞書形。
[[自定义 Mecab 辞典 MeCab の辞書カスタマイズ]],似乎举的例子就是Unidic 可以照着模仿一下
自己要提取的内容其实就是下面高亮的部分
==わき立た==,8118,8319,14849,動詞,一般,*,*,五段-タ行,未然形-一般,==ワキタツ==,==沸き立つ==,わき立た,ワキタタ,==わき立つ==,ワキ,和,*,*,*,*,*,*,用,ワキタタ,ワキタツ,ワキタタ,ワキタツ,3,C1,*,11324153890218561,41197
==走査==,16089,16894,9516,==名詞==,普通名詞,サ変可能,*,*,*,==ソウサ==,==走査==,走査,ソーサ,==走査==,ソーサ,漢,*,*,*,*,*,*,体,ソウサ,ソウサ,ソウサ,ソウサ,1,C1,*,5780141250847232,21028
五段-タ行 type
未然形-一般 form
## 参考
[[「UniDic」国語研短単位自動解析用辞書 用語集]]
[[「UniDic」国語研短単位自動解析用辞書 FAQ]]