# Unidc 官网:<https://clrd.ninjal.ac.jp/unidic/> > 私の資料だと ==ちーちゃん==の説が成り立たないの > 根据我的资料 小千的假设不能成立 - [ ] [[UniDic]] 对于这样的特殊名词就只能自定义了 [[自然语言处理]] 日语的话,首先应该从这里开始。 应该专门[[非辞書]]和[[UniDic]]互相 https://clrd.ninjal.ac.jp/unidic/back_number.html#unidic_cwj 另外,值得注意的是其他版本的Unidic不提供可供训练的服务。 UniDic提取以及转换脚本,提取读音,转为IPADAC,先看看这方面的那个Git仓库面有没有人做过了 - [ ] 提取[[UniDic]]的所有词性,当然其实也可以反过来,搜索完的结果过滤就行了 ## 品词分类 这个的品词请参考:[[UniDicの品詞体系]] ## 辞典分类 [[非辞書]] 所有[[UniDic]] 相关的项目的命名标准: | 現代語用UniDic<br> | 查询参数 | 主なターゲット | | -------------- | ---- | -------------- | | 現代書き言葉UniDic | cwj | 現代語の書き言葉一般 | | 現代話し言葉UniDic | csj | 現代語の話し言葉の書き起こし | | 古文用UniDic | 参数 | 主なターゲット | | ------------- | --------------- | -------------------------- | | 近現代口語小説UniDic | novel | 近現代の小説(新旧仮名遣い) | | 旧仮名口語UniDic | qkana | 旧仮名遣いの口語文(雑誌記事・教科書など) | | 近代文語UniDic | kindai_bungo | 明治大正期の文語文(新聞・雑誌記事など) | | 近世江戸口語UniDic | kinsei_edo | 江戸時代の江戸語の話し言葉資料(人情本など) | | 近世上方口語UniDic | kinsei_kamigata | 江戸時代の上方語の話し言葉資料(浄瑠璃・洒落本など) | | 近世文語UniDic | kinsei_bungo | 江戸時代の書き言葉資料(随筆・紀行文など) | | 中世口語UniDic | chusei_kougo | 室町時代の話し言葉資料(狂言など) | | 中世文語UniDic | chusei_bungo | 鎌倉・室町時代の書き言葉資料(軍記など) | | 和歌UniDic | waka | 和歌全般 | | 中古和文UniDic | chuko | 平安時代の仮名文学作品(和歌を含む) | | 上代語UniDic | jodai | 万葉集・祝詞など(読み下し文) | 参考:[「Web茶まめ」の辞書選択](https://chamame.ninjal.ac.jp/about.html) ## 数据分析 ```python 里面似乎有点奇怪的数据 ・ ((.*?)) 呂比須 ロペス 呂比須 ロペス-外国 \t(.*?)-(.*?)$ \t$1 ^(.*?)-(.*?)\t(.*?)$ $1\t$3 ``` 需要指明的是,如果想要用 full 版本,以`csv`结尾的文件中就是记录了日语所有非辞書形。 [[自定义 Mecab 辞典 MeCab の辞書カスタマイズ]],似乎举的例子就是Unidic 可以照着模仿一下 自己要提取的内容其实就是下面高亮的部分 ==わき立た==,8118,8319,14849,動詞,一般,*,*,五段-タ行,未然形-一般,==ワキタツ==,==沸き立つ==,わき立た,ワキタタ,==わき立つ==,ワキ,和,*,*,*,*,*,*,用,ワキタタ,ワキタツ,ワキタタ,ワキタツ,3,C1,*,11324153890218561,41197 ==走査==,16089,16894,9516,==名詞==,普通名詞,サ変可能,*,*,*,==ソウサ==,==走査==,走査,ソーサ,==走査==,ソーサ,漢,*,*,*,*,*,*,体,ソウサ,ソウサ,ソウサ,ソウサ,1,C1,*,5780141250847232,21028 五段-タ行 type 未然形-一般 form ## 参考 [[「UniDic」国語研短単位自動解析用辞書 用語集]] [[「UniDic」国語研短単位自動解析用辞書 FAQ]]