# 名探偵コナン・劇場版
## M06_ベイカー街の亡霊
> 明日には==クビになっちゃう==かもよ
> 首になる・くびになる
クビになっちゃう,这个有意思,就只是由于写成片假名导致了问题,所以[日语词形相似度算法](日语词形相似度算法.md),应该放在[惯用句识别算法](惯用句识别算法.md)
> ==オメェ==な
> お前
> アンタの財布 私が~~スッた~~からさ
> 掏る・する
[Hunspell](Hunspell.md) 挂了,[Mecab](Mecab.md)没挂
> ~~若ぇ~~男にしこたま貢いだあげく
> 若い
若ぇ[日语口语](日语口语.md),算是吧
> ~~エラそう~~に言うな
> えらい
> 最初からもうネタは==上がってんねん==
> 上がる
## M07
[[M07]] [[关西方言]]相关的大量测试用例。
## M23
> うわぁ ==すっげー==
> すっげえ・すごい
三国八 いいね!「すっげえ」も載っている、日本語の初心者に
> ==ぜってー==当てようぜ
> 絶対・ぜったい
> せっかく==間に合わせたん==じゃがなあ
> 間に合わせる・まにあわせる
- [ ] [[惯用句识别算法]] 短语核心单词其实有可能重复的 TODO
> ==カッコいい==ですね
> かっこいい
> おいおい30 メートルは==危ねえって==
> 危ない・あぶない
- [ ] [[UniDic]]是对的,但问题在于[[非辞書]]错了,是因为词库提取漏了么
> すっげー==でっけえ山がある==
> でっかい・でかい
这个就是一个不错的例子,指出了是从哪里来的,还有一个专门的词条,但すごい没有是因为日本人自己没有问题么233
> ヤツらの組織に潜入捜査してるキールからの情報だ
> ら【▽等】
- [ ] [[搜文解字]] GPT 可以设计一个Prompt让其判断谁是辞书形 和[[非辞書]]
- [ ] [[简日汉字]] 简日汉字恐怕没法说「蒸馏酒」是对应的日文汉字「蒸留酒」吧233
> ったくお父さんったら さすがおっちゃん
> 全く
[[UniDic]] 居然真收录这个东西
> ク...クジラってどう==ほえーるのかなって==
> ほえーる
- [ ] 最好玩的是[[Mecab]]全挂了,[[日语词形相似度算法]]算是解决这种东西
> コナンって抜けたとこあるよな
> ⑧ (多く「ぬけた」「ぬけている」の形で)知恵が十分に働かない。気がきかずぼんやりしている。足りない。「あの人はどこか―・けている」「間 (ま) の―・けた話」
[[搜文解字]] 这个测试都是可能需要更多的上下文,对于
# 名探偵コナン 黒鉄の魚影 (小学館ジュニア文庫 ジあ 2-52)
[名探偵コナン 黒鉄の魚影 (小学館ジュニア文庫 ](https://www.amazon.co.jp/%E5%90%8D%E6%8E%A2%E5%81%B5%E3%82%B3%E3%83%8A%E3%83%B3-%E9%BB%92%E9%89%84%E3%81%AE%E9%AD%9A%E5%BD%B1-%E5%B0%8F%E5%AD%A6%E9%A4%A8%E3%82%B8%E3%83%A5%E3%83%8B%E3%82%A2%E6%96%87%E5%BA%AB-%E3%82%B8%E3%81%82-2-52/dp/4092314523/ref=sr_1_1?__mk_ja_JP=%E3%82%AB%E3%82%BF%E3%82%AB%E3%83%8A&crid=1Q4ID0KP34AXO&keywords=%E3%82%B3%E3%83%8A%E3%83%B3+%E3%82%B5%E3%83%96%E3%83%9E%E3%83%AA%E3%83%B3&qid=1688902007&sprefix=%E3%82%B3%E3%83%8A%E3%83%B3+%E3%82%B5%E3%83%96%E3%83%9E%E3%83%AA%E3%83%B3%2Caps%2C473&sr=8-1)
> 子供達と同じく一等のホエール==ウォッチング==を狙っていた阿笠博士は、ガックリと肩を落とし、残念そうに頭をかいた。
> ウォッチング・
> 子供達と同じく一等のホエールウォッチングを狙っていた阿笠博士は、ガックリと肩を落とし、残念そうに==頭をかいた==。
> あたまをかく・頭をかく・頭を掻く
TODO 面白い
> ==すごーい==!
> すごい
看起来[日语词形相似度算法](日语词形相似度算法.md)对于-的处理要考虑是不是外来语的影响
> 「おいおい、三十メートルは==危ねーって==」
> 危ない
[日语词形相似度算法](日语词形相似度算法.md)看起来对于长音的处理是个比较棘手的问题 危ねーって =危ない 这种的话又该如何应对呢
> コナンが突っ込むと、阿笠博士は==チッチッチッと==人差し指を振った。
> ちっちっ
最有意思的是数量和词典收的对不上,另外,大辞泉没有收,只有三国7有这个单词,但更好玩的其实是最长一致法可以解决这个问题
> そう言われると思っての。==ジャジャーン==! 海中ヘッドセットじゃ!
> ジャンジャン・じゃんじゃん
嗯?ジャジャーン不是[日语词形相似度算法](日语词形相似度算法.md)能解决的问题吧,辞书形是ジャンジャン