# 名探偵コナン・劇場版 ## M06_ベイカー街の亡霊 > 明日には==クビになっちゃう==かもよ > 首になる・くびになる クビになっちゃう,这个有意思,就只是由于写成片假名导致了问题,所以[日语词形相似度算法](日语词形相似度算法.md),应该放在[惯用句识别算法](惯用句识别算法.md) > ==オメェ==な > お前 > アンタの財布 私が~~スッた~~からさ > 掏る・する [Hunspell](Hunspell.md) 挂了,[Mecab](Mecab.md)没挂 > ~~若ぇ~~男にしこたま貢いだあげく > 若い 若ぇ[日语口语](日语口语.md),算是吧 > ~~エラそう~~に言うな > えらい > 最初からもうネタは==上がってんねん== > 上がる ## M07 [[M07]] [[关西方言]]相关的大量测试用例。 ## M23 > うわぁ ==すっげー== > すっげえ・すごい 三国八 いいね!「すっげえ」も載っている、日本語の初心者に > ==ぜってー==当てようぜ > 絶対・ぜったい > せっかく==間に合わせたん==じゃがなあ > 間に合わせる・まにあわせる - [ ] [[惯用句识别算法]] 短语核心单词其实有可能重复的 TODO > ==カッコいい==ですね > かっこいい > おいおい30 メートルは==危ねえって== > 危ない・あぶない - [ ] [[UniDic]]是对的,但问题在于[[非辞書]]错了,是因为词库提取漏了么 > すっげー==でっけえ山がある== > でっかい・でかい 这个就是一个不错的例子,指出了是从哪里来的,还有一个专门的词条,但すごい没有是因为日本人自己没有问题么233 > ヤツらの組織に潜入捜査してるキールからの情報だ > ら【▽等】 - [ ] [[搜文解字]] GPT 可以设计一个Prompt让其判断谁是辞书形 和[[非辞書]] - [ ] [[简日汉字]] 简日汉字恐怕没法说「蒸馏酒」是对应的日文汉字「蒸留酒」吧233 > ったくお父さんったら さすがおっちゃん > 全く [[UniDic]] 居然真收录这个东西 > ク...クジラってどう==ほえーるのかなって== > ほえーる - [ ] 最好玩的是[[Mecab]]全挂了,[[日语词形相似度算法]]算是解决这种东西 > コナンって抜けたとこあるよな > ⑧ (多く「ぬけた」「ぬけている」の形で)知恵が十分に働かない。気がきかずぼんやりしている。足りない。「あの人はどこか―・けている」「間 (ま) の―・けた話」 [[搜文解字]] 这个测试都是可能需要更多的上下文,对于 # 名探偵コナン 黒鉄の魚影 (小学館ジュニア文庫 ジあ 2-52) [名探偵コナン 黒鉄の魚影 (小学館ジュニア文庫 ](https://www.amazon.co.jp/%E5%90%8D%E6%8E%A2%E5%81%B5%E3%82%B3%E3%83%8A%E3%83%B3-%E9%BB%92%E9%89%84%E3%81%AE%E9%AD%9A%E5%BD%B1-%E5%B0%8F%E5%AD%A6%E9%A4%A8%E3%82%B8%E3%83%A5%E3%83%8B%E3%82%A2%E6%96%87%E5%BA%AB-%E3%82%B8%E3%81%82-2-52/dp/4092314523/ref=sr_1_1?__mk_ja_JP=%E3%82%AB%E3%82%BF%E3%82%AB%E3%83%8A&crid=1Q4ID0KP34AXO&keywords=%E3%82%B3%E3%83%8A%E3%83%B3+%E3%82%B5%E3%83%96%E3%83%9E%E3%83%AA%E3%83%B3&qid=1688902007&sprefix=%E3%82%B3%E3%83%8A%E3%83%B3+%E3%82%B5%E3%83%96%E3%83%9E%E3%83%AA%E3%83%B3%2Caps%2C473&sr=8-1) > 子供達と同じく一等のホエール==ウォッチング==を狙っていた阿笠博士は、ガックリと肩を落とし、残念そうに頭をかいた。 > ウォッチング・ > 子供達と同じく一等のホエールウォッチングを狙っていた阿笠博士は、ガックリと肩を落とし、残念そうに==頭をかいた==。 > あたまをかく・頭をかく・頭を掻く TODO 面白い > ==すごーい==! > すごい 看起来[日语词形相似度算法](日语词形相似度算法.md)对于-的处理要考虑是不是外来语的影响 > 「おいおい、三十メートルは==危ねーって==」 > 危ない [日语词形相似度算法](日语词形相似度算法.md)看起来对于长音的处理是个比较棘手的问题 危ねーって =危ない 这种的话又该如何应对呢 > コナンが突っ込むと、阿笠博士は==チッチッチッと==人差し指を振った。 > ちっちっ 最有意思的是数量和词典收的对不上,另外,大辞泉没有收,只有三国7有这个单词,但更好玩的其实是最长一致法可以解决这个问题 > そう言われると思っての。==ジャジャーン==! 海中ヘッドセットじゃ! > ジャンジャン・じゃんじゃん 嗯?ジャジャーン不是[日语词形相似度算法](日语词形相似度算法.md)能解决的问题吧,辞书形是ジャンジャン