# 名探偵コナンTV版 <https://www.sbsub.com/data/> > 孫子っていう==えれぇ==兵法家が考えた軍略の1つだよ。 > えらい > 漫画・名探偵コナン・第59巻 0119 算是[[日语口语]]的问题,但似乎可以用来处理[[OCR]]导致的问题,最好玩的是[[Mecab]]居然全挂了 - [ ] [[二重樱]]建立索引:えらい->えれぇ ## 0076 > 以前のような 窮地に追い込まれ 坊ちゃまの身に==もしものこと==があれば > 若しもの事 【▽若しもの事】,字幕组是全写了假名,但输入法的提示第一个是【もしもの事】,注意[[非辞書]],还是要尽量构建一个完整的名词词库,不然可能会出现莫名其妙的结果 # 1001-1100 ## 1070 > ==半グレ==の兄ちゃん達とぶつかって ケンカになっちまってよォ > はんぐれ・半ぐれ・半グレ [[Mecab]]不是能解析吗,非辞書居然不行 > 氷高警部補に==見つかった==と自覚してたのね > 見付かる・みつかる > 頭に血が==のぼっちまってよォ== > 登る・のぼる 口语没有收录口语[hunspell](Hunspell.md) > お面==とられへんねん== > とる・取る [Hunspell](Hunspell.md)滑到`とられ`可以用 ## 1078 > そこで 何か火をおこせる物で==たき火==を作って > たきび [JMDICT](JMDICT.md),【焚き火・たき火・焚火】,总共就3个字符串,[日语词形相似度算法](日语词形相似度算法.md)得放缩多少倍233 > 本当に==火がついた== > ひがつく・火が付く・火が点く [JMDICT](JMDICT.md),ひがつく【火がつく・火が付く・火が点く】,[惯用句识别算法](惯用句识别算法.md) > でも まあ ==歩いて==りゃそのうち乾く > 歩く・あるく [日语口语](日语口语.md),不过,似乎不影响[非辞書](非辞書.md) > サツが来る前に==ズラかれ== > ずらかる 面白いのは、辞典には「漢字」はない - [x]ずらかる[Mecab](Mecab.md)挂了,这可以印证[非辞書之禅](非辞書之禅.md):平假优于片假 > 俺も==引っかかる== > ひっかかる・引っ掛かる > ええ もしくはFBIが==総がかり==で知恵を貸し > 総掛り・そうがかり 総がかり 和上面的例子一起来看的话,[日语词形相似度算法](日语词形相似度算法.md),可以优先对应【掛】这样的表外汉字 > そのFBIのツラを==拝まねぇ==と > 拝む・おがむ 拝まねぇ[自动辞书](自动辞书.md)挂了果然是词库的问题,[Mecab](Mecab.md)换用[UniDic](UniDic.md)就不会推导错,但这个[日语口语](日语口语.md)的发音其实没有区别吧,只是表记的方式 > 腹の虫がおさまらなくなっちまったぜ > 腹の虫が治まらない・はらのむしがおまらない [惯用句识别算法](惯用句识别算法.md),应该用【腹の虫】和【治まらない】作为索引还是用【腹の虫】和【治る】作为索引呢,[非辞書](非辞書.md)在完全扫描模式应该可以识别出后者,另外【腹の虫】要拆开为【腹】【虫】么 > その辺の土を==こすり付けろ== > 擦り付ける・こすりつける [日语词形相似度算法](日语词形相似度算法.md),第一个不是常用汉字 こすり付けろ ## 1086 > あの2人に==出くわしたら==ヤベーから > でくわす・出会す・出くわす 出くわしたら [日语词形相似度算法](日语词形相似度算法.md),【出▽会す】有标记么…… > あの2人に出くわしたら==ヤベー==から > やばい・ヤバい [日语词形相似度算法](日语词形相似度算法.md),但应该算是特例ヤベー > これ==ゼッテー==バレてる可能性大だな > ぜったい・絶対 [日语词形相似度算法](日语词形相似度算法.md),特例 # 1101-1200 ## 1104 > 別に==いー==じゃん デート > いい [TVer](Note/TVer.md)はなぜ「いー」を書いているのかね > 1番上のカードを1枚取っ==たかのように==見せかけて > たかのように [语法句型识别算法](语法句型识别算法.md),取ったかのように > 2枚を少し==ズラして== > ずらす [UniDic](UniDic.md)上就复现不了,果然还是词库的问题,ズラして > まぁいいが 外部に==漏らさんでくれ==よ > 漏らす 这个应该算是口语么[日语口语](日语口语.md)漏らさんでくれ ## 1105 > いや 白く==モヤってる== > 靄る・もやる > ==テレくさくて==園子ちゃん達にはまだ言ってないんだけどね > 照れ臭い・てれくさい > ケースのフタを開けると天井が==ドーンって落ちてくるんじゃないの?== > どん [[Mecab]] 也会出错,但这个不能怪 ## 1138 > 这是打包膜的衬纸 > ラッピングシートの裏紙だよ 短単位 - [ ] [[FastCorpus]] 这个其实就能说明构建双语语料库 > 貸して > 给我看看 > ねぇねぇ このメモ帳 何か書いた跡があるよ > 喂喂 这个笔记本 好像有写过什么的痕迹哦 非常好奇对于这个「ねぇねぇ」,[[FastCorpus]]会如何建立索引 > ったく ==キョーチョーセイ==がねぇんだからよぉ > 協調性 - [ ] 最值得注意的是这东西的长音标记其实和字典里记载得不一样,但 [[Mecab]]在[[Web 茶まめ]]上无法成功复现,所以 [[自动辞书]] 居然不靠Unidic就能推出来 > 確かに あの強盗==計画==に乗る気になっては いました > 确实 我是想过要参加那个抢劫==行动== [[FastCorpus]] 算是能在细分领域里面帮助翻译吧,重点在于如何对检索出来的结果进行分类和排序,另外,默认至少要展示一句上下文. ## 1152 > サイテー > 最低・さいてい > 〔話〕〔感動詞的に〕あきれた。ひどい。 「うそだって? ━!」 〔一九五〇年代に広まった用法〕 > 表記二は、俗に「サイテー」とも。 笑了,上面的哪个说法都不对。 #? 另外注意这个其实是是一个 非辞書 ### M06_ベイカー街の亡霊 > 明日には==クビになっちゃう==かもよ > 首になる・くびになる クビになっちゃう,这个有意思,就只是由于写成片假名导致了问题,所以[日语词形相似度算法](日语词形相似度算法.md),应该放在[惯用句识别算法](惯用句识别算法.md) > ==オメェ==な > お前 > アンタの財布 私が~~スッた~~からさ > 掏る・する [Hunspell](Hunspell.md) 挂了,[Mecab](Mecab.md)没挂 > ~~若ぇ~~男にしこたま貢いだあげく > 若い 若ぇ[日语口语](日语口语.md),算是吧 > ~~エラそう~~に言うな > えらい > 最初からもうネタは==上がってんねん== > 上がる