# 名探偵コナンTV版
<https://www.sbsub.com/data/>
> 孫子っていう==えれぇ==兵法家が考えた軍略の1つだよ。
> えらい
> 漫画・名探偵コナン・第59巻 0119
算是[[日语口语]]的问题,但似乎可以用来处理[[OCR]]导致的问题,最好玩的是[[Mecab]]居然全挂了
- [ ] [[二重樱]]建立索引:えらい->えれぇ
## 0076
> 以前のような 窮地に追い込まれ 坊ちゃまの身に==もしものこと==があれば
> 若しもの事
【▽若しもの事】,字幕组是全写了假名,但输入法的提示第一个是【もしもの事】,注意[[非辞書]],还是要尽量构建一个完整的名词词库,不然可能会出现莫名其妙的结果
# 1001-1100
## 1070
> ==半グレ==の兄ちゃん達とぶつかって ケンカになっちまってよォ
> はんぐれ・半ぐれ・半グレ
[[Mecab]]不是能解析吗,非辞書居然不行
> 氷高警部補に==見つかった==と自覚してたのね
> 見付かる・みつかる
> 頭に血が==のぼっちまってよォ==
> 登る・のぼる
口语没有收录口语[hunspell](Hunspell.md)
> お面==とられへんねん==
> とる・取る
[Hunspell](Hunspell.md)滑到`とられ`可以用
## 1078
> そこで 何か火をおこせる物で==たき火==を作って
> たきび
[JMDICT](JMDICT.md),【焚き火・たき火・焚火】,总共就3个字符串,[日语词形相似度算法](日语词形相似度算法.md)得放缩多少倍233
> 本当に==火がついた==
> ひがつく・火が付く・火が点く
[JMDICT](JMDICT.md),ひがつく【火がつく・火が付く・火が点く】,[惯用句识别算法](惯用句识别算法.md)
> でも まあ ==歩いて==りゃそのうち乾く
> 歩く・あるく
[日语口语](日语口语.md),不过,似乎不影响[非辞書](非辞書.md)
> サツが来る前に==ズラかれ==
> ずらかる
面白いのは、辞典には「漢字」はない
- [x]ずらかる[Mecab](Mecab.md)挂了,这可以印证[非辞書之禅](非辞書之禅.md):平假优于片假
> 俺も==引っかかる==
> ひっかかる・引っ掛かる
> ええ もしくはFBIが==総がかり==で知恵を貸し
> 総掛り・そうがかり
総がかり 和上面的例子一起来看的话,[日语词形相似度算法](日语词形相似度算法.md),可以优先对应【掛】这样的表外汉字
> そのFBIのツラを==拝まねぇ==と
> 拝む・おがむ
拝まねぇ[自动辞书](自动辞书.md)挂了果然是词库的问题,[Mecab](Mecab.md)换用[UniDic](UniDic.md)就不会推导错,但这个[日语口语](日语口语.md)的发音其实没有区别吧,只是表记的方式
> 腹の虫がおさまらなくなっちまったぜ
> 腹の虫が治まらない・はらのむしがおまらない
[惯用句识别算法](惯用句识别算法.md),应该用【腹の虫】和【治まらない】作为索引还是用【腹の虫】和【治る】作为索引呢,[非辞書](非辞書.md)在完全扫描模式应该可以识别出后者,另外【腹の虫】要拆开为【腹】【虫】么
> その辺の土を==こすり付けろ==
> 擦り付ける・こすりつける
[日语词形相似度算法](日语词形相似度算法.md),第一个不是常用汉字 こすり付けろ
## 1086
> あの2人に==出くわしたら==ヤベーから
> でくわす・出会す・出くわす
出くわしたら [日语词形相似度算法](日语词形相似度算法.md),【出▽会す】有标记么……
> あの2人に出くわしたら==ヤベー==から
> やばい・ヤバい
[日语词形相似度算法](日语词形相似度算法.md),但应该算是特例ヤベー
> これ==ゼッテー==バレてる可能性大だな
> ぜったい・絶対
[日语词形相似度算法](日语词形相似度算法.md),特例
# 1101-1200
## 1104
> 別に==いー==じゃん デート
> いい
[TVer](Note/TVer.md)はなぜ「いー」を書いているのかね
> 1番上のカードを1枚取っ==たかのように==見せかけて
> たかのように
[语法句型识别算法](语法句型识别算法.md),取ったかのように
> 2枚を少し==ズラして==
> ずらす
[UniDic](UniDic.md)上就复现不了,果然还是词库的问题,ズラして
> まぁいいが 外部に==漏らさんでくれ==よ
> 漏らす
这个应该算是口语么[日语口语](日语口语.md)漏らさんでくれ
## 1105
> いや 白く==モヤってる==
> 靄る・もやる
> ==テレくさくて==園子ちゃん達にはまだ言ってないんだけどね
> 照れ臭い・てれくさい
> ケースのフタを開けると天井が==ドーンって落ちてくるんじゃないの?==
> どん
[[Mecab]] 也会出错,但这个不能怪
## 1138
> 这是打包膜的衬纸
> ラッピングシートの裏紙だよ
短単位
- [ ] [[FastCorpus]] 这个其实就能说明构建双语语料库
> 貸して
> 给我看看
> ねぇねぇ このメモ帳 何か書いた跡があるよ
> 喂喂 这个笔记本 好像有写过什么的痕迹哦
非常好奇对于这个「ねぇねぇ」,[[FastCorpus]]会如何建立索引
> ったく ==キョーチョーセイ==がねぇんだからよぉ
> 協調性
- [ ] 最值得注意的是这东西的长音标记其实和字典里记载得不一样,但 [[Mecab]]在[[Web 茶まめ]]上无法成功复现,所以 [[自动辞书]] 居然不靠Unidic就能推出来
> 確かに あの強盗==計画==に乗る気になっては いました
> 确实 我是想过要参加那个抢劫==行动==
[[FastCorpus]] 算是能在细分领域里面帮助翻译吧,重点在于如何对检索出来的结果进行分类和排序,另外,默认至少要展示一句上下文.
## 1152
> サイテー
> 最低・さいてい
> 〔話〕〔感動詞的に〕あきれた。ひどい。 「うそだって? ━!」 〔一九五〇年代に広まった用法〕
> 表記二は、俗に「サイテー」とも。
笑了,上面的哪个说法都不对。 #? 另外注意这个其实是是一个 非辞書
### M06_ベイカー街の亡霊
> 明日には==クビになっちゃう==かもよ
> 首になる・くびになる
クビになっちゃう,这个有意思,就只是由于写成片假名导致了问题,所以[日语词形相似度算法](日语词形相似度算法.md),应该放在[惯用句识别算法](惯用句识别算法.md)
> ==オメェ==な
> お前
> アンタの財布 私が~~スッた~~からさ
> 掏る・する
[Hunspell](Hunspell.md) 挂了,[Mecab](Mecab.md)没挂
> ~~若ぇ~~男にしこたま貢いだあげく
> 若い
若ぇ[日语口语](日语口语.md),算是吧
> ~~エラそう~~に言うな
> えらい
> 最初からもうネタは==上がってんねん==
> 上がる