# ぼっち・ざ・ろっく
字幕来源 Amazon Prime
<https://www.amazon.co.jp/gp/video/detail/B0DL17M1RZ/ref=atv_dp_share_cu_r>
> そうだね 念には念を
> 念には念を入れる
> ボッチ・ザ・ロック
- [ ] 笑了,这个也是[[惯用句识别算法]] 的好例子
## 01転がるぼっち
> 楽しい==浮かれた==お話ひとつも
> 浮かれる
注意在大辞泉中,是有【うか・れる【浮(か)れる】】这个词条的,而且意思还和【浮く】不一样:【① 楽しくなって心がうきうきする。おもしろさに心を奪われる。「酔って―・れる」「月に―・れて歩く」】,但[UniDic](UniDic.md)虽然号称【国語研短単位自動解析用辞書】,却收录了【浮かれる】,看来是在区分了意思的基础上取最短。
> ミスり==まくった==~
> まくる
[自动辞书](自动辞书.md)挂的原因是没有用[UniDic](UniDic.md),但用这个成本实在是太大了点2333,2023版的精简版都有 500M,手机上基本不可能用这个。
> 下手でも 楽しく弾くことだけは==心がけ==よ!
> 心掛ける
[日语词形相似度算法](日语词形相似度算法.md)看来日本人是真不喜欢写【掛】,注意这里的读法不是原来的标准读法
> じゃあ ==あだ名==とかはないの?
> あだな
果然是词库的问题,[UniDic](UniDic.md)就不会出问题了
> ==たっくさん==
> たくさん
- [x] 如果[日语词形相似度算法](日语词形相似度算法.md)是最后一步的话,那可以把っ直接删掉,因为之前进行过查询了
> き… 喜多さん! ==いつの間==に…
> 何時の間・いつのま
- [ ] [[SudachiDict]] 笑了,又没收录
> みんな==接し==づらそうと言うか
> 接する・せっする
## 02また明日
> (虹夏)そこ ==ウソつかない==~
> うそをつく・噓を付く
- [ ] [短语词组修正检索算法](短语词组修正检索算法.md),最好玩的不是想写成【ウソをつく】,而是直接助词都给省了
> (ギタ男)そして練習に次ぐ練習の末…
- [ ] [[语法句型修正检索算法]] 上面的`そして練習に次ぐ練習の末`这样的东西真的能识别出来么
> ボーカル また==探さなきゃ==
> 探す
[日语口语](日语口语.md) 探さなきゃ是なければならない
> 楽器に==つぎ込む==から常に金欠だよ
> 注ぎ込む・つぎこむ
- [ ] 注意,大辞泉有2个词条:つぎ‐こ・む【▽注ぎ込む】和そそぎ‐こ・む【注ぎ込む】,后者没有▽标记,而单纯的【注】在大辞泉也没有写标记为▽。所以[日语词形相似度算法](日语词形相似度算法.md),不能只提取一遍所谓的非常用汉字,还是得结合实际的语料进一步调整算法
> もう 30分は==浸(つか)かってる==し
> 浸る・浸かる
Amazon 本身的格式吗,[非辞書](非辞書.md)搞这个倒是简单,而且也做了,但是关于字幕格式的讨论可能
> (ひとり)==着いちゃった==…
> 着く
这个完全没有多余的上下文呀233[[义项相似算法]]
> ==ひと息==つきたくて
> 一息・ひといき
辞书形【一息】里完全没有假名,而【ひといき】的字符数量是【一息】的2倍,[日语词形相似度算法](日语词形相似度算法.md)又该怎么放缩呢233
> ==ボッてる==みたいな顔しないで
> ぼる
- [ ] [[SudachiDict]] 笑了,辞典里面有登录「ぼる」,但还是解析错了
[UniDic](UniDic.md)是没有收录ぼる这个单词么,[自动辞书](自动辞书.md)和[Mecab](Mecab.md)都可以复现这个问题
> お==昼ごはん==には最適だな
> ひるごはん・昼御飯
注意,非辞书形少了2个汉字,与此相对的整体长度只多了一个,[日语词形相似度算法](日语词形相似度算法.md)能解决这种么,要不还是就查表吧233,不优雅就不优雅2333,[非辞書](非辞書.md)的完全扫描算法,能在一般测试集获得多大的抗干扰呢……
> 時給から==引いとく==な
> 引く
- [x] 時給から引い==とく==な应该算是[日语口语](日语口语.md)
> 喜多さんの==言ってた==
> 言う
[日语口语](日语口语.md),突然想起来吴杨老师说自己才到日本的时候说【ている】被导师吐槽【気持ち悪い】2333,看来发音太书面语了233
> - [ ] 絶対に==風邪ひいた==よね?
> 風邪を引く・かぜをひく
- [ ] 風邪ひいた 看起来似乎[日语口语](日语口语.md)喜欢省,[短语词组修正检索算法](短语词组修正检索算法.md)
> (ひとり)新しい==あだ名==
> 渾名・あだな
## 03馳せサンズ
> ==気の利いた==ことを言えれば…
> 気が利く・きのきく
[短语词组修正检索算法](短语词组修正检索算法.md),気の利いた和 気が利く #? 注意の
> 先輩の路上ライブ見て==ひと目ぼれ==したの
> 一目惚れ・ひとめぼれ
> テレビアニメ『ぼっち・ざ・ろっく! 』第03话「馳せサンズ」
> Amazon Prime
[日语词形相似度算法](日语词形相似度算法.md),这个看起来长一点,但细细研究一下就会发现,其实也就2个字符的差异,所以和英语的相似词算法不一样,日语的[日语词形相似度算法](日语词形相似度算法.md)一定要放缩法,不能照抄
「先輩の路上ライブ見て==ひと目ぼれ==したの」麻烦就麻烦在除了是[[短单位]]之外,还有表记方式的差异,[[SudachiDict]]里面没有这个东西,[[MikannDict]] 就只能手动添加了
> 晴れてメンバーが==勢ぞろいした==のでした
> 勢揃い・せいぞろい
【勢×揃い】的揃有标记,所以[日语词形相似度算法](日语词形相似度算法.md)应该不会有太大的问题
> ==晴れて==メンバーが勢ぞろいしたのでした
> ぼっち・ざ・ろっく! 第03话「馳せサンズ」
- [ ] 哟,[[UniDic]] 又没收录这个东西,[[SudachiDict]]也没有
> これで 私は所持金が==底をついた==ので
> 底を突く
[短语词组修正检索算法](短语词组修正检索算法.md)的问题么,底をついた 说起来,单独的话,这个つく,会写汉字的比例是多少呢
> 全然==ピンとこない==
> ぴんと来る
ピンとこない和ぴんと来る,要[短语词组修正检索算法](短语词组修正检索算法.md)该如何设计索引呢?是【ぴんと】【来る】么 ?而且注意,这个固定搭配没有をがに,所以自己要把这些剩余的东西也给过一遍,另外,这个东西最好玩的是 #动词活用 导致的问题,所以尤其适合用来检查[非辞書](非辞書.md)算法的基本动词活用的准确度
> ==何ひとつ==?
> 何一つ・なにひとつ
- [ ] [[現代新国語辞典]] 連語だけ、何ひとつほかは「副詞」
## 04ジャンピングガール(ズ)
> (星歌)==お待ちかね==の給料だぞ
> 御待兼ね・おまちかね・待ち兼ね・まちかね・待ち兼ねる・まちかねる
- [ ] お待ちかねの給料だぞ 辞典里面其实是专门有这个的,但自己其实最初没有意识到这个问题
- [ ] [[SudachiDict]] 笑了,看起来似乎连「待ち兼ね」都只有[[大辞泉]]和[[大辞林]]收录了,其他中型国语辞典一个都没收录
> ==気とか使わなそうだ==し
> 気を使う・きをつかう
- [x] [短语词组修正检索算法](短语词组修正检索算法.md), 気とか使わなそうだ,気を使う,最最好玩的一个例子 #助动词替换 ,を替换成了とか
> (ひとり)時間が たてばたつほど
【たてばた】是有这个词的233,但没有上下文的话,[非辞書](非辞書.md)也很难给出更好的建议吧
> カッ ==カッコいい==?
> かっこいい
- [ ] カッコいい 如果要说明[[非辞書之禅]]的原则,这是个很好的例子
- [ ] 笑了,[[SudachiDict]]能正常解析「かっこいい」,但解析不了「カッコいい」
> ==つるし上げる==会では?
> 吊し上げる・つるしあげる
- [ ] [日语词形相似度算法](日语词形相似度算法.md)つるし‐あげ【×吊るし上げ】,另外「批斗」这个[[翻译]]真的是在作死边缘试探,不知道B站的官方字幕是怎么搞的
- [ ] 好玩的「吊るし上げる」才是更多辞典收录的[[辞书形]]
> 喜多ちゃん リョウに==振り回されすぎない==ようにね
> 振り回す・ふりまわす
这其实勉强算是[[语法句型修正检索算法]]了吧?
> (虹夏)ぼっちちゃんが ==ひん死==状態に?
> 瀕死・ひんし
ひん‐し【×瀕死】,[日语词形相似度算法](日语词形相似度算法.md),果然也有标记
> ==つまんない==歌詞書かないでいいから
> つまらない・詰まらない
如果不手动添加【つまんない=》つまらない】的规则,光靠[日语词形相似度算法](日语词形相似度算法.md)应该是能从词库里面算出正确答案的,真有这个必要么
> 後藤さん ==目のくま==大丈夫?
> 目の隈
[青春猪头](青春猪头.md)的那个字幕组是也不写汉字,但用的是片假名,这个算是[日语词形相似度算法](日语词形相似度算法.md)来做的事情
> もう1度 ギター 持って==いこ==
> いく
啊,Amzon的字幕组真能听出来这里不是【持っていこう】么……
## 05飛べない魚
> なんだ? 今の==捨てゼリフ==は
> すてぜりふ・捨て台詞
逗我吧2333,[日语词形相似度算法](日语词形相似度算法.md)真能算出来这样的东西么
> せ… ==精いっぱい==服従心を表現しようと
> せいいっぱい・精一杯
[日语词形相似度算法](日语词形相似度算法.md)
> (郁代)==すっご~い== さすが先輩!
> 凄い・すごい
Amazon的字幕组的语气词和符号真的很丰富,[JTF日本語標準スタイルガイド(翻訳用)_日语翻译风格指南](JTF日本語標準スタイルガイド(翻訳用)_日语翻译风格指南.md),这个指南有提到符号的使用
## 06八景
> みんな==接し==づらそうと言うか
> 接する
> ==ズバッと==聞くな おい!
> ずばっと
[非辞書](非辞書.md) #? 词库没有收录ずばっと,导致推导结果非常奇怪`['もぎる', 'せせる', 'る', 'ずる', 'ずばっと']`
> 私が ==ひと肌脱いで==あげよう
> 一肌・一肌脱ぐ
ひと肌脱いで 一肌脱ぐ[短语词组修正检索算法](短语词组修正检索算法.md),问题是还是[日语词形相似度算法](日语词形相似度算法.md)的问题呢,这可能和辞典编纂者的偏好有关
> あ~ まだ==ピンとこない==か
> ピンと来る・ピンとくる・ぴんと来る
ピンとこない [短语词组修正检索算法](短语词组修正检索算法.md),有点奇怪的是输入法优先展示的是第一种,但辞典里面收录的都是后面的东西
> 居酒屋に==置きっぱなし==だ
> おきっぱなし・置きっ放し
[日语词形相似度算法](日语词形相似度算法.md)
> (きくり)ロックを==なめるな!==
> 舐める・なめる
本身没有什么难的,好玩的是[自动辞书](自动辞书.md)的第一个推导结果是なむ
> って 言ったそばから
> 側から・そばから
[语法句型修正检索算法](语法句型修正检索算法.md)言ったそばから
> (ひとり)あのとき==ミエなんて張る==んじゃなかった
> 見えを張る・みえをはる
ミエなんて張る = 見えを張る [短语词组修正检索算法](短语词组修正检索算法.md),注意这种可能就没法单纯地忽略所谓的几个固定的助动词了,还是得借助扫描算法进行查询(另外这样的助词很可能干扰识别结果,所以一定要跑测试)。
不过观察 ミエなんて張る 这个样例倒是让自己想到了一个方法:每次扫描观察第一个结果是否在「词组」表内,如果在,那么对于之后的扫描结果要启用「词组扫描模式」,也就是是否启用SQL来查询,要看,[非辞書](非辞書.md) #?
ミエなんて張る = 見えを張る 另外也提醒自己 词组扫描的测试样例可以考虑从词典里面获取 #? ,但[非辞書](非辞書.md)需要更激进的测试用例
## 07君の家まで
> ==しょうもない==言い訳を…
> 仕様が無い
しょうもない 仕様も無い [短语词组修正检索算法](短语词组修正检索算法.md),这个算是 #助动词替换
> (虹夏)ダ… ==ダセ~!==
> ださい
[非辞書](非辞書.md),啊……这个超纲了吧2333 ダセ 和 ださい 应该是[[日语口语]]的一种倾向,而不是特例
> (伊地知(いじち)虹夏(にじか))==あっつ~==
> あつい
[日语词形相似度算法](日语词形相似度算法.md) あっつ あつい 似乎这里也能印证 っ
## 08ぼっち・ざ・ろっく
这一话怎么没有任何[非辞書](非辞書.md)呢2233
## 09江ノ島エスカー
> でも時期的に もう==泳げなそう==
> 泳ぐ
> 割りと ==目はさえてて==
> 目が覚める・めがさめる
目はさえてて = 目が覚める [短语词组修正检索算法](短语词组修正检索算法.md),不光换了助词,后半部分还不写汉字,说起来有词组的搭配是用は而不是が么 #?
> (リョウ)鳥にまで==ナメられてる==
> 舐める・なめる・ナメる
注意,最后一种写法是[macOS](macOS.md)系统输入法的提示
> 言ったそばから!
[语法句型修正检索算法](语法句型修正检索算法.md),たそばから,应该记录整个句型的接续
> ==映(ば)えます==ね
> 映える・ばえる
[非辞書](非辞書.md),本身没什么特殊的地方,但问题在于字幕组特别注明了不是【はえる】,在[义项相似算法](义项相似算法.md)的优化可以修改 Ruby 的处理,现在是直接删掉了,但其实可以用提取出来的假名在再进行一次查询 #?
> じゃあ 2人とも ==頭いい==んですね
> 頭がいい・あたまがいい
- [ ] [MOJi](MOJi.md)的词条是真的广,另外省が的现象在[柯南](Note/柯南.md)里面似乎也听过,[短语词组修正检索算法](短语词组修正检索算法.md) #? 頭いいん
> ト… トロピ… カル…
> トロピ カル
- [ ] 预处理时可以考虑直接删除除了,。、的其他标点[[非辞書-测试用例]]
> ==泳ゲナイ==ノニ
> 泳ぐ
[非辞書](非辞書.md),注意`['およぐ', 'およげる', '泳ぐ', 'くぐる', '泳げない']`返回的最后一个不是原始输入值 #?
## 10アフターダーク
> ==つまんね~==って絶望しちゃって
> つまらない
[日语词形相似度算法](日语词形相似度算法.md)
## 11十二進法の夕景
> さすがに ==はめ外しすぎ==です
> 羽目を外す・はめをはずす
[短语词组修正检索算法](短语词组修正检索算法.md),不光去掉了助词,前半部分还不写汉字,はめ外し和 羽目を外す
> 完全に==着こなしてる==ね
> きこなす・著熟す
[日语词形相似度算法](日语词形相似度算法.md),着こなし:きこなす,着こなし
> 相当使い込まれた==ビンテージ==ものだよね
> ヴィンテージ・ビンテージ・ビンテイジ
[日语词形相似度算法](日语词形相似度算法.md),这个最麻烦的地方就在于外来语本身就是在模仿外语发音,很难说谁是正确的拼写,[外来语](外来语.md),ビンテージ
> それで==ギャランティ==のほうは?
> ギャランティー・ギャランティ・ギャラティー
[日语词形相似度算法](日语词形相似度算法.md),[外来语](外来语.md),ギャランティ 这个东西
> ケチャップの==程よい==酸味とソースの甘さが溶け合い
> ほどよい・程よい・程良い・程好い
程よい ほどよい [日语词形相似度算法](日语词形相似度算法.md)
> 後藤さん もっと愛情込めて==唱えない==と—
> 唱える・となえる
[自动辞书](自动辞书.md)的结果「唱えない」的辞书形是【唱う】,不联系上下文的话,很难说这个东西是错的
## 12 君に朝が降る
> まさか こんな==棚ぼた==展開が起こるなんて
> 棚牡丹・たなぼた
[日语词形相似度算法](日语词形相似度算法.md) 棚ぼた
> ♪ ==色とりどり==の光 放つような
> 色取り取り・いろとりどり
[日语词形相似度算法](日语词形相似度算法.md),啊……这个汉字少得也太多了吧 色とりどり