# ぼっち・ざ・ろっく 字幕来源 Amazon Prime <https://www.amazon.co.jp/gp/video/detail/B0DL17M1RZ/ref=atv_dp_share_cu_r> > そうだね 念には念を > 念には念を入れる > ボッチ・ザ・ロック - [ ] 笑了,这个也是[[惯用句识别算法]] 的好例子 ## 01転がるぼっち > 楽しい==浮かれた==お話ひとつも > 浮かれる 注意在大辞泉中,是有【うか・れる【浮(か)れる】】这个词条的,而且意思还和【浮く】不一样:【① 楽しくなって心がうきうきする。おもしろさに心を奪われる。「酔って―・れる」「月に―・れて歩く」】,但[UniDic](UniDic.md)虽然号称【国語研短単位自動解析用辞書】,却收录了【浮かれる】,看来是在区分了意思的基础上取最短。 > ミスり==まくった==~ > まくる [自动辞书](自动辞书.md)挂的原因是没有用[UniDic](UniDic.md),但用这个成本实在是太大了点2333,2023版的精简版都有 500M,手机上基本不可能用这个。 > 下手でも 楽しく弾くことだけは==心がけ==よ! > 心掛ける [日语词形相似度算法](日语词形相似度算法.md)看来日本人是真不喜欢写【掛】,注意这里的读法不是原来的标准读法 > じゃあ ==あだ名==とかはないの? > あだな 果然是词库的问题,[UniDic](UniDic.md)就不会出问题了 > ==たっくさん== > たくさん - [x] 如果[日语词形相似度算法](日语词形相似度算法.md)是最后一步的话,那可以把っ直接删掉,因为之前进行过查询了 > き… 喜多さん! ==いつの間==に… > 何時の間・いつのま - [ ] [[SudachiDict]] 笑了,又没收录 > みんな==接し==づらそうと言うか > 接する・せっする ## 02また明日 > (虹夏)そこ ==ウソつかない==~ > うそをつく・噓を付く - [ ] [短语词组修正检索算法](短语词组修正检索算法.md),最好玩的不是想写成【ウソをつく】,而是直接助词都给省了 > (ギタ男)そして練習に次ぐ練習の末… - [ ] [[语法句型修正检索算法]] 上面的`そして練習に次ぐ練習の末`这样的东西真的能识别出来么 > ボーカル また==探さなきゃ== > 探す [日语口语](日语口语.md) 探さなきゃ是なければならない > 楽器に==つぎ込む==から常に金欠だよ > 注ぎ込む・つぎこむ - [ ] 注意,大辞泉有2个词条:つぎ‐こ・む【▽注ぎ込む】和そそぎ‐こ・む【注ぎ込む】,后者没有▽标记,而单纯的【注】在大辞泉也没有写标记为▽。所以[日语词形相似度算法](日语词形相似度算法.md),不能只提取一遍所谓的非常用汉字,还是得结合实际的语料进一步调整算法 > もう 30分は==浸(つか)かってる==し > 浸る・浸かる Amazon 本身的格式吗,[非辞書](非辞書.md)搞这个倒是简单,而且也做了,但是关于字幕格式的讨论可能 > (ひとり)==着いちゃった==… > 着く 这个完全没有多余的上下文呀233[[义项相似算法]] > ==ひと息==つきたくて > 一息・ひといき 辞书形【一息】里完全没有假名,而【ひといき】的字符数量是【一息】的2倍,[日语词形相似度算法](日语词形相似度算法.md)又该怎么放缩呢233 > ==ボッてる==みたいな顔しないで > ぼる - [ ] [[SudachiDict]] 笑了,辞典里面有登录「ぼる」,但还是解析错了 [UniDic](UniDic.md)是没有收录ぼる这个单词么,[自动辞书](自动辞书.md)和[Mecab](Mecab.md)都可以复现这个问题 > お==昼ごはん==には最適だな > ひるごはん・昼御飯 注意,非辞书形少了2个汉字,与此相对的整体长度只多了一个,[日语词形相似度算法](日语词形相似度算法.md)能解决这种么,要不还是就查表吧233,不优雅就不优雅2333,[非辞書](非辞書.md)的完全扫描算法,能在一般测试集获得多大的抗干扰呢…… > 時給から==引いとく==な > 引く - [x] 時給から引い==とく==な应该算是[日语口语](日语口语.md) > 喜多さんの==言ってた== > 言う [日语口语](日语口语.md),突然想起来吴杨老师说自己才到日本的时候说【ている】被导师吐槽【気持ち悪い】2333,看来发音太书面语了233 > - [ ] 絶対に==風邪ひいた==よね? > 風邪を引く・かぜをひく - [ ] 風邪ひいた 看起来似乎[日语口语](日语口语.md)喜欢省,[短语词组修正检索算法](短语词组修正检索算法.md) > (ひとり)新しい==あだ名== > 渾名・あだな ## 03馳せサンズ > ==気の利いた==ことを言えれば… > 気が利く・きのきく [短语词组修正检索算法](短语词组修正检索算法.md),気の利いた和 気が利く #? 注意の > 先輩の路上ライブ見て==ひと目ぼれ==したの > 一目惚れ・ひとめぼれ > テレビアニメ『ぼっち・ざ・ろっく! 』第03话「馳せサンズ」 > Amazon Prime [日语词形相似度算法](日语词形相似度算法.md),这个看起来长一点,但细细研究一下就会发现,其实也就2个字符的差异,所以和英语的相似词算法不一样,日语的[日语词形相似度算法](日语词形相似度算法.md)一定要放缩法,不能照抄 「先輩の路上ライブ見て==ひと目ぼれ==したの」麻烦就麻烦在除了是[[短单位]]之外,还有表记方式的差异,[[SudachiDict]]里面没有这个东西,[[MikannDict]] 就只能手动添加了 > 晴れてメンバーが==勢ぞろいした==のでした > 勢揃い・せいぞろい 【勢×揃い】的揃有标记,所以[日语词形相似度算法](日语词形相似度算法.md)应该不会有太大的问题 > ==晴れて==メンバーが勢ぞろいしたのでした > ぼっち・ざ・ろっく! 第03话「馳せサンズ」 - [ ] 哟,[[UniDic]] 又没收录这个东西,[[SudachiDict]]也没有 > これで 私は所持金が==底をついた==ので > 底を突く [短语词组修正检索算法](短语词组修正检索算法.md)的问题么,底をついた 说起来,单独的话,这个つく,会写汉字的比例是多少呢 > 全然==ピンとこない== > ぴんと来る ピンとこない和ぴんと来る,要[短语词组修正检索算法](短语词组修正检索算法.md)该如何设计索引呢?是【ぴんと】【来る】么 ?而且注意,这个固定搭配没有をがに,所以自己要把这些剩余的东西也给过一遍,另外,这个东西最好玩的是 #动词活用 导致的问题,所以尤其适合用来检查[非辞書](非辞書.md)算法的基本动词活用的准确度 > ==何ひとつ==? > 何一つ・なにひとつ - [ ] [[現代新国語辞典]] 連語だけ、何ひとつほかは「副詞」 ## 04ジャンピングガール(ズ) > (星歌)==お待ちかね==の給料だぞ > 御待兼ね・おまちかね・待ち兼ね・まちかね・待ち兼ねる・まちかねる - [ ] お待ちかねの給料だぞ 辞典里面其实是专门有这个的,但自己其实最初没有意识到这个问题 - [ ] [[SudachiDict]] 笑了,看起来似乎连「待ち兼ね」都只有[[大辞泉]]和[[大辞林]]收录了,其他中型国语辞典一个都没收录 > ==気とか使わなそうだ==し > 気を使う・きをつかう - [x] [短语词组修正检索算法](短语词组修正检索算法.md), 気とか使わなそうだ,気を使う,最最好玩的一个例子 #助动词替换 ,を替换成了とか > (ひとり)時間が たてばたつほど 【たてばた】是有这个词的233,但没有上下文的话,[非辞書](非辞書.md)也很难给出更好的建议吧 > カッ ==カッコいい==? > かっこいい - [ ] カッコいい 如果要说明[[非辞書之禅]]的原则,这是个很好的例子 - [ ] 笑了,[[SudachiDict]]能正常解析「かっこいい」,但解析不了「カッコいい」 > ==つるし上げる==会では? > 吊し上げる・つるしあげる - [ ] [日语词形相似度算法](日语词形相似度算法.md)つるし‐あげ【×吊るし上げ】,另外「批斗」这个[[翻译]]真的是在作死边缘试探,不知道B站的官方字幕是怎么搞的 - [ ] 好玩的「吊るし上げる」才是更多辞典收录的[[辞书形]] > 喜多ちゃん リョウに==振り回されすぎない==ようにね > 振り回す・ふりまわす 这其实勉强算是[[语法句型修正检索算法]]了吧? > (虹夏)ぼっちちゃんが ==ひん死==状態に? > 瀕死・ひんし ひん‐し【×瀕死】,[日语词形相似度算法](日语词形相似度算法.md),果然也有标记 > ==つまんない==歌詞書かないでいいから > つまらない・詰まらない 如果不手动添加【つまんない=》つまらない】的规则,光靠[日语词形相似度算法](日语词形相似度算法.md)应该是能从词库里面算出正确答案的,真有这个必要么 > 後藤さん ==目のくま==大丈夫? > 目の隈 [青春猪头](青春猪头.md)的那个字幕组是也不写汉字,但用的是片假名,这个算是[日语词形相似度算法](日语词形相似度算法.md)来做的事情 > もう1度 ギター 持って==いこ== > いく 啊,Amzon的字幕组真能听出来这里不是【持っていこう】么…… ## 05飛べない魚 > なんだ? 今の==捨てゼリフ==は > すてぜりふ・捨て台詞 逗我吧2333,[日语词形相似度算法](日语词形相似度算法.md)真能算出来这样的东西么 > せ… ==精いっぱい==服従心を表現しようと > せいいっぱい・精一杯 [日语词形相似度算法](日语词形相似度算法.md) > (郁代)==すっご~い== さすが先輩! > 凄い・すごい Amazon的字幕组的语气词和符号真的很丰富,[JTF日本語標準スタイルガイド(翻訳用)_日语翻译风格指南](JTF日本語標準スタイルガイド(翻訳用)_日语翻译风格指南.md),这个指南有提到符号的使用 ## 06八景 > みんな==接し==づらそうと言うか > 接する > ==ズバッと==聞くな おい! > ずばっと [非辞書](非辞書.md) #? 词库没有收录ずばっと,导致推导结果非常奇怪`['もぎる', 'せせる', 'る', 'ずる', 'ずばっと']` > 私が ==ひと肌脱いで==あげよう > 一肌・一肌脱ぐ ひと肌脱いで 一肌脱ぐ[短语词组修正检索算法](短语词组修正检索算法.md),问题是还是[日语词形相似度算法](日语词形相似度算法.md)的问题呢,这可能和辞典编纂者的偏好有关 > あ~ まだ==ピンとこない==か > ピンと来る・ピンとくる・ぴんと来る ピンとこない [短语词组修正检索算法](短语词组修正检索算法.md),有点奇怪的是输入法优先展示的是第一种,但辞典里面收录的都是后面的东西 > 居酒屋に==置きっぱなし==だ > おきっぱなし・置きっ放し [日语词形相似度算法](日语词形相似度算法.md) > (きくり)ロックを==なめるな!== > 舐める・なめる 本身没有什么难的,好玩的是[自动辞书](自动辞书.md)的第一个推导结果是なむ > って 言ったそばから > 側から・そばから [语法句型修正检索算法](语法句型修正检索算法.md)言ったそばから > (ひとり)あのとき==ミエなんて張る==んじゃなかった > 見えを張る・みえをはる ミエなんて張る = 見えを張る [短语词组修正检索算法](短语词组修正检索算法.md),注意这种可能就没法单纯地忽略所谓的几个固定的助动词了,还是得借助扫描算法进行查询(另外这样的助词很可能干扰识别结果,所以一定要跑测试)。 不过观察 ミエなんて張る 这个样例倒是让自己想到了一个方法:每次扫描观察第一个结果是否在「词组」表内,如果在,那么对于之后的扫描结果要启用「词组扫描模式」,也就是是否启用SQL来查询,要看,[非辞書](非辞書.md) #? ミエなんて張る = 見えを張る 另外也提醒自己 词组扫描的测试样例可以考虑从词典里面获取 #? ,但[非辞書](非辞書.md)需要更激进的测试用例 ## 07君の家まで > ==しょうもない==言い訳を… > 仕様が無い しょうもない 仕様も無い [短语词组修正检索算法](短语词组修正检索算法.md),这个算是 #助动词替换 > (虹夏)ダ… ==ダセ~!== > ださい [非辞書](非辞書.md),啊……这个超纲了吧2333 ダセ 和 ださい 应该是[[日语口语]]的一种倾向,而不是特例 > (伊地知(いじち)虹夏(にじか))==あっつ~== > あつい [日语词形相似度算法](日语词形相似度算法.md) あっつ あつい 似乎这里也能印证 っ ## 08ぼっち・ざ・ろっく 这一话怎么没有任何[非辞書](非辞書.md)呢2233 ## 09江ノ島エスカー > でも時期的に もう==泳げなそう== > 泳ぐ > 割りと ==目はさえてて== > 目が覚める・めがさめる 目はさえてて = 目が覚める [短语词组修正检索算法](短语词组修正检索算法.md),不光换了助词,后半部分还不写汉字,说起来有词组的搭配是用は而不是が么 #? > (リョウ)鳥にまで==ナメられてる== > 舐める・なめる・ナメる 注意,最后一种写法是[macOS](macOS.md)系统输入法的提示 > 言ったそばから! [语法句型修正检索算法](语法句型修正检索算法.md),たそばから,应该记录整个句型的接续 > ==映(ば)えます==ね > 映える・ばえる [非辞書](非辞書.md),本身没什么特殊的地方,但问题在于字幕组特别注明了不是【はえる】,在[义项相似算法](义项相似算法.md)的优化可以修改 Ruby 的处理,现在是直接删掉了,但其实可以用提取出来的假名在再进行一次查询 #? > じゃあ 2人とも ==頭いい==んですね > 頭がいい・あたまがいい - [ ] [MOJi](MOJi.md)的词条是真的广,另外省が的现象在[柯南](Note/柯南.md)里面似乎也听过,[短语词组修正检索算法](短语词组修正检索算法.md) #? 頭いいん > ト… トロピ… カル… > トロピ カル - [ ] 预处理时可以考虑直接删除除了,。、的其他标点[[非辞書-测试用例]] > ==泳ゲナイ==ノニ > 泳ぐ [非辞書](非辞書.md),注意`['およぐ', 'およげる', '泳ぐ', 'くぐる', '泳げない']`返回的最后一个不是原始输入值 #? ## 10アフターダーク > ==つまんね~==って絶望しちゃって > つまらない [日语词形相似度算法](日语词形相似度算法.md) ## 11十二進法の夕景 > さすがに ==はめ外しすぎ==です > 羽目を外す・はめをはずす [短语词组修正检索算法](短语词组修正检索算法.md),不光去掉了助词,前半部分还不写汉字,はめ外し和 羽目を外す > 完全に==着こなしてる==ね > きこなす・著熟す [日语词形相似度算法](日语词形相似度算法.md),着こなし:きこなす,着こなし > 相当使い込まれた==ビンテージ==ものだよね > ヴィンテージ・ビンテージ・ビンテイジ [日语词形相似度算法](日语词形相似度算法.md),这个最麻烦的地方就在于外来语本身就是在模仿外语发音,很难说谁是正确的拼写,[外来语](外来语.md),ビンテージ > それで==ギャランティ==のほうは? > ギャランティー・ギャランティ・ギャラティー [日语词形相似度算法](日语词形相似度算法.md),[外来语](外来语.md),ギャランティ 这个东西 > ケチャップの==程よい==酸味とソースの甘さが溶け合い > ほどよい・程よい・程良い・程好い 程よい ほどよい [日语词形相似度算法](日语词形相似度算法.md) > 後藤さん もっと愛情込めて==唱えない==と— > 唱える・となえる [自动辞书](自动辞书.md)的结果「唱えない」的辞书形是【唱う】,不联系上下文的话,很难说这个东西是错的 ## 12 君に朝が降る > まさか こんな==棚ぼた==展開が起こるなんて > 棚牡丹・たなぼた [日语词形相似度算法](日语词形相似度算法.md) 棚ぼた > ♪ ==色とりどり==の光 放つような > 色取り取り・いろとりどり [日语词形相似度算法](日语词形相似度算法.md),啊……这个汉字少得也太多了吧 色とりどり