> 7号室に首をつった人影が==ぼうっと==浮かび上がって ゆらゆら揺れてたんだって > テレビアニメ氷菓 > ドカ食い気絶部したせいで眠すぎる > <https://x.com/fuzuku_229/status/1919620293162664223?s=46> - [x] 这个的断句很有意思 [[非辞书/形态素解析|形态素解析]],[[非辞書-测试用例]] > ==念のため== 家まで送るよ。 > [[青春猪头]] > ==どんだけ==限られたエネルギーなのよ あんたは - [ ] 表外汉字 词频数据 虫けら,来自三体[非辞書-测试用例](非辞書-测试用例.md) - [x] [[短单位]] ぼうっと [[SudachiDict]] 有了 - [ ] 又注意到了一个很有趣的词「持ちネタ」首先,[[大辞泉]] 居然没有收录这个词,其次「新選国語辞典 第十版」和「大辞林 第四版」都是「持ちねた」,「三省堂国語辞典 第八版」倒是有 - [ ] [目からウロコの百人一首|第1回 連載を始めるにあたって―何が「目からウロコ」なのか?―|はんざわかんいち | 未草](https://www.hituzi.co.jp/hituzigusa/2025/03/17/hi-1/)有趣,标题就是[[非辞書-测试用例]] - [ ] `ルーティング【routing】`和`ルーチン`可以用做[[非辞書-测试用例]]的[[日语词形相似度算法]] > そりゃ==手に負えない==悪漢だった > [[FateSR]] - [ ] 最有意思的地方在于这个[[惯用句的非辞书形]]的辞书形是「否定 > (PA)文化祭のことを憂いているんです > 憂える・うれえる > ぼっち・ざ・ろっく! 第10话 - [ ] 这个有趣就有趣在「憂う」其实才严格遵循活用的结果 > 初めまして > 注意大辞泉的「連語」 - [x] [[SudachiDict]] 居然有啊 - [ ] 看来还得去检查下每本辞典的附录里的词性说明标准 > だいぶ==手こずってます==けど > 君の名は。 > 手古摺る・てこずる - [ ] 手子摺る,笑了[[現代新国語辞典]] - [ ] 有趣,看来 [[大辞泉]] 是本身的索引就已经注意到了这件事 - [ ] [[辞书形]]最好还是用读音,「新明解国語辞典第八版」の見出しの「漢字表記」がないが、「表記」の説明で「手子摺る・手古摺る・梃子摺る」と書いてある。尤其是最后一个,基本只有大型国语辞典收录了 > 仮にそれが本当だとしたら そもそも不倫じゃない==サイテー== > さいてい・最低 > 名探偵コナン・1152話 - [ ] 笑了,专门提到了「サイテー」这个写法,但索引没有却没有 > 〔話〕〔感動詞的に〕あきれた。ひどい。 > 「うそだって? ━!」 > 〔一九五〇年代に広まった用法〕 > 表記二は、俗に「サイテー」とも。 > 『三省堂国語辞典第八版』 > そうだね 念には念を > 念には念を入れる > ボッチ・ザ・ロック - [ ] 笑了,这个也是[[惯用句识别算法]] 的好例子 > 「古典部==OG==として、それはあまりに忍びないわ」 > OG > 02 - [ ] OG 其实索引也要统一的工具直接处理。 > このトークでは5年分の環境変化に一気に対応するために生じた様々な問題(詳細欄参照)を解決するための苦労話を通じて、みなさんが同じ==轍をふまない==ための教訓をお伝えしたいです。 > 轍を踏む・てつをふむ > <https://2024.pycon.jp/ja/talk/VEECBQ> 轍をふまない - [ ] 邀え撃つ 居然有两个汉字收录 另外,就是[[二重樱]]居然收录了 > 実は学生が使ってる言語でも==ダントツ==の一位なのですほんとうは三冠なのですが、それは置いておいて、二冠二連覇の背景を説明します。 > 断トツ > [人事部向けコラム「Pythonが二冠二連覇に(日経BP調査)」](https://www.pythonic-exam.com/archives/9291) - [ ] 新選国語辞典は「ダントツ」だけ検索できる - [ ] [[二重樱]] 下面东西不在词库里面 > ウォークスルーとは、会議室などで参加者が机上でシミュレーションする形で、欠陥を発見していくレビュー手法です。 > ウォークスルー > <https://service.shiftinc.jp/column/8215/> - [ ] [[SudachiDict]] 有趣,本身也只有[[大辞泉]]和[[大辞林]]收录了,所以[[UniDic]]的短单位到底是什么呢 [[Fate 奇异赝品]] [[名探偵コナン・テレビアニメ]] [[孤独摇滚]] [[ゆるキャン摇曳露营]] [[GBC-少女乐队的呐喊]] [[悩ましい日本語辞書引き]] ## 負けヒロインが多すぎる > ‪ここは ==見て見ぬフリをしよう…‬== > 見て見ぬ振り・見て見ぬ振りをする > 負けヒロインが多すぎる 注意「大辞林」は「見て見ぬ振り」 > ‪なぜ こんな所で==痴話ゲンカを…‬== > 痴話喧嘩・ちわげんか > 負けヒロインが多すぎる [[Mecab]]没有推出来,[[JMDICT]]收录了 [[UniDic]]的短单位在这个例子里体现的非常明显 - [x] [[SudachiDict]]已经收录了 ## 映画ドラえもん のび太の創世日記 > (のび太)そんなーっ 注意这里的长音符号似乎不能直接删除 > おっ? 待てーっ > 俺たちの研究に==ケチをつける==な > けちを付ける・けちをつける ## 日语综合教程 > よろこびがその慙愧の念を圧倒したとき、はっきり==腹をきめた== 。 > 腹を決める 注意短语的前后 2 个都可能不会写汉字,所以 3.5 算法还是很有必要 ## 中二病でも恋がしたい > よ 朝から==イチャついてん==な > いちゃつく > 誰がお爺ちゃんだ ==つーか==尾行してたのかよ - [ ] [JMDICT](JMDICT.md) 【ってゆうか・っていうか・っつーか・っつうか・つーか・てゆーか・ってか・てか・つか】 ## Fate/Zero > 既に==藁をも摑む==心境だったセイバーは、一も二もなく狼煙の元へと馳せ参じた。 - わらをもつかみたい《三国7》 - 藁にもすがる《》TODO - [ ] [[惯用句的非辞书形]] 笑了,这个算是最有趣的例子了 ## SweetSub&LoliHouse_16bitセンセーション > そう思ってるならてんちょーもちゃんとデバッグやって > てんちょう・店長 > SweetSub&LoliHouse_16bitセンセーション - [ ] [[SudachiDict]] 嗯……这是不是字幕组的错误呢……但严格来说,[非辞書](非辞書.md)的前3代版本都是基于语言学构建规则进行解析的算法的话,[日语词形相似度算法](日语词形相似度算法.md)也应该要解决这个问题才是 > イッテ!! > いたい・痛い > SweetSub&LoliHouse_16bitセンセーション [UniDic](UniDic.md)都救不了233,但感觉这个说法在动漫里非常常见 > ラノベにソシャゲに VTuber に==ボコ殴り==な感じで 全然売れなくて > ボコボコ [非辞書](非辞書.md)的v4版本才能解决这样的问题吧,这不是单纯的[日语词形相似度算法](日语词形相似度算法.md)的问题,而是对一个词条的实际意义的拓展,除非在词的意思上进行聚类分析,否则只能构建特殊规则,不过话说话来,拟声拟态词的前2个假名拿出来用的这个用法可以类推的东西么……[MOJi](MOJi.md)的算法应该能解决这个问题 > つまんねえよ > つまらない [自动辞书](自动辞书.md)挂了,但[Mecab](Mecab.md)换[UniDic](UniDic.md)就没问题,看来[[非辞書]]的词库可能是一个优势 ## ヴァイオレット・エヴァーガーデン > ==ヴァイオレット==・エヴァーガーデン > バイオレット 好玩的是[京阿尼](京阿尼)选了字典中不那么常见的拼写方式 > 会えない日が続くと 胸が==グッと==重くなったりしないか? > ぐっと > 『ヴァイオレット・エヴァーガーデン』 - [ ] [[SudachiDict]] 有没有收录 ### 04 > 私 彼に==フラれた==の! > 振る > ==ウソをつく==場合もあり― > 嘘をつく [JMDICT](JMDICT.md),うそをつく・ウソをつく【嘘をつく・嘘を付く・嘘を吐く・ウソを付く・ウソを吐く・うそを付く・うそを吐く】 ウソをつく 注意这里的词条数量,如果不含片假名的话,其实就需要储存一个标准型,外加汉字就好了 [短语词组修正检索算法](短语词组修正检索算法.md),这个例子是最适合说明[算法](算法.md)优势的 > ==幼なじみ==としか思えねぇ > おさななじみ おさななじみ・おさなじみ【幼なじみ・幼馴染み・幼馴染】,尤其注意【幼なじみ】这个非常考验[日语词形相似度算法](日语词形相似度算法.md)的极限,足足少了2个汉字,所以映射为向量的时候一定要考虑极端情况,但[日语词形相似度算法](日语词形相似度算法.md)的首要目标是尽可能缩小[非辞書](非辞書.md)的词库 > パーティーを==台なしにして==ごめんなさい > 台無しにする・だいなしにする そもそも、デジタル大辞泉には「台無しにする」を載ってないけど。 [短语词组修正检索算法](短语词组修正检索算法.md) 【台無し】、【する】、【だいなし】、【する】 #? 似乎可以节省一点空间 ## ビブリア古書堂の事件手帖 > 「白髪交じりの店主が、==苦虫を噛かみつぶしたよう==な顔つきで働いているだけだった。」 > 苦虫を噛み潰したよう > あの時の彼女とは==似ても似つかない==。まるっきり別人だった。 > 似ても似つかない・似ても似つかぬ・似ても似付かない - 似ても似つかない - 『新時代日漢辞典』 - 『実用日本語表現辞典』 - 似ても似つかぬ - 《三省堂国語辞典第七版》 - 《三省堂スーパー大辞林》 - 似ても似付かない - 『大辞泉』 - [ ] [[原来辞典里有啊]] 和[[惯用句的非辞书形]] 里面的天顶星难度22333 > 少し頬の肉が落ちた==気もする==が、それ以外はあまり変わらない。 > 気がする [短语词组修正检索算法](短语词组修正检索算法.md) 気もする和気がする,这个也能算是一组一种现象吧 #助动词替换 > とにかく黙っていても==埓があかない==。 > 埒が明かない [短语词组修正检索算法](短语词组修正检索算法.md), #汉字书写 埓があかない,埒が明かない > 去年、他界して……わたしが、==跡を継ぎました==…… > 跡を継ぐ [短语词组修正检索算法](短语词组修正检索算法.md), #动词活用 跡を継ぐ 跡を継ぎました > 曖昧に==相づちを打つ==。話の流れが見えてこない。 > 相槌を打つ・相づちを打つ・あいづちをうつ 相づちを打つ [短语词组修正检索算法](短语词组修正检索算法.md) 应该放到[日语词形相似度算法](日语词形相似度算法.md)后面的部分进行讲解,所以在[日语计算词法学实战:非辞書的算法与实现](日语计算词法学实战:非辞書的算法与实现.md)应该把短语相关内容放到最后再来写 #异形词 > 俺は==目を剥いた==。彼女は深々と頭を下げてくる。 > 目を剥く [短语词组修正检索算法](短语词组修正检索算法.md), #动词活用 目を剥いた > ……こういう仕事は、==気が進みませんか==? > 気が進む [短语词组修正检索算法](短语词组修正检索算法.md) #动词活用 気が進みませんか 気が進む > おまえこそ、相変わらず威勢がいい。 > 威勢がいい 果然还是要整理下類語辞典 > 結局、==お腹空き==すぎて倒れちゃったの、もう忘れた? > 腹が空く 注意这个地方的お辞典是没有收录这个东西. > 一言もない。 > 一言もない 辞書でも「も」と書いてあるか。。。 > ==ほんっとに==しょうがないんだから > 本当・ほんと Undic 看起来是还没有收录 ほんっとに 、茶豆正しい > 開五郎一味は、この夜を最後に==みーんな==いなくなっちまった。 > みんな > Fate/Samurai Remnant 最值得注意的就是[[日语词形相似度算法]]该如何处理这种本身就非常短的单词呢 > 他に面白いコトと云ったら…まあ、あれかねえ > 云う > Fate/Samurai Remnant > あるのは、町人たちと彌五郎一味の死体だけ。港にあった荷物もそのまま==サ。== > Fate/Samurai Remnant 这个就是[[光荣]]制作的时候的采用的写法233 ## ゴールデンカムイ ### 01 > (杉元)また いつもの==ほら話==だろ > 法螺話 - [ ] [[SudachiDict]] 未收录 > そいつは 金塊の在りかを何をされても==吐かなかった== > 吐く・はく [UniDic](UniDic.md)没有错判成つく吐く,但[自动辞书](自动辞书.md)搞错了 > ==欲をかいた==連中が外に連れ出すことを読んでいたのさ > 欲をかく・よくをかく 欲をかいた 这个最好玩的地方在于本身就没有汉字,[短语词组修正检索算法](短语词组修正检索算法.md) > 金塊がどうなったかも ==だーれ==も… > だれ Amzaon的字幕组的长音标记方式,[日语词形相似度算法](日语词形相似度算法.md) だーれも だれ > それを1人の男が ==ぶんどった== > 分捕る・ぶんどる [UniDic](UniDic.md)没错,看来还是[自动辞书](自动辞书.md)的问题 > 誰もが埋蔵金の==在りか==を探っていたからな > 在り処・ありか - [ ] [[SudachiDict]] 未收录 > 入れ墨のうわさを聞いた屯田兵の==はみ出し==連中が > はみだし・食出・食み出し > 目の悪い==コブ付き==の女なんて誰も もらってくれねえ > こぶつき・コブつき・瘤付き・瘤つき - [ ] [[SudachiDict]] > ==幼なじみ==で親友の頼みだ > おさななじみ・幼なじみ・幼馴染み・幼馴染 > ==ツイてない==な あんたも > ついている - [ ] ついてる・ついている・ツイてる【付いてる・付いている】[JMDICT](JMDICT.md) [[新選国語辞典]] [[『三省堂国语辞典第八版』]] > (杉元)俺たちでヒグマを倒す==しかねえ==ってことか > しかない 真能[语法句型修正检索算法](语法句型修正检索算法.md)识别出しかねえ这样的东西么 ## 文豪ストレイドッグス <https://subs.kamigami.org/75805.html> ### 第一期 > うちの孤児院はあの虎に==ぶっ壊された==んです > 打ち壊す・ぶっこわす > あいつは僕を狙ってる ==殺されかけた==んだ > 殺す・ころす - [ ] 本身没有特殊的地方,但关键在于[[非辞書]] 从零构建 的话这是个很好的例子 > ==五月蝿ァーい== > 五月蝿い - [ ] 特殊的例子 > ==御目出度い==な 人虎 > おめでたい・御目出度い - [ ] [[SudachiDict]] 只有「めでたい」 > ==とぼけん==じゃねぇ ! > 惚ける・とぼける - [ ] [[SudachiDict]]恍ける 笑了,出问题了吧,[[『三省堂国语辞典第八版』]] 没写汉字,而且不是惚 ### 第五期 > 世紀の大犯罪者が==他愛ない==幕切れだ > たあいない・他愛無い・たわい無い・他愛もない - [ ] [[SudachiDict]]又是没登录么 ### DEAD APPLE > 最初から==判って==いた 一般人は異能力者には勝てない > 判る・わかる [自动辞书](自动辞书.md)的推导结果是:まさる,但自己在[Mecab](Mecab.md)无法复现,这就有点意思了,是因为[自动辞书](自动辞书.md)用的是 Dart 的移植版么 > 何しろ 奴は日本政府すら==手玉にとった==男だ > 手玉に取る・てだまにとる ## 存档 > 抗がん剤の副作用がわかる本、世界のエッセンシャルドラッグ、ようこそダウン症の赤ちゃん > 抗がん剤 > <https://ja.wikipedia.org/wiki/%E4%B8%89%E7%9C%81%E5%A0%82> - [x] 抗がん剤 [[SudachiDict]] 有了 > ほとんど==事後承諾==だったけどな > 事後承諾・じごしょうだく - [x] 笑了,[[UniDic]]又是一个短单位,但是[[SudachiDict]]已经收录了