> 7号室に首をつった人影が==ぼうっと==浮かび上がって ゆらゆら揺れてたんだって
> テレビアニメ氷菓
> ドカ食い気絶部したせいで眠すぎる
> <https://x.com/fuzuku_229/status/1919620293162664223?s=46>
- [x] 这个的断句很有意思 [[非辞书/形态素解析|形态素解析]],[[非辞書-测试用例]]
> ==念のため== 家まで送るよ。
> [[青春猪头]]
> ==どんだけ==限られたエネルギーなのよ あんたは
- [ ] 表外汉字 词频数据 虫けら,来自三体[非辞書-测试用例](非辞書-测试用例.md)
- [x] [[短单位]] ぼうっと [[SudachiDict]] 有了
- [ ] 又注意到了一个很有趣的词「持ちネタ」首先,[[大辞泉]] 居然没有收录这个词,其次「新選国語辞典 第十版」和「大辞林 第四版」都是「持ちねた」,「三省堂国語辞典 第八版」倒是有
- [ ] [目からウロコの百人一首|第1回 連載を始めるにあたって―何が「目からウロコ」なのか?―|はんざわかんいち | 未草](https://www.hituzi.co.jp/hituzigusa/2025/03/17/hi-1/)有趣,标题就是[[非辞書-测试用例]]
- [ ] `ルーティング【routing】`和`ルーチン`可以用做[[非辞書-测试用例]]的[[日语词形相似度算法]]
> そりゃ==手に負えない==悪漢だった
> [[FateSR]]
- [ ] 最有意思的地方在于这个[[惯用句的非辞书形]]的辞书形是「否定
> (PA)文化祭のことを憂いているんです
> 憂える・うれえる
> ぼっち・ざ・ろっく! 第10话
- [ ] 这个有趣就有趣在「憂う」其实才严格遵循活用的结果
> 初めまして
> 注意大辞泉的「連語」
- [x] [[SudachiDict]] 居然有啊
- [ ] 看来还得去检查下每本辞典的附录里的词性说明标准
> だいぶ==手こずってます==けど
> 君の名は。
> 手古摺る・てこずる
- [ ] 手子摺る,笑了[[現代新国語辞典]]
- [ ] 有趣,看来 [[大辞泉]] 是本身的索引就已经注意到了这件事
- [ ] [[辞书形]]最好还是用读音,「新明解国語辞典第八版」の見出しの「漢字表記」がないが、「表記」の説明で「手子摺る・手古摺る・梃子摺る」と書いてある。尤其是最后一个,基本只有大型国语辞典收录了
> 仮にそれが本当だとしたら そもそも不倫じゃない==サイテー==
> さいてい・最低
> 名探偵コナン・1152話
- [ ] 笑了,专门提到了「サイテー」这个写法,但索引没有却没有
> 〔話〕〔感動詞的に〕あきれた。ひどい。
> 「うそだって? ━!」
> 〔一九五〇年代に広まった用法〕
> 表記二は、俗に「サイテー」とも。
> 『三省堂国語辞典第八版』
> そうだね 念には念を
> 念には念を入れる
> ボッチ・ザ・ロック
- [ ] 笑了,这个也是[[惯用句识别算法]] 的好例子
> 「古典部==OG==として、それはあまりに忍びないわ」
> OG
> 02
- [ ] OG 其实索引也要统一的工具直接处理。
> このトークでは5年分の環境変化に一気に対応するために生じた様々な問題(詳細欄参照)を解決するための苦労話を通じて、みなさんが同じ==轍をふまない==ための教訓をお伝えしたいです。
> 轍を踏む・てつをふむ
> <https://2024.pycon.jp/ja/talk/VEECBQ>
轍をふまない
- [ ] 邀え撃つ 居然有两个汉字收录 另外,就是[[二重樱]]居然收录了
> 実は学生が使ってる言語でも==ダントツ==の一位なのですほんとうは三冠なのですが、それは置いておいて、二冠二連覇の背景を説明します。
> 断トツ
> [人事部向けコラム「Pythonが二冠二連覇に(日経BP調査)」](https://www.pythonic-exam.com/archives/9291)
- [ ] 新選国語辞典は「ダントツ」だけ検索できる
- [ ] [[二重樱]] 下面东西不在词库里面
> ウォークスルーとは、会議室などで参加者が机上でシミュレーションする形で、欠陥を発見していくレビュー手法です。
> ウォークスルー
> <https://service.shiftinc.jp/column/8215/>
- [ ] [[SudachiDict]] 有趣,本身也只有[[大辞泉]]和[[大辞林]]收录了,所以[[UniDic]]的短单位到底是什么呢
[[Fate 奇异赝品]]
[[名探偵コナン・テレビアニメ]]
[[孤独摇滚]]
[[ゆるキャン摇曳露营]]
[[GBC-少女乐队的呐喊]]
[[悩ましい日本語辞書引き]]
## 負けヒロインが多すぎる
> ここは ==見て見ぬフリをしよう…==
> 見て見ぬ振り・見て見ぬ振りをする
> 負けヒロインが多すぎる
注意「大辞林」は「見て見ぬ振り」
> なぜ こんな所で==痴話ゲンカを…==
> 痴話喧嘩・ちわげんか
> 負けヒロインが多すぎる
[[Mecab]]没有推出来,[[JMDICT]]收录了
[[UniDic]]的短单位在这个例子里体现的非常明显
- [x] [[SudachiDict]]已经收录了
## 映画ドラえもん のび太の創世日記
> (のび太)そんなーっ
注意这里的长音符号似乎不能直接删除
> おっ? 待てーっ
> 俺たちの研究に==ケチをつける==な
> けちを付ける・けちをつける
## 日语综合教程
> よろこびがその慙愧の念を圧倒したとき、はっきり==腹をきめた== 。
> 腹を決める
注意短语的前后 2 个都可能不会写汉字,所以 3.5 算法还是很有必要
## 中二病でも恋がしたい
> よ 朝から==イチャついてん==な
> いちゃつく
> 誰がお爺ちゃんだ ==つーか==尾行してたのかよ
- [ ] [JMDICT](JMDICT.md) 【ってゆうか・っていうか・っつーか・っつうか・つーか・てゆーか・ってか・てか・つか】
## Fate/Zero
> 既に==藁をも摑む==心境だったセイバーは、一も二もなく狼煙の元へと馳せ参じた。
- わらをもつかみたい《三国7》
- 藁にもすがる《》TODO
- [ ] [[惯用句的非辞书形]] 笑了,这个算是最有趣的例子了
## SweetSub&LoliHouse_16bitセンセーション
> そう思ってるならてんちょーもちゃんとデバッグやって
> てんちょう・店長
> SweetSub&LoliHouse_16bitセンセーション
- [ ] [[SudachiDict]]
嗯……这是不是字幕组的错误呢……但严格来说,[非辞書](非辞書.md)的前3代版本都是基于语言学构建规则进行解析的算法的话,[日语词形相似度算法](日语词形相似度算法.md)也应该要解决这个问题才是
> イッテ!!
> いたい・痛い
> SweetSub&LoliHouse_16bitセンセーション
[UniDic](UniDic.md)都救不了233,但感觉这个说法在动漫里非常常见
> ラノベにソシャゲに VTuber に==ボコ殴り==な感じで 全然売れなくて
> ボコボコ
[非辞書](非辞書.md)的v4版本才能解决这样的问题吧,这不是单纯的[日语词形相似度算法](日语词形相似度算法.md)的问题,而是对一个词条的实际意义的拓展,除非在词的意思上进行聚类分析,否则只能构建特殊规则,不过话说话来,拟声拟态词的前2个假名拿出来用的这个用法可以类推的东西么……[MOJi](MOJi.md)的算法应该能解决这个问题
> つまんねえよ
> つまらない
[自动辞书](自动辞书.md)挂了,但[Mecab](Mecab.md)换[UniDic](UniDic.md)就没问题,看来[[非辞書]]的词库可能是一个优势
## ヴァイオレット・エヴァーガーデン
> ==ヴァイオレット==・エヴァーガーデン
> バイオレット
好玩的是[京阿尼](京阿尼)选了字典中不那么常见的拼写方式
> 会えない日が続くと 胸が==グッと==重くなったりしないか?
> ぐっと
> 『ヴァイオレット・エヴァーガーデン』
- [ ] [[SudachiDict]] 有没有收录
### 04
> 私 彼に==フラれた==の!
> 振る
> ==ウソをつく==場合もあり―
> 嘘をつく
[JMDICT](JMDICT.md),うそをつく・ウソをつく【嘘をつく・嘘を付く・嘘を吐く・ウソを付く・ウソを吐く・うそを付く・うそを吐く】
ウソをつく 注意这里的词条数量,如果不含片假名的话,其实就需要储存一个标准型,外加汉字就好了 [短语词组修正检索算法](短语词组修正检索算法.md),这个例子是最适合说明[算法](算法.md)优势的
> ==幼なじみ==としか思えねぇ
> おさななじみ
おさななじみ・おさなじみ【幼なじみ・幼馴染み・幼馴染】,尤其注意【幼なじみ】这个非常考验[日语词形相似度算法](日语词形相似度算法.md)的极限,足足少了2个汉字,所以映射为向量的时候一定要考虑极端情况,但[日语词形相似度算法](日语词形相似度算法.md)的首要目标是尽可能缩小[非辞書](非辞書.md)的词库
> パーティーを==台なしにして==ごめんなさい
> 台無しにする・だいなしにする
そもそも、デジタル大辞泉には「台無しにする」を載ってないけど。
[短语词组修正检索算法](短语词组修正检索算法.md) 【台無し】、【する】、【だいなし】、【する】 #? 似乎可以节省一点空间
## ビブリア古書堂の事件手帖
> 「白髪交じりの店主が、==苦虫を噛かみつぶしたよう==な顔つきで働いているだけだった。」
> 苦虫を噛み潰したよう
> あの時の彼女とは==似ても似つかない==。まるっきり別人だった。
> 似ても似つかない・似ても似つかぬ・似ても似付かない
- 似ても似つかない
- 『新時代日漢辞典』
- 『実用日本語表現辞典』
- 似ても似つかぬ
- 《三省堂国語辞典第七版》
- 《三省堂スーパー大辞林》
- 似ても似付かない
- 『大辞泉』
- [ ] [[原来辞典里有啊]] 和[[惯用句的非辞书形]] 里面的天顶星难度22333
> 少し頬の肉が落ちた==気もする==が、それ以外はあまり変わらない。
> 気がする
[短语词组修正检索算法](短语词组修正检索算法.md) 気もする和気がする,这个也能算是一组一种现象吧 #助动词替换
> とにかく黙っていても==埓があかない==。
> 埒が明かない
[短语词组修正检索算法](短语词组修正检索算法.md), #汉字书写 埓があかない,埒が明かない
> 去年、他界して……わたしが、==跡を継ぎました==……
> 跡を継ぐ
[短语词组修正检索算法](短语词组修正检索算法.md), #动词活用 跡を継ぐ 跡を継ぎました
> 曖昧に==相づちを打つ==。話の流れが見えてこない。
> 相槌を打つ・相づちを打つ・あいづちをうつ
相づちを打つ [短语词组修正检索算法](短语词组修正检索算法.md) 应该放到[日语词形相似度算法](日语词形相似度算法.md)后面的部分进行讲解,所以在[日语计算词法学实战:非辞書的算法与实现](日语计算词法学实战:非辞書的算法与实现.md)应该把短语相关内容放到最后再来写 #异形词
> 俺は==目を剥いた==。彼女は深々と頭を下げてくる。
> 目を剥く
[短语词组修正检索算法](短语词组修正检索算法.md), #动词活用 目を剥いた
> ……こういう仕事は、==気が進みませんか==?
> 気が進む
[短语词组修正检索算法](短语词组修正检索算法.md) #动词活用 気が進みませんか 気が進む
> おまえこそ、相変わらず威勢がいい。
> 威勢がいい
果然还是要整理下類語辞典
> 結局、==お腹空き==すぎて倒れちゃったの、もう忘れた?
> 腹が空く
注意这个地方的お辞典是没有收录这个东西.
> 一言もない。
> 一言もない
辞書でも「も」と書いてあるか。。。
> ==ほんっとに==しょうがないんだから
> 本当・ほんと
Undic 看起来是还没有收录 ほんっとに 、茶豆正しい
> 開五郎一味は、この夜を最後に==みーんな==いなくなっちまった。
> みんな
> Fate/Samurai Remnant
最值得注意的就是[[日语词形相似度算法]]该如何处理这种本身就非常短的单词呢
> 他に面白いコトと云ったら…まあ、あれかねえ
> 云う
> Fate/Samurai Remnant
> あるのは、町人たちと彌五郎一味の死体だけ。港にあった荷物もそのまま==サ。==
> Fate/Samurai Remnant
这个就是[[光荣]]制作的时候的采用的写法233
## ゴールデンカムイ
### 01
> (杉元)また いつもの==ほら話==だろ
> 法螺話
- [ ] [[SudachiDict]] 未收录
> そいつは 金塊の在りかを何をされても==吐かなかった==
> 吐く・はく
[UniDic](UniDic.md)没有错判成つく吐く,但[自动辞书](自动辞书.md)搞错了
> ==欲をかいた==連中が外に連れ出すことを読んでいたのさ
> 欲をかく・よくをかく
欲をかいた 这个最好玩的地方在于本身就没有汉字,[短语词组修正检索算法](短语词组修正检索算法.md)
> 金塊がどうなったかも ==だーれ==も…
> だれ
Amzaon的字幕组的长音标记方式,[日语词形相似度算法](日语词形相似度算法.md) だーれも だれ
> それを1人の男が ==ぶんどった==
> 分捕る・ぶんどる
[UniDic](UniDic.md)没错,看来还是[自动辞书](自动辞书.md)的问题
> 誰もが埋蔵金の==在りか==を探っていたからな
> 在り処・ありか
- [ ] [[SudachiDict]] 未收录
> 入れ墨のうわさを聞いた屯田兵の==はみ出し==連中が
> はみだし・食出・食み出し
> 目の悪い==コブ付き==の女なんて誰も もらってくれねえ
> こぶつき・コブつき・瘤付き・瘤つき
- [ ] [[SudachiDict]]
> ==幼なじみ==で親友の頼みだ
> おさななじみ・幼なじみ・幼馴染み・幼馴染
> ==ツイてない==な あんたも
> ついている
- [ ] ついてる・ついている・ツイてる【付いてる・付いている】[JMDICT](JMDICT.md) [[新選国語辞典]] [[『三省堂国语辞典第八版』]]
> (杉元)俺たちでヒグマを倒す==しかねえ==ってことか
> しかない
真能[语法句型修正检索算法](语法句型修正检索算法.md)识别出しかねえ这样的东西么
## 文豪ストレイドッグス
<https://subs.kamigami.org/75805.html>
### 第一期
> うちの孤児院はあの虎に==ぶっ壊された==んです
> 打ち壊す・ぶっこわす
> あいつは僕を狙ってる ==殺されかけた==んだ
> 殺す・ころす
- [ ] 本身没有特殊的地方,但关键在于[[非辞書]] 从零构建 的话这是个很好的例子
> ==五月蝿ァーい==
> 五月蝿い
- [ ] 特殊的例子
> ==御目出度い==な 人虎
> おめでたい・御目出度い
- [ ] [[SudachiDict]] 只有「めでたい」
> ==とぼけん==じゃねぇ !
> 惚ける・とぼける
- [ ] [[SudachiDict]]恍ける 笑了,出问题了吧,[[『三省堂国语辞典第八版』]] 没写汉字,而且不是惚
### 第五期
> 世紀の大犯罪者が==他愛ない==幕切れだ
> たあいない・他愛無い・たわい無い・他愛もない
- [ ] [[SudachiDict]]又是没登录么
### DEAD APPLE
> 最初から==判って==いた 一般人は異能力者には勝てない
> 判る・わかる
[自动辞书](自动辞书.md)的推导结果是:まさる,但自己在[Mecab](Mecab.md)无法复现,这就有点意思了,是因为[自动辞书](自动辞书.md)用的是 Dart 的移植版么
> 何しろ 奴は日本政府すら==手玉にとった==男だ
> 手玉に取る・てだまにとる
## 存档
> 抗がん剤の副作用がわかる本、世界のエッセンシャルドラッグ、ようこそダウン症の赤ちゃん
> 抗がん剤
> <https://ja.wikipedia.org/wiki/%E4%B8%89%E7%9C%81%E5%A0%82>
- [x] 抗がん剤 [[SudachiDict]] 有了
> ほとんど==事後承諾==だったけどな
> 事後承諾・じごしょうだく
- [x] 笑了,[[UniDic]]又是一个短单位,但是[[SudachiDict]]已经收录了