![[现在放弃的话,就真的结束了.webp]]
熟悉我的人都知道,我一直在研究一个名为「日本語非辞書形辞典」的项目(以下简称「[[非辞書]]」)。但说实话,四年前正式开始这个项目时,完全想不到它会彻底改变我的人生。
## 非辞書:高精度的语义分词器
简单来说,这个项目就是研究如何实现一个基于「语义」、面向「辞典检索」的高精度「分词器」——「分词」是把一句话拆成单词,方便计算机存储和计算,这是自然语言处理的第一步,也是非常关键的一步。
目前已经有 Mecab / Sudachi / Kuromoji / SentencePiece 等等非常优秀的工具了,但它们的设计初衷和非辞書并不一样,所以我才会花四年时间研究如何实现一个满足上诉所有要求的分词器。
不过,一开始我并没有意识到「基于语义」、「面向辞典检索」和「高精度」这三个最关键的问题,我也是在慢慢摸索中才逐渐意识到「非辞書」到底要「做什么」,以及「该怎么做」。
## 2021-2025:步履蹒跚,前路漫漫
如果给过去四年做个简单的总结,我会说「很刺激」,因为它让我去挑战一些我并不擅长的事情;我也会说「很开心」,因为它让我终于找到了自己真正的兴趣(计算语言学)。
但是,随着研究的深入,它带给我的,渐渐的就只有「痛苦」了:我不确定我是否真的有能力完成它;我也开始怀疑这个项目是否真的有意义;最后,因为它,我差点被某出版社寄律师函。
那为什么不放弃呢?因为,我当时的状态就是《三体》里描述的「感到恐惧,感到累,我也想过不去思考它,但却像吸毒一样,停不下来」。
## GBC:如果自己说出结束,那就真的真的结束了
这样的日子持续了大概一年,在我快要被压垮的时候,GBC (少女乐队的呐喊)这部动漫给了我「选择坚持」的勇气,尤其是第一话结尾的「終わりって自分で言ったら、ほんとに終わっちゃですよ」(如果自己说出结束,那就真的真的结束了)。
![[如果自己说出结束.webp|300]]
![[就真的真的结束了.webp|300]]
除了这一幕,这部作品本身也给了我坚持的理由:在这部只有13集的动漫里,除了大量的(九州)方言和教材基本不会教的口语,还至少出现了「108」个「惯用句的非辞書形」,这些干扰让 LLM 的翻译出现了大量问题。
同时,长达四年有意识地收集例句和反复思考,让我终于意识到「非辞書」项目的「真正」意义:它不只是一本辞典,它是在研究如何让计算机「深入理解日语语言结构」,而这,将释放出 LLM 「真正」的翻译潜能(详情参考[[自动翻译人偶:翻译记忆增强生成]])。
## YANS 2025:来自同行的鼓励
![[YANS 2025-kannban.png|500]]
在 YANS 2025上和几位老师的交流,让我肯定了这一点(如果你好奇我和老师们交流了什么,请参考:[[我的 YANS 2025 发表]])。
实际上,这是我四年来第一次遇见真正理解这个项目的同行,除了开心,也感谢他们的建议和鼓励:
虽然我和 [[NEologd-Mecab]] 的作者素未谋面,但他第一时间主动联系我,让我小心律师函(虽然做了心理准备,但真收到某出版社的邮件,第一反应还是「这下完了,要领牢饭了」),他也是第一个鼓励我「这是一件很有意义的事,希望你坚持下去」;
![[satou_copyright.webp]]
Sudachi 的原作者和现任维护团队成员甚至专门抽空和我见面,除了鼓励和建议,也提醒我「一定要注意保护自己」;
还有一位我之前并不认识,但在 Yahoo 工作的程序员前辈也鼓励我:「你正在做的事情,就是在写搜索引擎。但除了你,应该不会有人做这个方向的优化了,所以,我也希望你能坚持下去,但一定要注意安全」。
## 目标:完全自动翻译
我很清楚他们担心的「危险」是什么,但我还是想试试,因为,我真的很想亲眼看到「实现完全自动翻译的那一天」
目指せ、Full Automation Translation !
![[目标:武道馆.webp]]