# 2022-2025:步履蹒跚,前路漫漫
熟悉我的坛友可能知道,从三年前开始,我一直~~鸽到现在~~在维护《日本語非辞書形辞典》。
三年前有位坛友问我,《日本語非辞書形辞典》的意义是什么?
> 佩服你锲而不舍孜孜不倦的投入大量的时间和精力,写程序,写文档,发布新版本,但又看不出你明确的最终目标,或者设想一个什么样的明确产品。一般来说产品的特性一目了然才有利于推广,一点个人观感。
[当时我的回复](http://forum.freemdict.com/t/topic/16260/9?u=步天歌)是:
> 哈哈哈,最终的目标的话,可能就是让日语听说读写都能实现真正的“无纸化学习”吧。
> 不过说到底可能还是我自己比较喜欢折腾吧(可能就跟差生文具多一个道理233)
> 产品的话,我并不是计算机科班出身,实力有限,所以到现在也没有什么拿得出手的完整APP,都只是一些简单的脚本。不过明年寒假应该可以拿出一个把我在论坛讨论过的东西运用到实际的产品,到时候还希望贵兄赏个脸,来捧捧场:)
>另外,针对“优化日语的剪贴板查词”的脚本对我想做的一些产品来说,是非常关键的部分。而且就这点而言,目前为止,没有哪位开发者拿出了一个让我满意的解决方案,基本都只能算是不及格或者勉强及格
> 最后,“优化日语的剪贴板查词”虽然没有“研究日语机器翻译”听起来那么高大上,本质也是在解决日语独有的自然语言处理问题,所以这些脚本也可以看做是(曾今的)前沿机翻技术在实际产品中的运用吧,至于能不能反哺、推动机翻技术的进步,说实话,我没有信心,但我期待那一天的到来:)
换到现在,我会总结成一句话:
> 最终的目标,是「构建下一代辞典检索系统的基石」。
至于「一个什么样的明确产品」嘛:Yomitan/jidoujisho 的查词体验的优化、在物书堂辞典上实现 MOJi 的云端搜索类似的功能、 DAG 的向量化工具[[搜文解字]] 、语料库的全文检索[[木漏日]]……具体的技术细节我就不多写了(其实是我还没搞好),有兴趣可以翻我在论坛里发过的帖子。
搞了三年非辞書,我暂时选择放弃从零搓一个形态素解析器(~~我TM单元测试怎么又挂了啊,QNMD,不造轮子了~~),还是老老实实封装下 [[Sudachi]] ,先给用户提供一个完美的体验吧。
万一用户数真上来了,先用 [[Redis]] 和 [[Nginx]] 解决高并发,不行就再用 [[Java]] 包装一个 [[Mecab]],然后多走缓存。
~~加钱是不可能加钱的,用户全是白嫖怪~~
真要是扛不住用户白嫖了,再考虑[[三重樱]]这样可以跑在网页里的方案吧。
作为一个没有见过海的孩子,很难理解「大渡海」这个意象背后描绘的[[《编舟记》]],后来坐船去去[[八丈岛]],在餐厅的窗户观察
哀吾生之须臾,叹辞海之无穷。
- [ ] [ネットは広大だわ](https://dic.pixiv.net/a/%E3%83%8D%E3%83%83%E3%83%88%E3%81%AF%E5%BA%83%E5%A4%A7%E3%81%A0%E3%82%8F) [[攻壳机动队]] 的最后一幕
琴酒:测试怎么还跑不过去啊.jpg
この辞書は無限の言葉でできていた。
由于工作原因,我只能在周末维护和尝试。由于没有大学时那样,可以一连五六天沉浸在自己的世界的机会,再加上周一到周五基本都是加班加到了9点,周末写代码超过3个小时就很难集中注意力。
不得不承认 [Mecab](Mecab.md) 是非常棒的形态素解析工具,即使其最后一次更新停在了10年前,依然是[[形态素解析]]领域常人难以逾越的高峰。
但[非辞書](非辞書.md)的优势在于轻量化和高度自定义。
「轻量化」很好理解:不到500行代码,和 1MB 左右的 gzip 压缩包
「高度自定义」是[[辞书形]]。
那么现在就是「深水区」,每迈出一步都有巨大的阻力。但更可怕的是,出发时对岸清晰无比。行至半道,四周却是一片白雾,下一步,路在何方?
当然,花了这么多的时间的一个重要原因是我并非计算机专业出身,[[非辞書]]的「算法实现」很长时间都是在原地打转。
但更重要是,由于身边缺乏这方面的人分享经验,[[非辞書]]这个项目在很长一段时间里都缺少「方向感」,这一路走下来,我几乎把坑全躺了个遍。
如果说刚开始凭着自学的 [[Note/Python]] 和日语语言学尚能勉强应付,还能「摸着石头过河」,走一步是一步。
但当我以这个作为[[我的本科毕业论文]]选题,硬着头皮去读[[自然语言处理]]方向的论文时,我才意识到之前所谓的「尝试」不过是实现了「日语形态素解析」的一角冰山。
在这之后有段时间,我对[[非辞書]]这个项目本身产生了严重的怀疑:真有必要花这么多时间去造一个不完美的轮子么?
学界其实很早就已抛弃了基于语法规则的解析算法,更多的依赖统计学或者[[机器学习]]等数学理论。这对于一个数学基础不太好的人来说,实在太过晦涩。
直到现在我都不敢说自己入了[[自然语言处理]]的门,甚至连门在哪儿都还不清楚,但有一点我很清楚:我将一直坚持下去。
这是[[非辞書]]的三年,也是我的三年。
这也是为什么[非辞書](非辞書.md)在2022年春节后不再更新的原因。
后来我在图书馆闲逛,看到「」里说「は刑罰」,一瞬间百感交集,也忽然理解[[《三体》]]里关一帆说「早在‘万有引力号’上的时候,星空就让我感到恐惧,感到累,我就想停下对宇宙的思考,但却像吸毒一样,停不下来。现在,可以停止了」是种什么样的感觉。
对工业界而言,[[非辞書]]前三个版本最重要的贡献,不是造了一个专为「[[辞典检索]]」设计的[[形态素解析]]的轮子,也不是我在[[我的本科毕业论文]]的尾声部分(不知天高地厚地)声称的「试图制定日语电子辞典的索引标准」,而是为[[Elasticsearch]] 等在工业界已经有成熟应用的工具提供了[[惯用句识别算法]]、[[语法句型识别算法]]在内的[[辞典检索]]优化思路,以及,最重要的一点:提供了[[拾叶计划]]这个旨在解决未登录词问题的项目。
对我个人而言,非辞書前三个版本,更重要的意义在于为下个大版本[[四重樱]](yoezakura)提供训练所需要的数据集。
当我意识到以上这些后,第一时间想起了[[乔布斯在斯坦福大学的演讲]]:
> Of course it was impossible to connect the dots looking forward when I was in college, but it was very, very clear looking backwards 10 years later. Again, you can't connect the dots looking forward. You can only connect them looking backwards, so you have to trust that the dots will somehow connect in your future.
> 当然我在大学的时候,还不可能把从前的点点滴滴串连起来,但是当我10年后回顾这一切的时候,真的豁然开朗了。再强调一遍,你在向前展望的时候,不可能将这些片断串连起来;你只能在回顾的时候将点点滴滴串连起来。
那么,敬请期待[非辞書](非辞書.md)v4版本「四重樱」的到来。
都说[《编舟记》](《编舟记》.md)里说词汇会成了海洋,只可惜我3年前。
唐太宗李世民曾看放言:天下英才,接在
只能静下心来补课:
[《Python 工匠》](《Python%20工匠》.md):什么是好的Python代码
[[《单元测试之道 Java 版:使用 JUnit》]]:测试驱动开发是邪教,但不写单元测试是。
这个项目对我自己而言,很难说是高兴还是解脱。大三的暑假,我犹豫过要不要直接休学一年,去 MOJi 实习。但由于种种原因未能付诸实践,一直后悔到现在,我不想再错过这一次的机会。
也有好几次,坐在闭馆后图书馆后门的台阶上,敲完代码才心满意足回宿舍。也非常感谢我的室友和同学,能容忍我三天不说话,一说话三句话不离[非辞書](非辞書.md)。
原来我是不相信【喜极而泣】这个词的,但在[非辞書](非辞書.md)的这个项目,我若干次这样的体验「喜极而泣,泪流满面」,这个项目对我而言打开了新世界的大门。
回头来看,「非辞書」这个项目可以说是彻底改变了我的大学生活:
如果不是想让日语查词也能像 Kindle 那么省心,我也不会一直关注「辞典制作」的话题,也就不会有「非辞書」这个项目;
如果不是「非辞書」,我也不会在实际问题中运用自己学的那点三脚猫功夫一样的 Python,也不会快速突破自己学编程的瓶颈期;
如果不是「非辞書」打下的基础,我也不会拿到我的第一份实习:英国某上市翻译公司的语言工程师(Language Engineer);
如果不是「非辞書」,我也不会心心念念地想去 [[MOJi]] 工作;
如果不是非辞書,我也不会选择放弃了国内考研,选择去日本跨专业读CS修士;
如果不是非辞書,我也不会放弃了实习了近一年的外企,选择注定要 995 的赴日IT外包
很高兴,这些都不是「如果」。