> 没想到我们的研究方向真的汇合了
> 虽然我还完全不懂python
> 看了一下学童的项目,怎么感觉学童就是在解决开发这种语义字典过程中的难点呢
笑了🍻,但我的方向目前没有涉及语义分析,主要是在研究怎么提高分词精度,所以下面的回答也是仅供参考哈。
> 学童听说过Wmatrix和lancsbox吗
> 好像是两个语料库还是自然语言处理的软件
> 我在研究能不能用 Wmatrix 这个语料库分析软件分析日语文本的语义域分析(我目前的研究方向就是对日本近代殖民扩张的文本进行话语分析,原本是准备人工进行语义分析,后来发现英语学界有语料库软件进行语义分析的手段),查了之后发现 Wmatrix 的 PyMUSAS 引擎(开源)不支持日语,原因是日语没有 USAS 语义字典,实现日语的USAS语义标注的难点是不使用空格分词,找到了这个网页 https://us.pycon.org/2025/schedule/presentation/122/ ,突然发现这个和学童上次发的演讲中想解决的问题完全一样
Wmatrix 和 lancsbox 我都没听说过,因为我的方向更偏自然语言处理,所以语料库工具只用过 Wordless ,而且还是大三的时候用的了。
不过稍微看了下 PyMUSAS 的源码,发现用了 spaCy。spaCy 理论上是支持日语的,但问题在于标注体系——发语料库相关论文的话,一定得注意这个,但我对这方面不太熟(因为工业界不怎么在意标注体系,而是关注其他指标)。
> 想问问学童“日语没有 USAS 语义字典”这个问题好解决吗(Maybe 4年以内?哈哈哈)
这个难说,工业界似乎不用这套标准,所以可能只能是你自己动手实现了。但没有 Python 基础的话,光靠 AI 辅助编程估计不太行。
如果要做语料库研究的话,还是先看下这方面的系统资料比较好(比如《Python日语数字人文之文本挖掘技术及其应用》和《Python日语数字人文之语料库语言学技术及其应用》,还有[[川外图书馆漫游指南#语料库语言学]]),或者看看这个方向的论文都是用的啥工具,能不写代码就不写代码吧。
## Sudachi
> https://us.pycon.org/2025/schedule/presentation/122/ ,突然发现这个和学童上次发的演讲中想解决的问题完全一样
这个演讲主要是讲怎么用 Sudachi 分词结果给一句话标上读音,但语料库方向的「语义分析」大多数时候也是在分析 Sudachi 这类工具的分词结果,如果不嫌麻烦,可以自己重头写,但还是建议先看看上面提到的资料。
这个演讲的视频已经上传到 YouTube了: <https://youtu.be/3wQxP-GfT-A?si=jm4f4gzai4AImZlq>,PPT 在 <https://slides.takanory.net/slides/20250516pyconus/>。
不过,这个演讲其实是有日语版的,建议看下面这个:
![[日语语料库语言学方向的 Python 入门指北#^b0c94a]]
(另,这位今年被我撺掇来中国做演讲了,B 站也有他的视频:【如何用 Python 学习日语 - Takanori Suzuki】 <https://www.bilibili.com/video/BV1QPWmzbEKa>
## 自己动手的建议
如果真想自己动手,可以参考这里列出的工具:<https://github.com/taishi-i/awesome-japanese-nlp-resources>
提醒一下:「研究方向就是对==日本近代殖民扩张的文本==进行话语分析」,你可能只能选 Mecab 这个分词器了,因为只有 Mecab 支持 UniDic——而 UniDic 正好又提供了目前唯一一份 「近代文語」词库,这个词库的适用范围是「明治大正期の文語文(新聞・雑誌記事など)」。
最后,你最开始提到的 PyMUSAS 处理部分语言用到了 spaCy,而 spaCy 分析日语其实就是用的 Sudachi。但 Meacb 和 Sudachi 是两个完全没有任何关联关系的独立项目,真要动手估计会踩一大堆坑。
> 我读完了,感谢学童。以目前浅显的先行研究阅读量来看,用语料库对日语文本的语义进行分析似乎是不可行的,主要是因为暂时还没发现支持日语的分析工具,而且似乎语义词典词库也受限。这方面的论文在英语学界做得如火如荼,如果能扩宽到日语学界的话应该具有非常大的价值。目前我还没决定读不读博,如果读博并且是这个研究方向的话,可能最后会通过人工分析的手段完成整篇论文的语义分析,期间希望自己也能学一学python,看能不能解决分词、词库之间的应用问题,期待到时候继续和学童交流哇哈哈哈
嗯嗯,期待进一步交流(。•̀ᴗ-)✧。
这个方向半只脚已经踏进 NLP 了,但理工科背景的 NLPer 对这个方向不太感兴趣(其他指标才能帮公司更快地捞钱),如果想做这个方向的话,真心建议早点开始学 Python
对了,如果有兴趣关注这个方向的最新进展的话,可以关注 「言語資源ワークショップ」(如果真有人设计了日语的语义分析词库,应该能在这里看到相关论文):
https://clrd.ninjal.ac.jp/lrw2025-programme.html
也可以关注「一橋大学 社会計算言語学研究室」——这个研究室应该是最有可能做这个词库的研究室了。
https://www.scl.sds.hit-u.ac.jp/
> 学童的obsidian真的用的炉火纯青叹为观止
> 我今年暑假的时候试着开始用这个,在里面存自己读文学的时候的一些想法,方便自己正式写毕业论文的时候可以快速找到
> 逛了你的obsidian发现我真的是把这个软件当word在用
嘿嘿嘿,不敢当,不敢当。顺便推荐下我写的 Obsidain 插件「Monokakido Copilot」:无需鼠标选中,打字的时候双击 Option 就可以查词!(插件是把分词结果写入剪贴板,所以也是支持其他辞典软件的
https://obsidian.md/plugins?id=monokakido-copilot
有空也可以看 Obsidian 官方文档和知乎的这个回答[[有什么本地笔记管理软件推荐?]]:
https://www.zhihu.com/question/266836039/answer/2728791257
(不过,个人建议少折腾 Obsidian,尽量把时间花在用 Obsidian 写东西上233)
> 好的,感谢学童!今天早上去找老师聊了研究方向,他也很期待我做语料库方面的研究(我们学校没有相关的老师,所以缺人),我这两天就开始按学童的书单和python日记学python,如果读博了就是继续坚持学习研究了!等我python入门了,还想加入学童的小组,一起写写论文什么的!
哈哈哈,欢迎欢迎!
不过我没有搞封闭的小组,我研究的东西基本都是公开的,一般会在下面开个帖子记录比较重要的文章和分享
https://github.com/NoHeartPen/NoHeartPen.github.io/issues
注册 Github 账号,然后在上面的仓库点 watch 就可以收到邮件通知了。如果用 RSS 的话,可以用下面这个链接:
https://blazing-dolphin.pikapod.net/github/issue/NoHeartPen/NoHeartPen.github.io
对了,我偶尔也会逛逛【语料库语言学在线】,你有兴趣也可以来这里发帖交流:
https://www.corpus4u.org/