答 ZLJ：语义分析工具 - NoHeartPen's Digital Garden

> 没想到我们的研究方向真的汇合了 > 虽然我还完全不懂python > 看了一下学童的项目，怎么感觉学童就是在解决开发这种语义字典过程中的难点呢笑了🍻，但我的方向目前没有涉及语义分析，主要是在研究怎么提高分词精度，所以下面的回答也是仅供参考哈。 > 学童听说过Wmatrix和lancsbox吗 > 好像是两个语料库还是自然语言处理的软件 > 我在研究能不能用 Wmatrix 这个语料库分析软件分析日语文本的语义域分析（我目前的研究方向就是对日本近代殖民扩张的文本进行话语分析，原本是准备人工进行语义分析，后来发现英语学界有语料库软件进行语义分析的手段），查了之后发现 Wmatrix 的 PyMUSAS 引擎（开源）不支持日语，原因是日语没有 USAS 语义字典，实现日语的USAS语义标注的难点是不使用空格分词，找到了这个网页 https://us.pycon.org/2025/schedule/presentation/122/ ，突然发现这个和学童上次发的演讲中想解决的问题完全一样 Wmatrix 和 lancsbox 我都没听说过，因为我的方向更偏自然语言处理，所以语料库工具只用过 Wordless ，而且还是大三的时候用的了。不过稍微看了下 PyMUSAS 的源码，发现用了 spaCy。spaCy 理论上是支持日语的，但问题在于标注体系——发语料库相关论文的话，一定得注意这个，但我对这方面不太熟（因为工业界不怎么在意标注体系，而是关注其他指标）。 > 想问问学童“日语没有 USAS 语义字典”这个问题好解决吗（Maybe 4年以内？哈哈哈）这个难说，工业界似乎不用这套标准，所以可能只能是你自己动手实现了。但没有 Python 基础的话，光靠 AI 辅助编程估计不太行。如果要做语料库研究的话，还是先看下这方面的系统资料比较好（比如《Python日语数字人文之文本挖掘技术及其应用》和《Python日语数字人文之语料库语言学技术及其应用》，还有[[川外图书馆漫游指南#语料库语言学]]），或者看看这个方向的论文都是用的啥工具，能不写代码就不写代码吧。 ## Sudachi > https://us.pycon.org/2025/schedule/presentation/122/ ，突然发现这个和学童上次发的演讲中想解决的问题完全一样这个演讲主要是讲怎么用 Sudachi 分词结果给一句话标上读音，但语料库方向的「语义分析」大多数时候也是在分析 Sudachi 这类工具的分词结果，如果不嫌麻烦，可以自己重头写，但还是建议先看看上面提到的资料。这个演讲的视频已经上传到 YouTube了： <https://youtu.be/3wQxP-GfT-A?si=jm4f4gzai4AImZlq>，PPT 在 <https://slides.takanory.net/slides/20250516pyconus/>。不过，这个演讲其实是有日语版的，建议看下面这个： ![[日语语料库语言学方向的 Python 入门指北#^b0c94a]] （另，这位今年被我撺掇来中国做演讲了，B 站也有他的视频：【如何用 Python 学习日语 - Takanori Suzuki】 <https://www.bilibili.com/video/BV1QPWmzbEKa> ## 自己动手的建议如果真想自己动手，可以参考这里列出的工具：<https://github.com/taishi-i/awesome-japanese-nlp-resources> 提醒一下：「研究方向就是对==日本近代殖民扩张的文本==进行话语分析」，你可能只能选 Mecab 这个分词器了，因为只有 Mecab 支持 UniDic——而 UniDic 正好又提供了目前唯一一份「近代文語」词库，这个词库的适用范围是「明治大正期の文語文（新聞・雑誌記事など）」。最后，你最开始提到的 PyMUSAS 处理部分语言用到了 spaCy，而 spaCy 分析日语其实就是用的 Sudachi。但 Meacb 和 Sudachi 是两个完全没有任何关联关系的独立项目，真要动手估计会踩一大堆坑。 > 我读完了，感谢学童。以目前浅显的先行研究阅读量来看，用语料库对日语文本的语义进行分析似乎是不可行的，主要是因为暂时还没发现支持日语的分析工具，而且似乎语义词典词库也受限。这方面的论文在英语学界做得如火如荼，如果能扩宽到日语学界的话应该具有非常大的价值。目前我还没决定读不读博，如果读博并且是这个研究方向的话，可能最后会通过人工分析的手段完成整篇论文的语义分析，期间希望自己也能学一学python，看能不能解决分词、词库之间的应用问题，期待到时候继续和学童交流哇哈哈哈嗯嗯，期待进一步交流(｡•̀ᴗ-)✧。这个方向半只脚已经踏进 NLP 了，但理工科背景的 NLPer 对这个方向不太感兴趣（其他指标才能帮公司更快地捞钱），如果想做这个方向的话，真心建议早点开始学 Python 对了，如果有兴趣关注这个方向的最新进展的话，可以关注「言語資源ワークショップ」（如果真有人设计了日语的语义分析词库，应该能在这里看到相关论文）： https://clrd.ninjal.ac.jp/lrw2025-programme.html 也可以关注「一橋大学　社会計算言語学研究室」——这个研究室应该是最有可能做这个词库的研究室了。 https://www.scl.sds.hit-u.ac.jp/ > 学童的obsidian真的用的炉火纯青叹为观止 > 我今年暑假的时候试着开始用这个，在里面存自己读文学的时候的一些想法，方便自己正式写毕业论文的时候可以快速找到 > 逛了你的obsidian发现我真的是把这个软件当word在用嘿嘿嘿，不敢当，不敢当。顺便推荐下我写的 Obsidain 插件「Monokakido Copilot」：无需鼠标选中，打字的时候双击 Option 就可以查词！（插件是把分词结果写入剪贴板，所以也是支持其他辞典软件的 https://obsidian.md/plugins?id=monokakido-copilot 有空也可以看 Obsidian 官方文档和知乎的这个回答[[有什么本地笔记管理软件推荐？]]： https://www.zhihu.com/question/266836039/answer/2728791257 （不过，个人建议少折腾 Obsidian，尽量把时间花在用 Obsidian 写东西上233） > 好的，感谢学童！今天早上去找老师聊了研究方向，他也很期待我做语料库方面的研究（我们学校没有相关的老师，所以缺人），我这两天就开始按学童的书单和python日记学python，如果读博了就是继续坚持学习研究了！等我python入门了，还想加入学童的小组，一起写写论文什么的！哈哈哈，欢迎欢迎！不过我没有搞封闭的小组，我研究的东西基本都是公开的，一般会在下面开个帖子记录比较重要的文章和分享 https://github.com/NoHeartPen/NoHeartPen.github.io/issues 注册 Github 账号，然后在上面的仓库点 watch 就可以收到邮件通知了。如果用 RSS 的话，可以用下面这个链接： https://blazing-dolphin.pikapod.net/github/issue/NoHeartPen/NoHeartPen.github.io 对了，我偶尔也会逛逛【语料库语言学在线】，你有兴趣也可以来这里发帖交流： https://www.corpus4u.org/