形态素解析 - NoHeartPen's Digital Garden

讨论了下[[Ginza 和 spaCy 的日语形态素解析器相关源码分析]]，[[形态素解析]] [SuPar-UniDic](https://github.com/KoichiYasuoka/SuPar-UniDic) 这个似乎用了 Bert ，但还是先用[[Sudachi]]吧 - [ ] 类似Mecab的解析工具 https://github.com/ku-nlp/kwja 京都大学开发 - [ ] 这里提供了Python版本[MeCab](http://taku910.github.io/mecab/) [[Mecab]] 原来也是3年前就接触到了这个工具了呀，说起来，也是从这个时候开始[[非辞書]]正式有了理论来支撑，这个就只有Java了，但是也有在线的可以用[kuromoji](https://www.atilika.org/)突然发现这里有一个 - [ ] this is refoctored mecab in python <https://github.com/mocobeta/janome> [[2025-03-25]] 注意到了这个开发者其实是一个女生，而且是专门做检索方向的[[形态素解析]] [[TinySegmenter]] 不依赖词库，就实现了高精度的分词… [[『日本語』形態素解析と、短単位自動解析]] [[浏览器自带日语分词]] - [ ] https://github.com/mkartawijaya/dango　最有意思的就是切分的颗粒度变大了好奇怎么实现的 [[Mecab]] 算是这个方向最好用的开源工具了吧日本語文法誤り訂正ツール　 https://github.com/youichiro/transformer-copy/ [[形态素解析]] 方向的应用 [[Re：从负无穷开始的日语语言工程师生活]] 和 [[日语语言工程师]] - [ ] https://jisho.org/search/%E6%98%A8%E6%97%A5%E3%81%99%E3%81%8D%E7%84%BC%E3%81%8D%E3%82%92%E9%A3%9F%E3%81%B9%E3%81%BE%E3%81%97%E3%81%9F 哟，这个有点意思，直接就触发[[形态素解析]] 和[[易查]]很像 [GitHub - miurahr/pykakasi: Lightweight converter from Japanese Kana-kanji sentences into Kana-Roman.](https://github.com/miurahr/pykakasi)，这个背后的算法是最长匹配法 [[kuromoji]]