pynonjishokei - NoHeartPen's Digital Garden

> 零依赖，纯 Python 的高精度轻量形态素解析器。专为日语学习的辞典检索场景设计。 [[Melonpan]] 实际的生产环境还是用这个好了，但这个东西对存储空间的要求比较高。 - [ ] 千反田さんが来たとき测试v3算法[[pynonjishokei]] - [ ] 注意假名的unicode范围，里面有特殊的符号吗，再检查一遍[[pynonjishokei]] 用JSON文件的原因：其实也可以压缩，但是YAML这样依靠缩减和换换行的就不行，而且一个双引号和以一个空格应该是占用的同样的大小 [[trie 字典树]] - [ ] https://github.com/gojp/japanese 给出一个动词变形对应的原型 - [ ] [KOReader 是如何支持推导日语活用变形](KOReader%20是如何支持推导日语活用变形.md) - [ ] [Yomichan](Yomichan.md)的还原算法 - [ ] https://github.com/yamagoya/jconj/ Python编写但是没有直接列出(的需求反过来…给出一个动词变形对应的原型纯Python编写 - [ ] v2规则自动转为v3规则文件 - [x] v2版本换用更紧凑的表现形式，这次发布提供2种，但从下次开始将默认提供更紧凑的形式，如有需要，自己打包 - [x] 囧，似乎不好搞233 - [ ] v2 版本的上一解包，然后在这一次的文件查询，如果不到100%的准确率，那么不允许提交代码 3、[python-package-template：标准化的 Python package模板](https://github.com/Undertone0809/python-package-template) - [ ] 它内置了单元测试、代码检查、格式化、包管理、pre-commit 配置、Github Actions 等众多方便的工具，可以很方便的管理 Python 项目。（投稿自@Undertone0809）[[pynonjishokei]] - [ ] 使用 gzip 压缩安装包大小 - [ ] 测试用的数据也用类似的方式来压一下 - [ ] 以外的东西全移到 utils - [ ] 除非是外来语，否则统一以平假名存储 ("素っ破抜く", "スツパ抜こふ"), - [ ] ("冷たい", "チメとう"), - [ ] ("摘む", "つ／まう"), - [ ] NFKC 模式也要对index进行处理，另外真的有这个写法2333 - [ ] "分かち持つ": ["わかちもつ"] - [ ] 索引构建问题，如果可确定是原型，那么重复添加 - [ ] 大辞泉未收录("眺め渡す", "ながめわたそふ"), - [ ] ("よせあお", "寄せ合う"), - [ ] 新旧字体 ("殴り殺す", "毆り殺そふ"), - [ ] ("仕もう", "仕舞う"), - [ ] 向索引添加仕まう　仕舞う - [ ] 清理词库 - [x] 体言数据库可以考虑用取各个辞典交集的方式来得到一个最核心的数据库 - [ ] 或者就用 [[UniDic]] 作为最标准的数据 - [ ] 剔除 mdx plus 的词条 - [ ] JSON词库还是得区分词性，不然就会遇到和 v1 不区分词性一样的问题 - [ ] 注意 index 文件里面分为2种数据：有活用的单词和无活用的单词 - [ ] 重写完全测试数据集 - [ ] 使用[[UniDic]]的数据，优先以读音作为辞书形 - [ ] [非辞書-测试用例](非辞書-测试用例.md) - [ ] 算作特殊用例 - [ ] 列表推导式重写 - [ ] 预处理模块优化 - [ ] か～くれんぼする人和たま～に思う来自 Amazon Prime 的字幕，看来有必要支持一个所谓的特殊词表，但其实可以就放在special 里面 - [x] [[UniDic]]其实也有这样的标记，可以再读一下 - [ ] `<ruby></ruby>`（浏览器内划词，但这个特性需要复制粘贴时就是富文本，所以暂时可以先不做，先观察下到底有没有必要） - [ ] [大辞泉-短语提取](大辞泉-短语提取.md) - [ ] 用[Mecab](Mecab.md)处理下，注意如果全是外来语 - [ ] 优先支持短一点的单词搭配 - [ ] [[短语词组修正检索算法]] - [ ] 整理[[大辞泉-短语提取]] - [ ] [[日语词形相似度算法]] - [ ] 見出しに相当する漢字には、常用漢字表にない漢字には「×」、常用漢字音訓表にない読みの場合には「▽」を漢字の前に付した。 - [ ] 验证算法真实准确度 - [ ] 区分词库 Mecab ipadic - [ ] sudachi - [ ] [自定义最大输出结果](自定义最大输出结果.md#自定义最大输出结果)放在后面再搞吧，主要是自己没有调过结果的顺序，反过来说真想调整的话也该 - [ ] [[在 Python 中使用连接池提升性能]] - [ ] [StringZilla：将 C、C++、Python、Rust 和 Swift 的字符串速度提高 10 倍](https://github.com/ashvardanian/StringZilla)这个项目可替换编程语言原生的字符串类型，提高性能。可加速精确和模糊字符串匹配、编辑距离计算、排序、延迟计算范围以避免内存分配，甚至随机字符串生成器。 - [ ] [EBPocket ローマ字かな変換表](http://ebstudio.info/manual/EBWin4_man/)，可以考虑适配，但这个特性外国人应该用的更多，，如果要做的话，关注下外国人开发的词典网站，比如jisho - [ ] 而且[易查](易查.md)更优先的其实是上下文查词，另外易查更鼓励的是输入上下文/语境/笔记来查词 ## 同类比较 > Yahoo! Japan社が公開している[日本語形態素解析 API](https://developer.yahoo.co.jp/webapi/jlp/ma/v2/parse.html)を利用しています。解析結果には誤りを含む場合があります。干，注册要手机号，但是自己的手机号似乎被风控了2333 [[pynonjishokei-存档]]