注意收集[[英语沉浸阅读工具]]这方面的工具 [[词形还原]] [[编辑距离]] 算是一个比较重要的技术细分方向。 - [x] [[英语非辞书形辞典]] ESL is abbreviation for English as a Second Language [[同一本词典中,为什么有的单词是英式拼写为主词条,有的则是美式?]] ```md They’re crawling now, and they won’t reach the Solar System for more than eight hundred years. win 取词算法有点问题,怀疑是 won 传了这个进去 大小写影响索引么 ``` - [ ] 拆分和提取 [[NLTK]] 的LEMMMA 模块,但首先还是收集到足够的用户数据再说吧[[英语非辞书形辞典]] - [ ] 计算英语单词的平均长度必须要考虑词频,不然没有意义,以母语者的词汇量作为参考,不过似乎也是4-5之间[[英语非辞书形辞典]] [[译著介绍《词典编纂的艺术与技巧》(第二版)]] [[英语标点符号]] 这个地方提到了「-」 [[好书推荐《词语侦探:〈牛津英语词典〉编纂回忆录》]] 算是这方面的书籍吧。 - [ ] I will come...==(Grunts)== 注意这个地方的字幕风格 Grunts 估计双击查词会误判,果然还是还是要用专门的工具来解析[[英语非辞书形辞典]] > what are you ==doin'?== > do > doin' というのは「実際のセリフ(話し言葉)での発音を文字で表したもの」です。 >参考:<https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q10250422815> > ==Jade's==, uh... Cunning. > Jade is I am the ==major's== tool, but if he ==doesn't== need me anymore, then I should be discarded. The full details of an ==industrial-strength== spell corrector are quite complex. - [ ] [[关于单词的形变]]这个地方讨论了关于英语非辞书,果然是个复杂的问题。提到了 NLTK 其实只支持英语的 Lemmzation,不过,自己的工作其实就是就是尽量压缩大小,很多人都已经意识到了这个东西做起来非常麻烦,而且其实和上下文有点关系。 - [ ] https://github.com/michmech/lemmatization-lists/ 果然也有和[[英语非辞书形辞典]]非辞书类似的做法,只是自己花了点时间去压缩数据库大小 - [ ] 牛津拼写[[英语非辞书形辞典]] https://zh.wikipedia.org/zh-cn/%E7%89%9B%E6%B4%A5%E6%8B%BC%E5%86%99 - [x] [[英语非辞书形辞典]] 代码里面常见的 驼峰 蛇形 - [ ] https://en.wikipedia.org/wiki/Stemming [[英语非辞书形辞典]]可能就得从这里入手 英语词汇构词法规则库(数据清洗版) https://forum.freemdict.com/t/topic/33553 https://github.com/mhagiwara/github-typo-corpus 有趣,居然是手误的数据库233 [[英语非辞书形辞典]] 把Wordle和毕导的视频拿出来,[非辞書](非辞書.md)注意上面的资料中提到了Google开源了一个数据,电子书的词频[[英语非辞书形辞典]] 如果是用[[NLTK]]的话,那就顺便支持整句话直接标注音标 ‍对于所有从事自然语言处理这一工作的,我都会推荐他们去看看下面这个链接中所介绍的拼写检查内容:http://norvig.com/spell-correct.htm。 [[NLTK基础教程:用NLTK和Python库构建机器学习应用]] ## TODO Google的语料进行测试 https://github.com/mahavivo/english-dictionary 这一个应该是最全的 https://github.com/mahavivo/english-wordlists 这个应该是部分词表,不过自己更关注的是[[英语非辞书形辞典]]的研究,这个方向 [非辞書](非辞書.md)的英语以及其他语言的数据 https://github.com/BorisNA/wordforms ## 竞品 サクサク英文を読みたいあなたに https://ejje.weblio.jp/chrome-extention/