有意思,居然是在线的代码仓库,应该是石川老师的提出的需求,实际的代码应该出自[言語商会](https://www.jnlp.org/GengoHouse/)的山本和英老师之手,这位也是[[『語学教師のための自然言語処理の基本』]]的作者。 重点关注一下[[Python]]代码是怎么写的,[[FastCorpus]]的数据格式。 https://bit.ly/EJWFTG2 # 【神戸大石川研究室】語彙表作成ツールEJWFTGのV2公開のおしらせ さて、昨年の3月に当研究室よりリリースした「English/Japanese Word Frequency Table Generator:EJWFTG」ですが、当方の予想を超えて広くご利用をいただきまして、まことにありがとうございます。 この間、ご利用くださった方から、頻度表だけでなく、タグ付け済のデータ自体もほしいというご要望が多数あり、 この機能を追加したV2が完成し、試験期間を経て、3月より本格運用することとなりました。 ========================= https://bit.ly/EJWFTG2 ======================== 「English/Japanese Word Frequency Table Generator:EJWFTG」の概要 V1から継承 1)英語または日本語のテキストファイル(複数)をアップロードすると、自動で形態素解析(品詞解析)を行い、統合語彙表を出力する 2)たとえば、100個の日本語テキストファイルをアップロードすると、「の」や「で」といった個々の語につき、100種の各ファイルでそれぞれ何回出ているか、全体で何回出ているかを一度に総覧できる頻度表が出力される 3)頻度表は、表層形(品詞区別なし)、表層形(品詞区別あり)、語彙素形(品詞区別なし)、語彙素形(品詞区分あり)の4モードで自動出力される V2からの新機能 4)形態素解析(品詞解析)済みの元テキストファイルもオプションで出力可能 4)の実装により、得られた頻度表の語(とくに語彙素)につき、実際にどのように出ていたかが追跡調査できるようになりました。また、自動解析のエラーなどを検証したい場合にも、元データに帰った分析が可能になりました。 各位のご研究や各種調査などに、適宜ご利用くださいませ。 また、ご意見などがございましたら、石川宛お寄せくださると幸いです。