# 言語資源ワークショップ2020
<https://clrd.ninjal.ac.jp/lrw2020.html>
発表論文集 (PDF) <http://doi.org/10.15084/00003139>
<https://clrd.ninjal.ac.jp/lrw2020-programme.html>
> 学校課題作文コーパスの構築
> 資料の概要と電子化作業の詳細について報告し、既に構築済みの「児童・生徒作文コーパス」(2014-2016)、「「手」作文コーパス」(1992, 2016)との違いについて、文字種の構成比を中心に説明する。
<http://doi.org/10.15084/00003149>
> 植物に関する自由形式説明文からのJSON形式テキストの自動生成
> 約2,100種の植物の特性が自由形式で簡潔に(一行程度で)記述されているあるデジタル図鑑(写真集)を言語資源として利用する。ここで、例えば、「果実が楕円形で花が白い」植物を検索したい場合、単に「楕円」や「白」というキーワードを与えるのでは(葉が楕円形もあるので)明らかに不都合が生ずる。そこで、これらの自由形式記述を、係り受け解析器(CaboCha)で解析して構造木を作り、そこから、コンピュータで検索しやすくするためのJSON形式を自動生成することを試みた。JSONのタグとしては、葉と花と果実のそれぞれについて、type(種類)、what(色や形や大きさ)、how(配置や結合や出現時期等)を設定し、対応する値(value)は、構造木を一定の方式で辿りながらノード上のテキストを連結することで得た。さらに自動生成したJSONを植物オブジェクトの(Javaよる)ストリームに変換して、マップやフィルタ処理を施すことにより、検索を効率的に実行できた。
<http://doi.org/10.15084/00003151>
> 正規表現による文型検索ツールの試作――IPADicとUniDicの利用をめぐって
> 発表者は、2020年6月20日に淡江大学(台湾)で開催された『AIと日本語教育との協働』国際シンポジウムにおいて、「正規表現による文型検索ツールの提案と試作」というタイトルで口頭発表を行った。発表では、日本語学習者が文章を作成する際の文型応用力を高めるための、文型検索ツールの開発を提案した。すなわち、入力した文章には指定の文型に当てはまる文があれば、自動的にリストアップされ文型部分がハイライト表示されるような、文型検索のユーザインタフェースを構築するのである。検索ツールは正規表現(Regular Expression)をもってプログラミングするが、形態素解析はMeCabを、辞書はIPADicを用いた。ところが、試作版のテスティングでは、MeCabの誤解析による文と文型とのミスマッチングが起こった。その一部はIPADicの形態素に付与する品詞情報に起因すると考えられる。本発表では、上述の研究成果と課題をふまえ、辞書をUniDicに替えたテスト結果を検討する。
<http://doi.org/10.15084/00003153> TODO
> 子どもの会話コーパスの構築に向けて
> 本発表では構築予定の子ども会話コーパスの設計方針や収録状況について報告する。
<http://doi.org/10.15084/00003155>
> 科学技術系ライティング教材作成のためのComainuを利用した日本語学術文技術文長単位解析
> 本報告では、ソフトウェア実行環境の構築法、一連の処理を分割して実行するAWKやPythonのプログラム開発、得られた成果に対する考察などを紹介する予定である。
<http://doi.org/10.15084/00003166>
> 『日本語日常会話コーパス』に対する短単位情報付与:作業工程と評価
> 複数の版の現代話し言葉UniDic(Ver2.2.0, 2.3.0, 3.0.1)で自動解析をしなおし、出力を比較した。
<http://doi.org/10.15084/00003172>