这是我感兴趣的「言語資源ワークショップ2018」的论文。
# 言語資源ワークショップ2018
<https://clrd.ninjal.ac.jp/lrw2018.html>
アブストラクト集(pdf):<https://clrd.ninjal.ac.jp/lrw/LRW2018_abstract.pdf>
言語資源活用ワークショップ2018発表論文集:
<https://repository.ninjal.ac.jp/search?page=1&size=20&sort=custom_sort&search_type=2&q=268>
## 『現代日本語書き言葉均衡コーパス』のロシア語翻訳データの構築
> 宮内 拓也(東京外国語大学/日本学術振興会:学生)・Prokhorova Maria(東京外国語大学:学生)
> <https://repository.ninjal.ac.jp/record/1649/>
ロシア語翻訳データ
> 「『了解』は使わないように」「了解です!」
はい、はい、了解しました。
## TODO日本語歴史コーパスの現代語辞書における未知語義判定システム
> 田邊 絢(茨城大学:学生)・古宮 嘉那子(茨城大学)・浅原 正幸(国立国語研究所)・佐々木 稔(茨城大学)・新納 浩幸(茨城大学)
> <https://repository.ninjal.ac.jp/record/1659/>
- [ ] 未知…語義?判定システム好奇怎么搞
## 形態素解析器『Sudachi』のための大規模辞書開発
> 坂本美保(株式会社ワークスアプリケーションズ)・川原 典子(株式会社ワークスアプリケーションズ)・久本 空海(株式会社ワークスアプリケーションズ)・髙岡 一馬(株式会社ワークスアプリケーションズ)・内田 佳孝(株式会社ワークスアプリケーションズ)
> 我々は,汎用的な日本語形態素解析器『Sudachi』とその辞書を開発した。本稿では,Sudachiの辞書開発内容について述べる。我々は,まず,UniDicをベースとして,見出し表記,品詞,各種パラメータ等,形態素解析をするための辞書情報を整えた。次に,実用上UniDicに不足している語句を見出しとして追加した。これには,NEologdから取り込んだ膨大な固有名称も含まれる。さらに,登録見出しについて,アプリケーションが利用しやすい形態素単位の整備,表記のゆれを同一視するための正規化表記の整備等を行い,辞書内容を充実させた。また,形態素解析精度の向上のため,UniDic由来の見出しについても,弊害となる見出しの抑制や間違いの修正,形態素単位の調整を行った。我々のこれまでの成果は,最新版の辞書ソースに反映しOSSとして公開している。
> <https://repository.ninjal.ac.jp/records/1660>
[[形態素解析器『Sudachi』のための大規模辞書開発]]:2018 年度最佳论文!
另外背后 [株式会社ワークスアプリケーションズ](https://github.com/WorksApplications) 的公司挺有意思,从[招人](https://career.worksap.co.jp/aboutus/jobapp.html)的角度来看,非常符合日本传统 IT 企业的刻板印象,但没想到居然会开源一个这么有商业价值的工具——而且还在持续维护。
## 『日本語日常会話コーパス』構築におけるPraatの利用
> 西川 賢哉(国立国語研究所)
> 国立国語研究所で構築を進めている『日本語日常会話コーパス』(CEJC)のアノテーション作業(書き起こし・短単位情報付与作業)を支援するために,無償の音声分析ソフトウェアPraatを利用したツールをいくつか開発した:(i)[Praat起動]必要な情報(ファイル名・時刻情報等)が記されたEmacsバッファ,あるいは形態論情報修正ツール「大納言」の検索結果画面からPraatを起動し,転記情報とともに当該箇所を表示するツール,(ii)[転記保存]Praat TextGridEditor上で変更した転記を,CEJC転記ファイル(タブ区切り形式)に上書き保存するツール,(iii)[メモ]TextGridEdior上で選択された区間にある転記情報を,その他必要な情報(ファイル名・時刻情報等)とともにクリップボートにコピーするツール,(iv)[別音声聴取]当該会話に参加している別の話者の音声ファイルを追加で開くツール,など。これらのツールを用いることで,音声聴取をはじめとする,話し言葉コーパス構築に不可欠な作業が簡単な操作で行なえるようになり,作業の効率化および精度の向上が期待できる。
> <https://repository.ninjal.ac.jp/record/1663/>
Praat
## 多様な研究分野に利用可能な超高精細・高精度手話言語データベースの開発
> 長嶋 祐二(工学院大学)・原 大介(豊田工業大学)・堀内 靖雄(千葉大学)・酒向 慎司(名古屋工業大学)・渡辺 桂子(工学院大学)・菊澤 律子(東京大学)・加藤 直人(NHK放送技術研究所)・市川 熹(千葉大学/工学院大学)
> <https://repository.ninjal.ac.jp/record/1664/>
構築
## UD Japanese-BCCWJの構築と分析
> 自然言語処理の分野では多言語かつ言語横断的な言語研究が盛んに取り組まれている。その言語横断的な言語研究の取り組みとしてUniversal Dependencies(UD)がある。本論文では、日本語のコーパスであるUD Japanese-BCCWJについて紹介をする。UD Japanese-BCCWJは現代日本語書き言葉均衡コーパス(BCCWJ)に付随する係り受け情報などを組み合わせて、UDへと変換、構築したBCCWJのUniversal Dependencieである。これは日本語のUDの中でも1980文章、57,256文、約126万単語を含む最大規模また複数のレジスターを内包したデータセットである。UD Japanese-BCCWJの特徴について説明する。またUD Japanese-BCCWJの構築手順について説明し、現状における問題点について議論する。
> <https://repository.ninjal.ac.jp/records/1666>
## LINEデータベースの設計と属性付与の現状について
> 宮嵜 由美(国立国語研究所)
> 本稿では,現在構築中の「LINEデータベース」の設計と現状について,①データ収集方法,②データ提供者と参加者の属性,③研究用データベースとしての加工を,具体例とともに報告した。2016年から収集を始めた本LINEデータベースへの協力者は,2018年6月時点で延べ183名,約35,800行2のデータである。
> <https://repository.ninjal.ac.jp/records/1667>
- [ ] [[LINEデータベースの設計と属性付与の現状について]]LINEデータベース???,提到了数据收集方法,那看来是在搞[[机器学习]]了
## 『日本語歴史コーパス(CHJ)』の教育利用の実践報告 : 高校の古典の授業における活用例
> 本稿は、日本語歴史コーパス(CHJ)を活用した学校現場での実践報告である。CHJを学校現場で利用するためには、様々な制約がある。一方でCHJの教育利用は始まったばかりであり、電子教科書の普及や教室でのインターネット環境の整備が進みつつある現在、CHJは質的量的に見ても教材・資料としての価値は高く、今後様々な場面での活用が期待される言語資源である。ここでは高等学校でCHJを活用した古典の授業の実践報告を行い、その利点と今後の課題について言及する。
> <https://repository.ninjal.ac.jp/records/1668>
TODO
## 『キングコーパス』の構築と活用
> 髙橋 雄太(明治大学・日本学術振興会:学生)
没想到会在这里碰到熟人,这位在我参加[[言語資源ワークショップ2024]]的时候,负责主持我所在的会场。
## 「飲み倒す」とはどういう意味なのか―Google検索を利用した日本語の低頻度複合動詞の分析―
> コーパスという用語の定義には、おおむね「大規模」という単語が登場する。しかし、そのような(大規模な)コーパスであっても、日常生活における使用頻度の低い言葉に関しては、そこから有用な情報を得ることが難しい。本研究では、意味記述が不十分だと考えられる日本語の低頻度語彙的複合動詞を取り上げ、Googleの検索エンジンとクローラーを利用し、用例を網羅的に収集した。このような方法は、従来困難であった低頻度語彙の用例分析を可能とする。本稿では、低頻度複合動詞である「飲み倒す」を取り上げ、その特徴を記述し、前項ないし後項動詞が共通している「飲み尽くす」「飲み潰す」「踏み倒す」との比較分析を行った。分析結果、「飲み倒す」は「酒を飲んでその代金を払わないままにする」という本来の意味よりも、「たくさん飲む」という派生的な意味での使用が顕著であることが明らかになった。また、「飲み倒す」と最も類似性が高い複合動詞は「飲み尽くす」であることがわかった。
> <https://repository.ninjal.ac.jp/records/1672>
Google検索?
> 先天性全==盲ろう児==の音声言語訓練長期記録の分析状況及び保存活動
> 盲ろう 盲聾
对这个方向没什么兴趣,只是确认下「盲ろう」这个[[非辞書-测试用例]]。
## TODO 『UniDic』を活用した語構造情報付与の試み―『日本語歴史コーパス』に出現する語を対象に―
> 村山 実和子(国立国語研究所)
『UniDic』を活用した語構造情報付与
## 日本語wikipediaを用いた慣用句の構成性の数値化
> 岡田 優也(関西学院大学:学生)
> 本研究は、日本語慣用句の構成性の度合いを数値化する手法を用いて、慣用句と一般連語句の差異について調査するものである。構成性の数値化は、日本語Wikipediaの全記事からなるコーパスをもとに、調査対象とするひとつの慣用句について構成的連語句分散表現ベクトルと非構成的連語句分散表現ベクトルの2つのベクトルをそれぞれ獲得し、この2つのベクトル間のコサイン類似度を計算することによって行う。構成的連語句分散表現ベクトルとは、連語句の構成要素である単語の分散表現ベクトルから加算的に計算されるベクトルである。一方、非構成的連語句分散表現ベクトルとは、連語句を内部構造のないひとまとまりの表現だと捉え、コーパスから直接的に獲得されるベクトルである。獲得した2つのベクトルのコサイン類似度が慣用句の構成性の度合いを反映するものであることを主張するため、一般連語句についても同じ手法により構成性の度合いの数値化を行い、慣用句について獲得された数値との間に統計的に有意な差が生じることを示す。
> <https://repository.ninjal.ac.jp/records/1680>
慣用句
## TODO ニュースを対象にした手話マルチメディアコーパスの構築
> 加藤 直人(NHK放送技術研究所)・内田 翼(NHK放送技術研究所)・東 真希子(NHK放送技術研究所)・梅田 修一(NHK放送技術研究所)
> NHK・Eテレで放送されている手話ニュースをデータベース化した,手話マルチメディアコーパスについて述べる.ニュースは構文の逸脱も少ないため,手話の言語研究をする上で比較的扱いやすい対象である.しかし,ニュースを対象にした大規模な手話コーパスはない.我々が現在構築している手話マルチメディアコーパスは,2018年3月末現在で,約15万文(延語数3,036,000語,異なり語数76,000語)を有し,手話コーパスでは大規模なものである.手話では手や指の動作である手指動作とともに,それ以外の動作である非手指動作も重要な情報を持つことが指摘されているので,コーパスの一部には代表的な非手指動作である顔情報(顔表情と口型)も書き起こしている.本稿では,顔情報に関する統計的な分析結果についても報告する.
> <https://repository.ninjal.ac.jp/records/1682>
- [ ] 手話マルチメディアコーパスの構築
## TODO『日本語日常会話コーパス』活用環境の構築
> 本発表では,『日本語日常会話コーパス』を活用するための環境構築について述べる。『日本語日常会話コーパス』は動画・音声,転記テキストを含み,転記テキストには形態素解析結果などの言語学的な情報がアノテーションされている。本発表で提案する活用環境は,全文検索システム『ひまわり』と観察支援システムFishWatchrを統合することにより実現した。本環境を用いることにより,次のことが可能になる。(1)『ひまわり』で転記テキストを全文・単語検索し,当該位置の映像をFishWatchrで閲覧すること,(2)FishWatchr上で動画再生位置に簡易なアノテーション(二つのユーザ定義ラベル,自由テキストを記述可能)を付与すること,(3)FishWatchr上で転記テキストを表形式で表示し,選択した転記テキスト位置の動画を再生すること。また,動画の再生と同期させて転記テキストをスクロール表示すること。
> <https://repository.ninjal.ac.jp/records/1684>
## TODO 撥音(の解析)は機械(UniDic)にとっても簡単ではなかったんだ!-BCCWJを中心に-
> 劉 志偉(埼玉大学)
> 日本語の撥音は種々雑多であるゆえ、日本語学習者にとっては学習しにくい項目である。本発表では、BCCWJの非コアデータも視野に入れて、撥音の解析に関しては解析精度が98%に到底及ばないことを提示するとともに、具体的に「一般名詞」「オノマトペ」「漢語副詞」「漢字読み」「慣用句」「近畿方言」「呼称」「古典」「語尾」「固有名詞」「ぞんざい表現」「駄洒落」「同音異語」「動詞連用」「特定」「入力ミス」「話し言葉」「表記仮名」「表記仮名遣い」「表記漢字」「フィラー」「複合語」「(近畿以外)方言」「略語」「若者表記」「若者言葉」等の単純誤解析が多いことを明らかにする。
> <https://repository.ninjal.ac.jp/records/1687>
- [ ] 笑了,这标题很冲啊[[撥音(の解析)は機械(UniDic)にとっても簡単ではなかったんだ!-BCCWJを中心に-]]
## TODO 『日本語日常会話コーパス』モニター公開版の概要
> 小磯 花絵(国立国語研究所)・天谷 晴香(国立国語研究所)・居關 友里子(国立国語研究所)・臼田 泰如(国立国語研究所)・柏野 和佳子(国立国語研究所)・川端 良子(国立国語研究所:学生)・田中 弥生(国立国語研究所:学生)・西川 賢哉(国立国語研究所)・伝 康晴(千葉大学/国立国語研究所)
> 国立国語研究所共同研究プロジェクト「大規模日常会話コーパスに基づく話し言葉の多角的研究」では,200時間規模の日常会話を収めた『日本語日常会話コーパス』の構築を進めている。このコーパスは,多様な日常場面の会話を,映像まで含めて収録・公開するものであり,世界的に見ても新しい試みである。『日本語日常会話コーパス』の本公開は,プロジェクトの最終年度にあたる2021年度を予定してるが,コーパスの利用可能性や問題などを把握し今後の構築に活かすために,50時間のデータについて2018年12月にモニター公開することを予定している。そこで本稿では,モニター公開データの仕様や特徴について報告する。
> <https://repository.ninjal.ac.jp/records/1698>
- [ ] [[『日本語日常会話コーパス』]]笑了,好奇数据构成
## TODO『現日研・職場談話コーパス』中納言版公開データの作成
> 柏野 和佳子(国立国語研究所)・大村 舞(国立国語研究所)・西川 賢哉(国立国語研究所)・小磯 花絵(国立国語研究所)
> 『現日研・職場談話コーパス』は,現代日本語研究会が作成した,首都圏の有職女性19名(20代~50代)と,首都圏の有職男性21名(20代~50代)の職場での自然談話を文字起こししたテキストを元に作成したコーパスである。その元となっている文字化テキストは,『合本 女性のことば・男性のことば(職場編)』(現代日本語研究会編,2011年,ひつじ書房)の付録CD-ROMに収録されている。国立国語研究所に提供されたその文字化テキストをMeCab+UniDicで解析し,オンライン検索システム『中納言』にて『現日研・職場談話コーパス』として公開する。本発表では,『現日研・職場談話コーパス』の概要と特徴を述べる。
> <https://repository.ninjal.ac.jp/records/1700>
- [ ] [[ 『現日研・職場談話コーパス』中納言版]] 好奇如何设计
## TODO 『国語研日本語ウェブコーパス』からの新規語彙素獲得の試み
> 岡 照晃(国立国語研究所)
> 『国語研日本語ウェブコーパス(NWJC)』は、国立国語研究所がこれまで公開してきた『現代日本語書き言葉均衡コーパス(BCCWJ)』や『日本語話し言葉コーパス(CSJ)』と異なり、形態論情報をすべて形態素解析器『MeCab』と『解析用UniDic』を使って自動付与している。『BCCWJ』や『CSJ』といった既存のコーパスの整備の際には、コーパスアノテーションと同時に、形態論情報のデータベースである『UniDic DB』に新規短単位語彙素を追加していた。そのためコーパス整備と同時に『UniDic DB』も拡張されてきたが、『NWJC』は全自動で構築されたため、新規短単位語彙素の検出とDBへの登録が行われておらず、その箇所で自動解析誤りのままとなっている。そこで本研究では、形態素解析を介さず、文字N-gramの出現頻度と連接頻度の情報から文字N-gramの分散表現を作成し、『NWJC』から『UniDic DB』に未登録の新規短単位語彙素の候補を列挙する方法について述べる。これによりDBのさらなる拡張が望めるだけでなく、『UniDic DB』のエクスポートデータで作成される『解析用UniDic』も拡張されるため、それを用いた再解析によって『NWJC』中の誤解析箇所を減らすことにもつながる。
> <https://repository.ninjal.ac.jp/records/1709>
- [ ] [[『国語研日本語ウェブコーパス』からの新規語彙素獲得の試み]]新規語彙素獲得???[[未登录词]]这个就必须得看了