【ビデオの長さ8分31秒】
宇佐美まゆみ監修(2021)『BTSJ日本語自然会話コーパス(トランスクリプト・音声)2021年3月版』について(2021.7.26追記)
国立国語研究所では、機関拠点型基幹研究プロジェクト「日本語学習者のコミュニケーションの多角的解明」、サブ・プロジェクト「日本語学習者の日本語使用の解明」(リーダー:宇佐美まゆみ)の研究成果として、『BTSJ日本語自然会話コーパス(トランスクリプト・音声)2021年3月版』(446会話、112.5時間)[1] を公開します。【コーパス利用申し込みへのリンクは、最後尾にあります】
1. 公開の目的
近年、自然会話分析が数多く行われるようになり、様々な種類の話し言葉コーパスが公開されつつあります。しかしながら、形態素解析や構文分析、音声学的分析等のためだけでなく、人間の相互作用としての「言語運用」の語用論分析に適した形で文字化された、事前にシナリオのない「自然会話のコーパス」は多くありません。自然会話データの語用論的分析を効率的に進めていくためには、研究者間で自然会話データを共有し、活用していくことが必須です。このような趣旨に基づき、2020年には、『BTSJ日本語自然会話コーパス(トランスクリプト・音声)2020年版』(377会話、92時間)を公開しました。そして、この度、さらに69会話を追加し、『BTSJ日本語自然会話コーパス(トランスクリプト・音声)2021年3月版』(446会話、112.5時間)を公開します。
本コーパスの公開の最大の目的は、大量データの形態素解析などのような言語形式の計量的な分析だけではなく、話者間の上下、親疎関係などの実際の言語運用や人間関係の構築・維持に極めて重要な情報や、文レベルを超えた談話の流れ(文脈)を十分に考慮した分析を促すことによって、自然会話をデータとする言語運用、人間の相互作用の研究の発展を促すことにあります。また、未だ質的分析に留まっている「言語運用」に重きをおいた「語用論的研究」の妥当性や信頼性を高めるために、より多くの条件統制されたデータを使用することでその知見を計量的に検証することも可能にし、人間の相互作用、言語運用ための「語用論的研究」の幅を広げることも目指します。もちろん、計量的分析、形態素解析等を活用した研究、また対話システム構築のための研究等にも、是非、ご活用いただければと思います。この人間の相互作用の分析に適した本コーパスが分野を問わず広く利用され、自然会話をデータとする言語運用研究、言語研究の発展の一助となることを願っています。
2. 本コーパスの特徴
本コーパスは、「人間の相互作用としての会話」の対人コミュニケーション論、語用論的分析に適するよう構築されたもので、以下の5つの特徴があります。
① 「言語社会心理学的アプローチ」(宇佐美,1999[2] )、「総合的会話分析」(宇佐美,2008[3])の方法論に基づき、会話参加者の年齢、性別などの社会的属性、および、話者同士の関係等が統制されたデータ群を収録する。
② 「発話の重なり」や「沈黙」など、他のコーパスにはほとんど付与されていない語用論的分析に不可欠な情報を付与した『基本的な文字化の原則(BTSJ: Basic Transcription System for Japanese)2019年改訂版』(宇佐美,2019[4] )によって文字化したトランスクリプトを収録する。
③ 「総合的会話分析」では、「会話自体」の分析だけではなく、「録音された会話以外の社会的要因」の分析も重視する。そのため、各会話グループのデータ収集条件や話者同士の関係、話者の年齢・性別・職業、その他の社会的属性の情報も提供する。
④ アノテーション付きのデータを一律に提供することによって、研究の視点まで画一化させてしまうことを極力避け、各研究者の独創性を最大限引き出せるよう、分析項目については、各研究者が独自の観点からコーディングを行うことを推奨する。『BTSJ』は、各研究者が目的に応じて特定の研究のために補足ルールを追加して用いることも認めており、各研究者が独自の観点からのコーディングを行いやすい文字化の原則になっている。
⑤ さらには、その独自のコーディングを集計することによって定量的分析を行うことができるツールである『BTSJ文字化入力支援・自動集計・複数ファイル自動集計システムセット2019年改訂版(以降、BTSJシステムセット)』(宇佐美,2019[5] )と連動させている。
このように、本コーパスに収録された会話は、グループごとに、収集の目的や、会話の条件が統制されているため、それらの条件を確認した上で、利用者が、研究目的に応じて、話者の社会的属性(年齢、性別等)や対話相手との関係などの、話者の話し方に大きな影響を与える社会的要因を考慮に入れた分析をすることが可能です。これらが、本コーパスの最大の特徴であると言っても過言ではないでしょう。
3. 本コーパスの概要と活用法
本コーパスに収録された会話は、「会話フォルダ」ごとに、会話収集の目的や会話の条件が記されています。会話参加者の年齢、性別などの社会的属性、および、話者同士の関係等の条件が統制された形で集められていますので、様々な観点から比較・対照研究ができるようになっています。
「会話フォルダ」のデータの概要については、以下の表1「『BTSJ日本語自然会話コーパス(トランスクリプト・音声)2021年3月版』(446会話、112.5時間)に収録されている会話データの概要」をご参照ください。また、より詳細な情報が必要な場合には、本フォルダ内の「2.コーパスに収録されているデータの情報一覧」というexcelファイルの「①会話フォルダ情報」シートをご参照ください。会話データ自体は、「3.コーパスのトランスクリプト・音声」の中の、条件ごとにまとめられた「サブフォルダ」に収録されています。「2.コーパスに収録されているデータの情報一覧」(excelファイル)で、会話フォルダごとの収集目的や条件を確認し、各人の研究目的に適した会話データを使用することを推奨します。
「総合的会話分析」のアプローチでは、人間の相互作用としての「会話分析」のためには、会話自体の分析のみならず、データの収集法、被験者の属性など、「録音された会話」以外の部分の分析も、極めて重要だと捉えています。会話フォルダごとに、実験計画や話者の年齢・性別・社会的属性等のデータも収録されていますので、是非、分析にご活用ください。
表1『BTSJ日本語自然会話コーパス(トランスクリプト・音声)2021年3月版』(446会話、112.5時間)に収録されている会話データの概要
会話フォルダ番号:本コーパスにおける会話フォルダの通し番号
会話フォルダ名:会話フォルダ内のデータの特徴を表す名前
各フォルダ内の会話の特徴:データを収集したときの条件などを簡潔に示したもの
本コーパスにおける会話の通し番号:本コーパスすべての会話(446会話)の通し番号
会話フォルダ番号 | 会話フォルダ名 | 各フォルダ内の会話の 特徴 | フォルダ内の 会話数 | 会話の 通し番号 | 各フォルダの 総会話時間 | 音声の 有無 |
---|---|---|---|---|---|---|
01 | 01. 同性友人同士雑談(男男、女女) | 同性の友人同士の会話 | 19会話 | 001-019 | 444分24秒 | 無 |
02 | 02. 同性初対面及び友人同士雑談(女女) | 女性の、親しい友人同士と初対面の会話 | 23会話 | 020-042 | 482分5秒 | 無 |
03 | 03. 論文指導 (日本人教師男または女、日本人学生男または女) | 教師と学生の面談の会話 | 10会話 | 043-052 | 311分 | 無 |
04 | 04. 同性同士の断りの電話会話 (対先輩、対同級生、対後輩)(女女) | ある学生(女性)をベースに、電話で、先輩・同輩・後輩に依頼の電話をかけた会話 | 39会話 | 053-091 | 78分31秒 | 有 |
05 | 05. 同性同士の依頼を含む電話会話(男男、女女) | 同性の友人同士の会話 | 20会話 | 092-111 | 53分02秒 | 無 |
06 | 06. 同性友人同士雑談(女女) | 女性の友人同士の会話 | 5会話 | 112-116 | 80分41秒 | 無 |
07 | 07. OPIインタビュー(テスター日本人男性、受験者フランス人女性) | OPIインタビュー形式に基づく、フランス語母語話者の縦断的データ | 4会話 | 117-120 | 41分25秒 | 有 |
08 | 08. 韓国人学習者(中級)と日本人の同性同士初対面雑談(男男、女女) | 韓国人日本語学習者と日本人の初対面同性同士の雑談 | 9会話 | 121-129 | 249分 | 無 |
09 | 09. 台湾人学習者ベース(上級)と日本人(目上、同等)の同性同士初対面雑談(男男、女女) | 台湾人日本語学習者の接触場面データ | 12会話 | 130-141 | 234分20秒 | 無 |
10 | 10. 台湾人学習者(上級)と日本人の同性友人同士雑談(女女) | 台湾人日本語学習者の接触場面データ | 10会話 | 142-151 | 173分10秒 | 有 |
11 | 11. 日本人ベースと台湾人学習者(中級、超級)、日本人の同性同士初対面雑談(女女) | 20代前半の日本人女性(学生)が、対同世代の日本人女性、対日本語中級話者、対日本語超級話者と3通りの会話を行っている | 9会話 | 152-160 | 159分48秒 | 有 |
12 | 12. 日本人ベースと 中国人(上級)、ベト ナム人(初級)、韓国 人(初級)学習者の 同性同士初対面雑 談(女女) | 20 代前半の日本人女性 (学生)が、対同世代の 日本人女性、対日本語 初級話者、対日本語上 級話者と 3 通りの会話 を行っている | 12会話 | 161-172 | 120分11秒 | 無 |
13 | 13.男性ベース初対面雑談(対目上(男女、男男)、対同等(男女、男男)、対目下(男女、男男)) | 35歳男性が、年上(45歳)・同等(35歳)・年下(25歳)の話者(男/女)と6通りの会話を行っている | 18会話 | 173-190 | 299分15秒 | 有 |
14 | 14. 男性または女性ベースの同性初対面雑談(対同等、対目上)(女女、男男) | 20代前半大学生・大学院生、初対面の雑談 | 16会話 | 191-206 | 268分55秒 | 有 |
15 | 15. 同性友人同士雑談(女女) | 20代女性学生、親しい友人同士の雑談 | 3会話 | 207-209 | 63分37秒 | 無 |
16 | 16. 男性または女性ベースの友人同士雑談及び討論(対同性、対異性) | 日本語母語話者、10代後半から20代前半の大学生、ベース話者男女各6名が、「同性/異性」の友人と、「雑談/討論」という4通りの会話を行っている | 48会話 | 210-257 | 749分55秒 | 有 |
17 | 17. 友人同士討論(男女) | 20代-30代学生、友人同士の討論 | 5会話 | 258-262 | 88分16秒 | 無 |
18 | 18. 同性同士初対面討論(女女) | 20代女性、大学生・大学院生、初対面の討論 | 4会話 | 263-266 | 44分33秒 | 無 |
19 | 19. 同性友人同士誘い(女女) | 20代大学生友人同士。話者の一方が協力者である。協力者が「気軽に行うこと」を誘うように依頼した | 8会話 | 267-274 | 172分53秒 | 無 |
20 | 20. 日本人と日本人、台湾人学習者(上級)、中国人学習者(上級)の同性同士初対面雑談(女女) | 日本語母語話者同士の会話と、日本語母語話者と日本語学習者の会話 | 12会話 | 275-286 | 186分20秒 | 有 |
21 | 21. 同性友人同士の謝罪のロールプレイ会話(負担の重い場面、負担の軽い場面)(女女) | 2人の話者が、負担度の軽い場合と重い場合の2つの謝罪場面についてロールプレイを行っている | 32会話 | 287-318 | 76分19秒 | 有 |
22 | 22. 中国人学習者(初級、上級)と日本人の同性友人同士雑談(女女) | 中国人日本語学習者(初級5名、上級5名)と日本語母語話者の女性友人同士の雑談 | 10会話 | 319-328 | 262分44秒 | 有 |
23 | 23. 同性初対面及び友人同士雑談(女女) | 20代前半、女子大学生同士の雑談(初対面2組、友人3組) | 5会話 | 329-333 | 106分 | 有 |
24 | 24. 異性同士初対面雑談(男女) | 20代大学(院)生同士の雑談(初対面14組) | 14会話 | 334-347 | 226分55秒 | 有 |
25 | 25. 初対面(男女、男男)及び友人同士(男男)雑談 | 20代大学(院)生同士の雑談(初対面26組、友人4組) | 30会話 | 348-377 | 553分37秒 | 有 |
26 | 26.初対面(男女、男男、女女)及び友人同士(男女、男男)雑談 | 20代大学(院)生同士の雑談(初対面18組、 友人28組) | 46会話 | 378-423 | 810分20秒 | 有 |
27 | 27.日本人と学習者(中国、台湾、韓国、ネパール、ベトナム)の初対面(男女、男男)及び友人同士(男女、男男)雑談 | 20代大学(院)生の日本語母語話者と日本語学習者の雑談(初対面13組、友人10組) | 23会話 | 424-446 | 415分52秒 | 有 |
計 | 446会話 | 6753分8秒 (約112.5時間) |
- データ提供者は、以下の方々です(50音順)。
李恩美、伊集院郁子、宇佐美まゆみ、カチマレク・ミロスワバ、北見奈津子、木林理恵、金銀美、木山幸子、仇暁妮、黄瓊芸、施信余、鄭賢児、鈴木(伊藤)麻美、関崎博紀、蘇玉萍、高森絵美、張鈞竹、鄭榮美、藤田朋世、松本剛次、松本紫帆、宮武かおり、林君玲
4.「コア会話」[6]について
本コーパスの概要は表1に示した通りですが、その中でも条件が明確で、且つ、現状で多数を占める会話群を「コア会話」と位置づけてまとめることにしました。「コア会話」とは、次の条件を満たす会話データ群です。
話者の社会的属性が「大学(院)生」、話者同士の関係は「同等」、会話のジャンルは「雑談」、話者同士の面識の度合いが「初対面」と「既知(友人)」、会話者の性別の組み合わせが「男同士」「女同士」「男女」です。本コーパス全446会話のうち268会話がこれに該当します。
各会話フォルダに含まれる「コア会話」の数を、以下の表2に示します。「コア会話」のすべて、或いは、一部を分析対象として使いたい場合は、表2に記されている「コア会話」を含む「会話フォルダ番号」や「会話フォルダ名」から会話の特徴を掴んだ上で、「本コーパスに収録されているデータの情報一覧」(excelファイル)の「②個別会話情報」シート(会話の時間や話者数などの情報)を参照し、Excelのフィルタ機能や検索機能を使って、目的に合う会話を抽出して活用してください。もちろん、これらの機能は「コア会話」以外の会話を検索するときにも利用できます。
表2 『BTSJ日本語自然会話コーパス(トランスクリプト・音声)2021年3月版』(446会話、112.5時間)の「コア会話」の概要
会話 フォルダ 番号 | 会話 フォルダ名 | 各フォルダ内の 会話数 | コア会話数 |
---|---|---|---|
01 | 親しい同性友人同士雑談(男性、女性) | 19会話 | 19会話 |
02 | 初対面及び友人同士雑談(女性) | 23会話 | 23会話 |
03 | 論文指導(日本人教師男女、日本人学生男女) | 10会話 | 0会話 |
04 | 女性同士の断りの電話会話(対先輩、対同級生、対後輩)【音声付】 | 39会話 | 0会話 |
05 | 同性同士の依頼を含む電話会話(男性、女性) | 20会話 | 0会話 |
06 | 友人同士雑談(女性) | 5会話 | 5会話 |
07 | OPIインタビュー(テスター男性、受験者女性)【音声付】 | 4会話 | 0会話 |
08 | 韓国人学習者(中級男性、中級女性)と日本人の初対面同性同士雑談 | 9会話 | 0会話 |
09 | 台湾人学習者ベース(上級男性、上級女性)と日本人(年上、同等)の初対面同性同士雑談 | 12会話 | 0会話 |
10 | 台湾人学習者(上級)と日本人の友人同士雑談(女性)【音声付】 | 10会話 | 0会話 |
11 | 日本人女性ベース初対面同性同士雑談(日本人、台湾人中級学習者、台湾人超級学習者)【音声付】 | 9会話 | 3会話 |
12 | 日本人女性ベース初対面同性同士雑談(日本人、ベトナム人初級学習者、韓国人初級学習者、中国人上級学習者) | 12会話 | 4会話 |
13 | 男性ベース初対面雑談(同性目上、異性目上、同性同等、異性同等、同性目下、異性目下)【音声付】 | 18会話 | 0会話 |
14 | 初対面男女、同性同士雑談(同等、目上)【音声付】 | 16会話 | 8会話 |
15 | 友人同士雑談(女性) | 3会話 | 3会話 |
16 | 友人同士雑談及び討論(同性、異性)【音声付】 | 48会話 | 24会話 |
17 | 友人同士討論(異性) | 5会話 | 0会話 |
18 | 初対面討論(女性同士) | 4会話 | 0会話 |
19 | 友人同士誘い(女性) | 8会話 | 4会話 |
20 | 日本人女性と日本人、台湾人上級学習者、中国人上級学習者の初対面同性同士雑談【音声付】 | 12会話 | 0会話 |
21 | 女性同士の謝罪のロールプレイ会話(負担の重い場面、負担の軽い場面)【音声付】 | 32会話 | 0会話 |
22 | 中国人女性学習者(初級、上級)と日本人友人同性同士雑談【音声付】 | 10会話 | 0会話 |
23 | 初対面(男女)雑談【音声付】 | 5会話 | 5会話 |
24 | 初対面(男女)雑談【音声付】 | 14会話 | 14会話 |
25 | 初対面(男性同士初対面(男性同士と男女)及び友人同士雑談(男性同士)【音声付】 | 30会話 | 30会話 |
26 | .初対面(男女、男男、女女)及び友人同士(男女、男男)雑談【音声付】 | 46会話 | 46会話 |
27 | 日本人と学習者(中国、台湾、韓国、ネパール、ベトナム)の初対面(男女、男男)及び友人同士(男女、男男)雑談【音声付】 | 23会話 | 23会話 |
合計 | 446会話 | 268会話 |
5. 本コーパスの引用について
宇佐美まゆみ監修(2021)『BTSJ日本語自然会話コーパス(トランスクリプト・音声)2021年3月版』(446会話、112.5時間)を利用した研究を、論文等、何らかの形で発表する際は、必ず以下の正式名称を出典として明記してください。
【引用文献リストや資料リスト等に記載する場合】
<日本語の場合>
宇佐美まゆみ監修(2021)『BTSJ日本語自然会話コーパス(トランスクリプト・音声)2021年3月版』、国立国語研究所、機関拠点型基幹研究プロジェクト「日本語学習者のコミュニケーションの多角的解明」
<英語の場合>
USAMI, Mayumi (ed.) (2021) BTSJ-Japanese Natural Conversation Corpus with Transcripts and Recordings (March, 2021), NINJAL Institute-based projects: Multiple Approaches to Analyzing the Communication of Japanese Language Learners.
本コーパスが、少しでも皆さんの研究のお役に立てば幸いです。
国立国語研究所 日本語教育研究領域
宇佐美まゆみ
【本コーパスに関する問い合わせ先】
国立国語研究所 日本語教育研究領域
『BTSJ日本語自然会話コーパス』事務局 btsjcorpus@ninjal.ac.jp
【付記】 本コーパスの前身からの拡張、改訂点について
1.本コーパスは、平成23-26年度科学研究費補助金基盤研究A(課題番号23242027)「自然会話リソースバンク構築による世界的教材共有ネットワーク実現のための総合的研究」(研究代表者:宇佐美まゆみ)の支援を得て構築したものを、2016年度より国立国語研究所の機関拠点型基幹研究プロジェクト「日本語学習者のコミュニケーションの多角的解明」、サブ・プロジェクト「日本語学習者の日本語使用の解明」(リーダー:宇佐美まゆみ)として引継ぎ、データ整備を行った形で公開するものである。また、2018年度からは、一部、平成30-33年度科学研究費補助金基盤研究A (課題番号18H03581)「語用論的分析のための日本語1000人自然会話コーパスの構築とその多角的研究」(研究代表者:宇佐美まゆみ)の支援を得ている。
In addition to the sub-project: Studies on the language use of Japanese language learners (leader: Mayumi Usami) of NINJAL Institute-based projects: Multiple Approaches to Analyzing the Communication of Japanese Language Learners, the building of this corpus was partially supported by Grant-in-Aid for Scientific Research (A): The global study for worldwide sharing network building of teaching materials based on natural conversation resource bank: Leader Mayumi Usami, 23242027, 2011~2014, and Grant-in-Aid for Scientific Research (A): Building of a Japanese 1000 person natural conversation corpus for pragmatic analyses and its multilateral studies: Leader Mayumi Usami, 18H03581, 2018~2021.
2.宇佐美まゆみ(1999)「談話の定量的分析言語社会心理学的アプローチ」『日本語学』18(11)、明治書院: 40-56.
3.宇佐美まゆみ(2008)「相互作用と学習-ディスコース・ポライトネス理論の観点から」西原鈴子・西郡仁朗編『講座社会言語科学 第4巻 教育・学習』、ひつじ書房:150-181.
4.宇佐美まゆみ(2019)「改訂版:基本的な文字化の原則 (Basic Transcription System for Japanese: BTSJ) 2019年度版」(ただし、2019年以前に整備されたデータについては、それ以前のバージョンを用いている場合もある) .
5.宇佐美まゆみ(2019)「BTSJ文字化入力支援・自動集計・複数ファイル自動集計システムセット(2019年改訂版)」『語用論的分析のための日本語1000人自然会話コーパスの構築とその多角的研究』平成30年度~令和3年度 科学研究費補助金基盤研究(A)-(課題番号18H03581) (研究代表者:宇佐美まゆみ)研究成果
6.本コーパスの2020年版では、接触場面のものは数が多くないためコア会話に含めていなかったが、2021年3月版では、少し拡充し接触場面のものも「コア会話」に含めた。
【付記】 本コーパスの前身からの拡張、改訂点について
本コーパスには、6つの前身となるコーパスがあります。宇佐美研究室[6]では、1997年頃から、多様な場面・言語(日本語、韓国語、中国語、英語など)の自然会話データを収集し、『BTS(Basic Transcription System)による多言語話し言葉コーパス』の構築に取り組んできました。以下に、これまでに研究成果として公開していたコーパスを参考までにまとめます。
①『BTSによる多言語話し言葉コーパス-日本語会話1(日本語母語話者同士の会話)2007年版』116会話、1435分54秒(約24時間)
②『BTSによる多言語話し言葉コーパス-日本語会話2(日本語母語話者と学習者の会話)2007年版』35会話、691分11秒(約11時間)
③『BTSJによる日本語話し言葉コーパス-日本語会話1(初対面・友人、雑談・討論・誘い)』99会話、1604分(約27時間)
④『BTSJによる日本語話し言葉コーパス(トランスクリプト・音声)2011年版』294会話、4000分31秒(約66時間)
(上記①から③のコーパスに、新たに44会話(約4時間)のトランスクリプト・音声データを追加。また、既存のトランスクリプトに音声データ92会話(約14時間)を追加)
⑤『BTSJ日本語自然会話コーパス(トランスクリプト・音声)2018年版』合計333会話、総時間4746分24秒(約79時間)(そのうち音声付きデータは203会話、2402分22秒(約40時間)
(上記④のコーパスに、新たに39会話753分15秒(約12時間)のトランスクリプトと音声データを追加し、また、既存のトランスクリプトに、音声データ24会話401分5秒(約6時間40分)を追加した。整備にあたっては、話者記号などを話者や会話の特徴がより分かりやすい記号に変更し、トランスクリプトの記号の表記は、当時の最新版である『基本的な文字化の原則(BTSJ: Basic Transcription System for Japanese)2015年改訂版』に統一するなど、全面的に改訂を行った)
⑥『BTSJ日本語自然会話コーパス(トランスクリプト・音声)2020年版』合計377会話、総時間5526分56秒(約92時間)(そのうち音声付きデータは247会話、3182分54秒(約53時間))
(上記⑤のコーパスに、新たに69会話780分32秒(約13時間)のトランスクリプトと音声データを追加した。新データ追加にあたっては、トランスクリプトの記号の表記を、当時の最新版である『基本的な文字化の原則(BTSJ: Basic Transcription System for Japanese)2019年改訂版』に統一した)
この度、国立国語研究所のプロジェクトの成果として公開する『BTSJ日本語自然会話コーパス(トランスクリプト・音声)2021年3月版』は、2020年度に公開した上記の⑥のコーパスに、新たに69会話1226分12秒(約20.5時間)のトランスクリプトと音声データを追加したものです。合計446会話、総時間6753分8秒(約112.5時間)の会話が収録されており、そのうち音声付きデータは316会話、4419分6秒(約73.5時間)です。
本コーパスの整備にあたっては、上記の⑥のコーパスに新たに会話を追加したほか、「会話フォルダ名」をより分かりやすいものに変更し、全体の統一を図りました。⑥のコーパスに収録されていた会話(トランスクリプトと音声)の内容に関しては、変更はありません。