研究概要
現在、社会活動の様々な成果がテキストデータという形で蓄積されています。例えば、学術分野では、多様な研究の成果が学術論文や特許として、日々大量に公開されています。しかしながら、これらの成果や波及効果を客観的かつ定量的に把握・活用する方法は、今のところ存在しません。
そこで、テキストの中で明示的・非明示的に表現された因果関係、理由、目的といったメタ知識構造を自動認識し、それに基づき構造化された知識を自然言語テキストから自動抽出する手法について研究を行います。当面は、メタ知識構造が明確な学術論文や特許文書などのテキストを対象とし、将来的にはより一般的なテキストデータを対象とすることを検討していきます。(プロジェクトディレクター:宮尾祐介〔国立情報学研究所〕)
プロジェクトの目的
自然言語テキストから構造化された知識を自動抽出する手法を開発するにあたり、メタ知識構造の2つの性質に着目します。1つは言語的な性質で、ある関係(例えば理由)を示す明示的な言語表現(手がかり表現)を利用します。もう一つは統計的特徴で、ある概念(例えば理由になりやすい概念)や概念間関係(因果関係になりやすい2つの概念)の統計的・確率的分布が、テキストを横断して共通することを利用します。これら2つの性質はそれぞれ不十分で相補的であるため、最終的にはこれらを統合した自動抽出手法を開発する必要があり、具体的には以下の研究項目を推進します。
- メタ知識構造の定式化
- 学習・評価データとしてアノテーションコーパスの構築
- 言語的手がかりに基づく自動抽出手法の開発
- 統計的特徴に基づく自動抽出手法の開発
- 言語的・統計的手法を統合した自動抽出手法の開発
プロジェクト推進体制
初年度は、関連する研究の調査、メタ知識構造を形式的に表現するための枠組みの構築、およびそれに基づくアノテーションコーパスの作成を中心に研究を進めます。これらはメタ知識構造認識手法を開発するための基盤となる理論やデータの整備であり、次年度以降の研究に必要不可欠なリソースを整備するものです。
各共同研究者の専門分野が言語学、自然言語処理、コーパスアノテーション、統計学と多岐に渡るため、研究分野ごとに責任を持って推進し、定期的なミーティングにおいて情報交換・議論を行いながら、研究を推進しています。
Research View 027
統計的思考が自然言語処理を変えていく。
[メタ知識構造解析]持橋大地(統計数理研究所・准教授)
Research View 019
人間のしわざには類型がある。
[メタ知識構造解析]宮尾祐介(国立情報学研究所・准教授)