統計的思考が自然言語処理を変えていく。

人と機械が共生する以上、人間が使う言葉を研究する「自然言語処理」という分野を欠かすことはできません。そもそも言語は、人間にとって思考の道具であり、他の動物にはない大きな特徴と捉えられてきました。その根幹にあるものは論理でありながら、機械のためのプログラミング言語とは異なり、論理だけでは説明できない難しさを持っています。どうしたら人間が使う言葉の「意味」をモデル化できるのか?──学術における自然言語処理は、その背後で統計学、離散数学、最適化問題など、さまざまな数学を駆使しながら発達してきました。なかでも確率・統計の考え方に基づき、観測された言葉の集合だけから機械が学習する「教師なし学習」のアプローチで知られるのが、「メタ知識構造解析」プロジェクトの持橋大地准教授(統計数理研究所)。今回は、その研究の最前線をご紹介します。

人間のしわざには類型がある。

モデリングを担う統計解析

僕は、単語それぞれがどのような確率を持って使われているかを一般的に説明できる、言語モデルについて研究しています。これまで人間が営々として記述してきた知識を、実際に人がどのように使っているかというデータから導きたい。この「使われ方から導く」というのが、まさに統計的な方法ということなんですね。統計的自然言語処理の学者は、自然言語をモデル化する知見を持っているけれど、これは非常に新しい学問分野なので、何をすべきかについては伝統のある言語学も参考にして、われわれは問題を解く方法を提案する。するとこれまで手作業でやっていたアノテーションのような作業に「自動的にできるんじゃないの?」という方法が示せたり、また言葉の論理性だけに頼っては解くことができなかった現象にも迫れたりします。

基礎研究ならではのコラボレーションの拡がり

自然言語を解析するためのこうした統計的な方法は、実は言語以外にも、言語と共通性のある他のデータにも使うことのできる基礎的なものです。そこで現在、自然言語処理だけでなく、他の分野への適用や応用化などを含めた共同研究がいくつか同時進行しています。たとえば国立国語研究所との共同研究では、言語のもうひとつの重要な要素である「音声」に注目し、言語モデルの新たな基礎になるような研究を進めています。また言語処理で研究開発した「階層ベイズ言語モデル」や「隠れマルコフモデル」等と呼ばれる統計的手法を音楽や楽譜解析に応用した「音楽情報処理」、音響解析に活用した音響モデル、さらにロボットの動作を時系列に沿ってモデル化するロボティクスへの応用研究なども進行中です。

「たたずまい」という言葉を論理は表現できない

共同研究においては、しかし、たとえば言語学者や社会科学者がまったく統計を知らないまま「データだけ送りますから、分析をお願いしますね」といったことでは意味がないだろう、と僕は考えています。方法とは、おまけのようなものではなくて、新しい知見が生まれる土台のようなものだからです。最終的にはやはり自分で両方できるようにすることを目指す、その第一歩になるのが共同研究だと思います。というのも僕自身が、実は文系から理系へ進学した経歴を持っているんです。院生時代、強く思っていたことのひとつは、「たたずまい」という言葉を論理は絶対に表現できないということでした。「たたずまい」という言葉の意味を、その言葉自体の中へいくら深く追っていっても、意味を取り出すことはできません。意味はむしろ、この語が他の語とどのような関係にあるのか、外からどう観察されるかを測ることによって定義されます。実際、統計・確率の方法を使えば「たたずまい」を表現できるのです。

宮尾祐介プロジェクトディレクターとの出会い

リサーチコモンズの「メタ知識構造解析」でも、このような自分の確率の方法や知識が役立てられればと考え、宮尾准教授(国立情報学研究所)とプロジェクトとして初めて一緒に研究しています。つい最近も「ところで」という語は、話題を切り替える力を持っていますが、その力を前後の言葉の分布を比較することによって測ってはどうか? といった提案をしたところです。宮尾准教授は、言葉の論理性の要である構文解析で知られる方ですが、論理といってもある種のメタ論理体系を構築することによって、集合とその下位集合のような論理的な包含関係を考えるなど、イノベーティブな取り扱い方に特徴があります。統計から見ると、このような集合論は表現しにくいので、とても興味のあるところですね。人の言語の使用をすべて統計モデルから導けるのか、それともどこかに人手を介した方がよいのか、まさにそういった点をプロジェクトでいっそう明らかにしていきたいと考えています。

2016年2月刊行予定の『岩波データサイエンス』第2巻 自然言語処理特集では、オーガナイザーを務める。執筆陣には、宮尾准教授の名前も。自然言語処理は近年、社会インフラとしての利用を見据えて、大学だけでなく企業等でも開発に取り組む研究者・技術者が増えつつある。「自然言語処理に興味を持っている人々へ向けて、学術的な研究の最前線でどんなことが行われているかをわかりやすく伝えようというのが狙いです」。

(文:持橋大地・池谷瑠絵 写真:北岡稔章 公開日:2016/01/12)