人間のしわざには類型がある。

人類が日々生み出すデータの多くは「テキスト」という形式で蓄積されています。機械が読む「プログラミング言語」に対して、私たち人間が使う言葉を「自然言語」といいますが、自然言語で書かれた例えば新聞記事や学術論文等のテキストから、その波及効果や成果を客観的・定量的に把握する方法は、今のところありません。そこで、私たちがやりとりする言語活動を一段掘り下げたところにある論理や因果関係といった「メタ知識構造」を探りだそうというのが「メタ知識構造解析」プロジェクト。語や文の連なりの関係性だけでなく論理的な構造を取り出して計算する、国立情報学研究所 宮尾祐介准教授の「深い解析」を核に、解析手法を横断的に駆使する自然言語処理のプロジェクトをご紹介します。

人は勝手に文の間に因果関係を読む

人は、同じ意味を伝えるにもいろいろな言い方をします。例えば「大雨になる」と「強い雨が降る」は表現は違うけれども同じ意味を表しています。このように言葉の表層は違っても意味は同じ/違うということを機械に理解させる研究をずっとしていたところ、それだけではうまく表せない意味があることに気づいたんです。例えば「外へ出かけてごはんを食べる」という場合、「ごはんを食べる」は「外へ出かけて」の目的です。ところが言葉の表面だけ見ても、目的であることは直接書かれていません。「ごはんを食べることを目的として」と書いてあるわけではない。「雨が降って地面がぬれている」という表現も、文の構造としては文が2つ並んでいるだけなのに、人間は勝手にその間に「雨が降って→地面がぬれている」という因果関係を読んでしまいます。文の間にあるこのような目的・理由・原因・結果・手段のような関係性は、自然言語の中に実は多く含まれているのですが、今まであまり研究されてきませんでした。これをどう整理し、どう解析すればいいかを明らかにしようというのが、このプロジェクトのきっかけです。

さまざまな立場を持ち寄っての議論

私たちの研究は、実際のデータを見て、データが示す現象を観察するところから始まります。言語学が一般に、何らかのテーマに沿ってピックアップしたデータを分析するのに対して、私たちの自然言語処理では、基本的に網羅的にデータを解析し、頻度の高い現象から始めて対象範囲を徐々に広げていくアプローチをとります。プロジェクトの飯田龍主任研究員(情報通信研究機構)は、数千〜2万ぐらいの新聞の文章を対象に、その間にどういう表現があるとどういう関係になりやすいかを分析しています。戸次大介准教授(お茶の水女子大学)のグループは、実例を1個1個見ながら、例えば原因ー結果といった関係をどういう論理式に書くことができるかという研究を進めています。この式は、表層的にはもちろん言語によって異なりますが、関係性の意味を表現できればおそらく言語に依存しないため、日本語での解析が進展したら英語などにも適用する予定です。また持橋大地准教授(統計数理研究所)は、恣意的な要素を一切排除して、基本的にはすべて統計的に解析できるという立場で研究を進めています。「深い解析」という私の立場とは違いますが、月1回のミーティングでも、いろいろ議論すべきところがあります。ちなみに戸次准教授と持橋准教授は、自然言語処理の方法論としてまさに対極にあり、そんな2人が一緒に議論する「奇跡的」なプロジェクトだとも言えるでしょう。

統計的思考が自然言語処理を変えていく。

ツリー構造からグラフ構造へ

このような解析をもとに、私のグループでは情報科学の論文を対象に、「深い解析」によって内容を理解し、欲しい情報を獲得することに取り組んでいます。情報科学の分野では、例えば手のひらに何かを映写してデバイスとして使う新技術などのように、世の中のさまざまな事物に、新しい使われ方や役割が与えられるケースが多いんですね。そこでやはりこの場合も、論文の中に目的・手段・結果といった関係性がどのように記述されているかを形式化するのが効果的なのです。そしてその関係性は、文の構造解析で使われる、動詞句、名詞句などに枝分かれしていく木構造よりも、むしろ一般的なグラフ構造になっています。つまり、文章というデータの背後にもうひとつの構造を予測し、そこにグラフ構造を発見するという問題になっていることがわかってきました。データの分析を通じてどういうグラフになるかという問題を定義したら、いろいろな手法を適用して繰り返し分析し、自動解析の精度を上げていきます。現在は、これを賢い論文検索などのアプリケーションとして使おうという段階に入ってきています。

人間の「論理的思考」には二通りある?

人間はよく「この文章は論理的だ」などと言いますが、何をもって「論理的」かは、実はまだ誰にもわかっていません。ふだんあまり意識されていませんが、この「論理的」は、数学の一部としての論理学とは全く別のものなのです。むしろ、今このプロジェクトで注目している理由・手段・原因・結果などがつながることを、人は「論理的」だと考えている可能性があります。例えば「風が吹けば桶屋が儲かる」の論旨にはギャップがありますが、それを埋めるのは語の関係性というよりも、「風が吹くと砂が舞うものだ」といった一般的知識のようなものです。人間はふだん何ステップぐらい埋めているのか?──このような研究は未開拓だと言えるでしょう。

言語の使用、中でも論理的な思考は、他の動物にはない人類だけが持つ最高の知であると、長い間考えられてきました。「でも、言語データをよく見ると、単に人間にとって便利な関係とそうでない関係があるだけかもしれない。つまり手段、理由、原因などは人間が生きていくために必要な関係だからこそ重要だと考えられているのかもしれないのです。もし宇宙のどこかにこのような情報が要らない世界があったら、たぶん全く違う情報のやりとりのしかたがあるように思います。人間の言語処理はたまたま進化の過程で獲得したものであり、今私たちは、それを後から発見しようとしているのだ、と考えています」。

(文:宮尾祐介・池谷瑠絵 写真:水谷充 公開日:2015/05/11)