Science Report 054

異分野コラボで言語に隠された性質を探れ

理系の学問である素粒子物理学と文系の学問である言語学。一見関わりのなさそうな分野の研究者がタッグを組み、私たちが使う言語に潜む普遍的な性質を探す研究を進めているという。一体何がきっかけで異分野が交わり、そしてどのような手法を用いて言語学の謎に迫っているというのだろうか。共同研究を進める新居浜工業高等専門学校の田窪洋介准教授と、国立国語研究所の浅原正幸教授にお話を伺った。

Twitter Facebook
田窪 洋介 准教授(新居浜工業高等専門学校), 浅原 正幸 教授(国立国語研究所)

答える人(左):田窪 洋介 准教授(新居浜工業高等専門学校)

たくぼ・ようすけ。新居浜工業高等専門学校 電気情報工学科准教授。2006年に大阪大学大学院理学研究科特任研究員へ着任。その後東北大学、高エネルギー加速器研究機構(KEK)を経て、2024年7月より現職。専門は加速器を用いた素粒子実験。趣味の古文書翻訳では生涯学習インストラクター一級の資格を持つ。

答える人(右):浅原 正幸 教授(国立国語研究所)

あさはら・まさゆき。国立国語研究所 次世代言語科学研究センター教授(センター長)。総合研究大学院大学では日本語言語科学コースの副コース長も務める。専門は自然言語処理。言語処理技術を用いて、辞書・書き言葉コーパスに基づく形態・統語・意味構造の分析手法に関する研究指導を行う。


「突然送ったメール」がきっかけに

私たちが何気なく使っている言葉は、さまざまな性質を持っている。わかりやすい文法的なルールももちろんその一つだが、統計的に解析することで見えてくる性質だって存在する。計量言語学は、まさに統計学を用いて言語を定量的に評価し、普遍的な性質を明らかにしようとする学問である。「統計学が定量的な研究手法だという点に、私が専門とする素粒子分野との相性の良さを感じたんです。素粒子分野は物理的な事象を統計処理して共通の振る舞いを見つけるという分野ですから、ということは計量言語学にだって素粒子分野で使用されてるデータ解析技術が応用できるんじゃないかなと考えたのが、この共同研究のスタートポイントでした」と、田窪さんはきっかけを振り返る。

理系の学問分野である素粒子物理学と、文系の学問分野である言語学。交わりそうもない2つの学問のコラボレーションがスタートしたのは2022年のこと、田窪さんが一通のメールを送ったことに端を発する。当時、田窪さんはKEK(高エネルギー加速器研究機構)に所属する素粒子物理学者として、CERN(欧州原子核研究機構)で進められている国際共同実験であるATLAS実験にかかわっていた。「2024年の6月まで13年間スイスに住んでいたことに加え、江戸時代の古文書の翻訳が個人的な趣味ということもあって、たまたま言語に触れる機会が多かったんです。思い立って、統計を使った言語の学問分野がないかインターネット検索したところ、計量言語学という分野と国立国語研究所の山崎先生(山崎誠 研究系客員教授)のお名前を見つけました。そこでダイレクトメールで興味があることを送りつけたところ、ご丁寧にお返事いただいたんですよね」と当時を思い出す。その後、山崎さんが同じ国立国語研究所の浅原さんに声をかける形で、異色の共同研究が動き出すこととなった。

それ以前にもKEKとの共同研究事例はあったが、どちらかというと物理とは違うテーマだったという。一方今回の共同研究は素粒子物理学寄りの視点からスタートした話だ。声がかかった当時を浅原さんはこう振り返る。「田窪さんが最初にメールを送った相手は、どこを探してもこれ以上の方がいないというほど適任でした。山崎先生は、言語の中の規則性を統計的に見出そうとする計量国語学の分野でとても有名な方ですからね。一方私は情報学、自然言語処理が専門で、国立国語研究所では言語のデータベースである『コーパス』を作る上でのデータベースを管理しています。声をかけられた時は理解できるか不安もありましたが、田窪先生のやりたいことや問題意識がとても明確だったことに加えて、着眼点がこれまでにないものだったので、純粋にすごいなと思いました」。

田窪さんの思いつきが発端となって始まったコラボレーション研究は、2022年に国立国語研究所の公募型共同研究(C)へ採択される。翌年にはIU-REAL(大学共同利用研究教育アライアンス)の異分野融合・新分野創出プログラム、さらにはJSPS(日本学術振興会)科学研究費助成事業にも採択されたことで、本格的な異分野融合共同研究プロジェクトとして進み始めることとなる。

私たちの言葉には、どのくらい“癖”がある?

計量言語学が明らかにしたいのは、言語が持つ普遍的な性質を明らかにすることだ。その例の1つにZipf則というものがある。Zipf則とは、テキスト中に出てくる単語の出現頻度を順位づけすると、出現頻度は順位の冪(べき)乗に比例するというもので、言語の種類によらず大体成り立つものだという。このように統計学を用いた定量的な研究に、素粒子物理学で使用されているデータ解析技術を応用できるか確かめたいというのが、今回のコラボレーションの狙いである。そこでプロジェクトでは、まず2つの課題について取り組みを進めている。

課題の1つ目は日本語テキストの正規数らしさを評価するというもの。この「正規数」とは乱数性を評価する指標の一つとして使われるもので、平たくいえば、0と1のパターンがどれほど等しく現れるかを評価するような指標だと捉えてもらうのが良いかもしれない。「これがまさにコラボレーションのきっかけとなったものです。2022年頃にちょうど物理現象の正規数性を研究しているときに、そういえば言葉ってどのくらい乱数的なのかが漠然と気になったんです。おそらくテキストの正規数らしさを評価するのは、これが世界で最初の研究ではないかと思います」と田窪さんは話す。統計的な評価をするには、まず膨大なテキストを準備する必要がある。使用したのは、国立国語研究所が保有するコーパス(BCCWJ:現代日本語書き言葉均衡コーパス)の中に含まれる1.3メガ(130万)文字にも及ぶテキストだ。これらを一般的に使われている文字コードであるUTF8やSJISを使って0と1のビット列へと変換した上で、正規数の指標について統計処理計算を実行する。「これだけの大量の文字データベースは、国立国語研究所で用意するようなコーパスを使わないと不可能です。そして統計処理やプロットを作成する部分についてはCERNによって開発されている数値解析プログラム「ROOT」を使って解析コードを開発しました。これらの点が、本共同研究の技術的な特徴です」(田窪さん)。

レジスタごとの正規数らしさを示す図。3種類の文字コードを用いた解析の結果で縦軸は正規数らしさの指標、横軸はレジスタの違いを示している。どの文字コード、どのレジスタでも縦軸の数値が1を超えていることが見て取れる。

研究では、書籍や雑誌などの文章カテゴリーの違いを表す“レジスタ”ごとに正規数らしさを評価した。その結果をプロットした図からは、2つの大きな結果が見えてくる。「図の縦軸は正規数らしさの指標です。1という数字が正規数の上限になっていて、それより小さいと正規数だと言えるのですが、どのレジスタ、どの文字コードのプロットを見ても超えているので日本語テキストは正規数ではありません。つまりはどの日本語テキストにも何か“癖”があるというのが、1つ目の結論です。また、文字コードの種類によらず、レジスタごとに正規数らしさの指標の大小について共通の傾向が見て取れます。ということは、正規数らしさがそれぞれのレジスタを特徴づける指標になり得るのではないかというのが、もう1つの結論です」(田窪さん)。これは浅原さんの感覚にも一致する結果だったようだ。「レジスタごとの言葉の使い方のカテゴリーが見えてくるというか。白書と新聞、ブログとYahoo!知恵袋が似ているのは感覚的にはそうかなと思いますが、それがしっかりグラフとして見えるのはすごいなと思います」(浅原さん)。

単語の使われ方、どれほどバラついている?

そして、もう一つの課題が単語の出現回数の不定性評価だ。得られた統計データと言語モデルをうまくフィットさせるためには、それぞれのデータ点に付随する不定性を正確に評価することが重要になる。物理現象の場合は、ある現象が起こる確率がポアソン分布に従うことが知られている。では言語の出現回数はどうだろうか。文法や人の思考によって偏りがありそうな自然言語は、ポアソン分布に従わないのではないかと予想されるので、本当にそうなのかを統計的に評価するという取り組みになる。「ある単語の出現回数をサンプルごとにカウントしていく際、サンプルによって値のばらつきが大きいと『不定性が大きい』ということになります。言語モデルにちゃんとフィットさせようと思うと、不定性の大きさをきちんと評価してあげないといけません。そこで、ここでも分析のためには膨大な日本語テキストを用意しました」(田窪さん)。

書籍レジスタについて単語の出現回数1位から6位までの不定性を解析した結果。赤で示しているのがポアソン分布だが、どの解析結果もそれより横に広がっていることがわかる。

解析に向けては、コーパス(BCCWJ)の中から63メガ(6300万)単語のテキストを用意し、それを10万単語ごとのサンプルに分割したものを用いている。各サンプルに使われている単語の出現回数をカウントし、プロットを作成した上でサンプルごとの出現回数のばらつき、つまりは不定性を評価した結果を、田窪さんはこう説明する。「たとえば書籍レジスタの結果を見てみます。出現数が1位から6位の単語まで結果をプロットしてみたのですが、どれもポアソン分布と比べて広がっていますよね。つまり、不定性が大きいんです。この結果を横軸に単語の出現回数、縦軸に不定性の割合をとったグラフに取ると、単語の出現回数の不定性を式で表すことができます。この研究から、単語の出現回数の不定性を正確に見積もることができたんです」。

この結果は、言語の普遍的な性質の代表的なものとして冒頭に紹介したZipf則とデータの一致度合いを評価する上で使えるものになる。この研究は、データとモデルを比較するための基礎になっているのだ。「新聞や白書だとかっちりした文章だし、ブログなどは話し言葉に近くなる。では男性と女性では差が出るのだろうか、とか日本語以外の言語だとどうなるのか、表現の“豊かさ”は現れてこないのか、など言語の側から見てみたくなってきますね」(浅原さん)。

異分野コラボから得られたお互いの気づき

素粒子物理学と言語学という異色とも言えるコラボレーション研究は、それぞれの持つ強みをそれぞれ活かすことで成果を積み上げることができていると言っても良いだろう。統計処理で用いた数値解析プログラム「ROOT」の活躍はその一つだ。ROOTには統計処理に必要な便利な関数がすでにたくさん用意されているという。行いたいフィッティング処理や不定性評価などの作業に対して、すぐに必要な“工具”が手に入る状態なのだ。「他のソフトで同じ処理をやろうとすると、結構大変なはず。素粒子物理学分野はとにかく数値計算に特化しているので、それに合わせたツールなんです。あと、世界中の素粒子物理学研究者が実験データの解析に使っていますので、すでにデバッグが済んでいるというのも大きいですね」(田窪さん)。さらには本来の専門分野にも活かせる気づきがあったと田窪さんは話す。「言語学の分野ではA Iを使った研究がすごいされていて、ワークショップなどで先端研究についての話を聞く機会も多い。実は素粒子分野よりも進んでいるのかも…と思う側面もあって、AIについての知識や馴染み方はこの研究を始めてから進みましたね。AIを使うと素粒子分野ではこんなことできるんじゃないか、と考えるようにもなって、いい形で相互に利益があるような形になったのは良かったなと思います。元々はこの研究を本業に活かすなんて全然考えもしなかったんですが」。

新たな気づきは、もちろん浅原さんの方にも多かった。特に大きかったのは“目の付け所”だという。「言語学の観点だと、普遍的な規則を見つけようとする発想が強いのでZipf則のようにできるだけ合う定数を探すような研究が多いんです。しかし今回の研究は乱数性に注目してみるなんて、いわば反対の概念ですよね。これは言語学者にはない観点だと思いました」。この観点は、日本語の研究に限らず世界でもあまりないかもしれないと浅原さんは続ける。「世界的に見ても、新しい言語分析のやり方の一つを作り始めているような感じでしょうか。少なくとも、私が知る限りはあまり例がないです」。

進めるほど発展する共同研究の課題

これまで順調に進んできた異分野コラボレーション研究、今後の進め方を考えるための材料は、どうやらこれまでの研究成果にあるようだ。「まずは正規数らしさの評価をもう少し発展させたい。たとえば使用するテキストの種類をカタカナや話し言葉など、違うものだとどうなるのかを見るのもその一つです。また、正規数らしさ以外にも乱数性を評価するための指標はありますので、そのような他の指標を用いた乱数性も評価したいと思っています」(田窪さん)。また、研究成果を知った他の言語学者からも、英語などの違う言語の場合や男女間や世代間での差異はあるのか知りたいという話が出てきているという。「山崎先生は今回使用したコーパスの次(BCCWJ2)を作ろうとしていますし、私もより大規模ないろんな種類のデータセットを作っていこうかと思っています。今、国語研では子供のコーパスも作っているので、言語発達の過程でどう変わるのか、ということも調査できる可能性があります。一つの指標を手に入れるということになるので、言語学者としては、新たな指標を使うとどんな切り口で言語を分析できるのだろうか、という部分は面白いところだと感じています。」(浅原さん)。また単語の出現回数の不定性については、同様に別のテキストを用いた場合の評価を見るだけでなく、AIを用いた解析にも取り組んでみたいのだと、田窪さんは期待する。「研究が進むにつれて、新たな疑問や課題が生まれていて、共同研究がどんどん発展しているというのが現状です。その先に、これまで誰も発見できなかった未知の法則や言語の特徴が捉えられるといいな、と思っています」。

“学際共同研究”や“異分野融合研究”などと言葉にするのは簡単だが、いざ進めようとするとどこから手をつけて良いのか悩んだり、躊躇したりしてしまうことの方が多いのかもしれない。しかし実際に進めてきたからこそ見えるものは、確かにある。「異分野を互いに歩んできた研究ですから、そのプロセスは異なります。特に自分の研究に煮詰まってきた時などに新しい視点を得るきっかけには大いになると思います。当初は本当に研究として広がるんだろうかと不安になりましたが、意外なことにいざ始めると調べないといけないことが次々出てきて、思わぬ方向に発展していったりもします。とにかく一回始めてみるのは、すごくいいことだと思いました」(田窪さん)。今回の共同研究が採択されたIU-REAL異分野融合・新分野創出プログラムのような支援制度や他分野・他機関との交流イベントでのきっかけづくりなど、共同研究を支えるコミュニケーションを繋ぐ場や仕組みは、今後ますます求められるものとなるのかもしれない。

(聞き手:科学コミュニケーター 本田隆行 写真:飯島雄二 公開日:2024/12/19)

大学共同利用機関法人 情報・システム研究機構
〒105-0001 東京都港区虎ノ門4丁目3番13号ヒューリック神谷町ビル2階
TEL:03-6402-6200 FAX:03-3431-3070 E-mail:webmaster_sr@rois.ac.jp
Copyright © Inter-University Research Institute Corporation Research Organization of Information and Systems(ROIS). All rights reserved.