Science Report 047

「データ駆動型科学」を駆使して、
新たな科学の地平を拓く

ビッグデータの活用が進み、今ではAIが当たり前の存在となりつつある。しかし、人間が得られるデータだけでは、見えてこない法則や傾向もある。令和5年度の文部科学大臣表彰「若手科学者賞」を受賞した統計数理研究所のWu Stephen准教授が進める研究は、まさに機械そのものが既存データから学習を進める「機械学習」を用いることで、これまでない新たな科学的知見を得ようとするものだ。研究が照らし出す未来は、果たしてどのような姿をしているのだろうか。Stephen准教授に話を伺った。

Twitter Facebook
Wu Stephen准教授(統計数理研究所)

答える人:Wu Stephen准教授(統計数理研究所)

ウ・ステファン。統計数理研究所 データ科学研究系 構造探索グループ 准教授。同研究所ものづくりデータ科学研究センター准教授も兼務している。2014年、カリフォルニア工科大学機械・土木専攻博士課程修了。チューリッヒ工科大学博士研究員を経て2016年より統計数理研究所に所属し、2020年より現職。


機械学習が支える「データ駆動型科学」

人工知能(AI)やディープラーニングなど、コンピューターが自ら学習を行う「機械学習」に関連する言葉が連日ニュースや新聞紙面を賑わせるようになり、久しい。「今、科学・技術は第4のパラダイムである『データ駆動型科学』の世界に入っていると言われています。データが持つ本当の価値が認識されるようになったのです」と、Stephenさんは話す。

古代から人間は、自然に起こる現象をきっかけとして経験的に世界を理解してきた。これが科学における第一のパラダイムとされている。その後、数百年前からは経験的な法則を理論化し理解を深める第二のパラダイムへ、さらに数十年前からは実験ではカバーできないような複雑な現象を計算機の中で予測・再現して理解をする第三のパラダイムへと変遷してきた。そして、ついには実験や観測から得られるデータだけでなく計算機により生成したデータも用いることで、理論・実験、さらにはシミュレーションの結果まで統合した形で科学的理解を進めるという第四のパラダイムへと移りつつあるという。

「人間が作る理論から得られる解釈は、どうしても人間の能力で理解できる範疇に限られてしまいます。もっと複雑な解釈を行うために、私たちが新たに手に入れた道具が『機械学習』なのです」。Stephenさんが主に研究で用いるのは「統計型機械学習」と呼ばれるものだ。機械学習といえば得られたデータから予測・推論を行う際に使うイメージが強いが、これにはデータの確実性が重要になる。扱うデータが不完全であったりノイズを含んだりしているような場合は、得られるデータを統計学的な観点から検討を重ねた上で機械学習を進める必要が出てくる。「データが重要だということは、昔から統計学で言われてきました。ただ、データのみを用いて課題を突破するという発想が本当に成功したのは、統計学が進歩を重ねた近年のことです。この点こそが、『データ駆動型科学』が成立するようになった理由ではないでしょうか」と、Stephenさんは続ける。

分野を越えて、繋げて、行き来したい

今でこそデータ駆動型科学を駆使して、分野を限定せず新たな応用を探るための研究を進めるStephenさんだが、元々専門としていたのは土木工学だった。「大学時代、単純に興味があって数学のコースを取るうちに、気づいたらメインの土木工学と同じくらいのコース数になってしまいました。友人からの後押しもあり、結局ダブルメジャー(複数専攻)を取ることにしたんです。その後カリフォルニア工科大学の博士課程に進む際、土木工学に統計学を導入した研究の第一人者であったJames Beck先生から声をかけていただくことになりました」。元々ダブルメジャーを取るつもりではなかったと言うが、まるで運命に導かれるように土木工学と数学の両方を専門とする先生の元で研究を始めることになる。

Stephenさんが博士課程在籍時、最初に研究テーマとしたのが「緊急地震速報システム」だった。「緊急地震速報に関してはアメリカの第一人者であるThomas Heaton先生にサポートいただきつつ、統計学的な面をJames Beck先生に見てもらいました。ここで分野横断というものを体感することができたのです」と、Stephenさんは当時の様子を振り返る。それぞれの分野の第一人者が垣根を越えてやりとりする様子を5年間にわたって間近で見続けたことは、今の研究に対する姿勢へ存分に生かされているという。今年度受賞した文部科学大臣表彰「若手科学者賞」の受賞タイトルは、『統計的機械学習によるデータ駆動型科学の新地平開拓』だ。まさにデータ駆動型科学と他分野のサイエンスの間に橋をかけることで、サイエンスの新しいフィールドを駆け回る道を作ろうとする点が評価されている。「これこそ二人の先生の影響を受けている点です。異分野をつないで互いを行き来できるような道を作るには、全く違う視点をぶつけ合って新たなものを生み出さないといけません。壮大なタイトルには少し恥ずかしさもあるのですが、データ駆動科学を駆使することで、今までできなかったものをできるようにするための橋をかけることが大事だと思っています」。

「震源地の迅速な決定を可能とした緊急地震速報の高度化」
ベイズ推定を用いた機械学習によって、ノイズや複数の地震が混在した状態の予測データから不確実性を評価し、誤検出の抑制を可能とした。

統計学の力で、困難な課題を乗り越える

最初に研究を進めた緊急地震速報は、震源から近い場所にあるセンサー(地震計)から得られた揺れのデータを極めて短時間で伝送し解析することで、各地へ到達する揺れ方の予想をできるだけ揺れが到着する前に伝えようとするシステムだ。その運用は、根本的にデータの存在なしには考えられない。しかし、この“早さ”が予測の正確性を考える上ではボトルネックとなってしまう点が課題であった。「予測する上で、得られるデータは多い方がいい。しかし、データが増えるほど考える時間もかかってしまいます。では少ないデータで早く予測しようとするとどうなるか。もし1点でもエラーやノイズを含んだデータが混ざるとその影響が大きく出てしまい、誤った予測につながってしまいます。そこで私は、ベイズ推定という統計学的手法を用いることで短時間での予測制度向上を試みました」。

ベイズ推定とは、ある事象が起こる確率を、得られるデータの値だけでなく、その値の確からしさも考慮する形で示す手法だ。“不確実性の評価ができる”という特徴は、工学分野への応用で期待されている点でもある。「得られるデータにノイズやエラーがあったとしても、データの信頼性を考慮した統計処理を行うことで一番不確実性の少なそうなモデルを探すことができます。この研究は2013年ごろにスタートしたものですが、今では実際の速報で使われるようになりました」。それでも未だに課題として残る緊急地震速報の正確性に関しては、発展形となるような研究プロジェクトを日米の研究者共同で動きはじめている。

統計的機械学習によって拓かれる地平は、何も緊急地震速報に限った話ではない。統計数理研究所のものづくりデータ科学研究センターのセンター長である吉田亮教授と共同で、材料科学の分野でも研究を進めている。いわゆるマテリアルズ・インフォマティクスという呼ばれる分野だ。「これまでは材料科学、中でも高分子の分子設計には人の経験や勘というノウハウが欠かせませんでした。そこにデータ駆動型科学の考え方を導入します。予測モデルや探索モデルを作ることで、これまで人間の経験や勘では見えてこなかった分子設計の新たな可能性を探るのです。2019年には、初めて機械学習の提案した候補から実際の高熱伝導率高分子合成に成功して論文を発表しています」とStephenさんは胸を張る。

「機械学習による所望する特性を持った高分子材料の開発」
構造から特性という順方向の予測モデルを構築することに加え、ベイズ推定を用いて特性から構造という逆方向の予測モデルを導くことで、所望の特性を有する新しい高分子の合成に成功。

さらにこれらの分野以外にも、新たな地平を開拓し始めているのが地盤工学の分野だ。元々のStephenさんの専門分野に近しいところにも、まだデータ駆動型科学の可能性が眠っていたのだ。「数年前に、ある台湾の研究者が行う地盤工学のモデリング手法を見て、統計学にはもっとシンプルに考えられる手法があると思って話しかけたんです。これがきっかけで共同研究がスタートしました」。地盤工学が職人の技や経験の活きる分野であるという点は、先ほどの材料科学とよく似ている。「地盤工学も、元々データ駆動という概念などほとんどない分野でした。日本の研究者にヒアリングしたところ、世界には公開されているデータが極端に少ないことも判明しました。しかしながら日本に限れば、長年研究者が蓄積してきた膨大なデータが眠っていることもわかったのです。ずっとビッグデータとして扱われることなくサーバーに眠っているデータが、実は世界中の研究者にとって夢のようなお宝なのです」。

未来の鍵は、オープンサイエンスにあり

データ駆動型科学を活かせる分野は、まだ眠っているはず。もしかすると最初に誰かが風穴を開けるのを、みんなが待っている状態かもしれないとStephenさんは考えている。「一旦活用できることがわかれば、あとはエンジニアの仕事や起業家のビジネスになります。私たち研究者の役目は、まだ見えていない可能性を掘り出して、最初に光を当てることではないかと思うんです」。そのために欠かすことのできないものが、使えるデータの存在だ。データの大切さを理解してしまうと、つい大事に抱えたくなってしまうのが人間の性かもしれない。しかし、それではデータ駆動型科学の本領を発揮できないという。「自分の持つデータだけでできることには限界があります。データ駆動型科学に大切な要素は、『オープンサイエンス』です。みんなでデータを持ち寄ってシェアして作る大きなデータのプールの中から新しい宝を探す方が、新たな可能性を見出しやすくなります。真のデータ駆動型科学は、オープンサイエンスの概念が生み出すものではないかと考えています」。

話題のChatGPTなど、オープンなデータを駆使しているからこそ既に実装されている技術も少なくないが、“オープンサイエンス”というこれまでになかった概念をすぐに受け入れるのはそう簡単でない。ただ、その抵抗感の先に新たな可能性が広がるとStephenさんは先を見据える。「もちろんまだ抵抗感もあるでしょうが、オープンサイエンスの波に乗って、人やデータのつながりもオープンにして、みんなで力合わせることで大きな課題を解くことが来る未来の研究の姿だと思っています。既に、分野横断型の大きなプロジェクトで社会課題に取り組む動きは世界中で珍しくなくなっています」。データ駆動型科学がさまざまな研究分野の可能性を広げるためには、分野間に横たわるギャップをいかに飛び越え、つなげ、埋めていくかが重要となる。全く異なる分野の専門家が寄り集まって、オープンサイエンスを基盤として社会課題に向き合う姿が、今の中高生が社会で活躍する頃には当たり前になっているかもしれない。その日を見据え、Stephenさんは今日も新たな地平を探すための歩みを進めている。

(聞き手:科学コミュニケーター 本田隆行 写真:本部広報室 樋口 徹 公開日:2023/11/24)

大学共同利用機関法人 情報・システム研究機構
〒105-0001 東京都港区虎ノ門4丁目3番13号ヒューリック神谷町ビル2階
TEL:03-6402-6200 FAX:03-3431-3070 E-mail:webmaster_sr@rois.ac.jp
Copyright © Inter-University Research Institute Corporation Research Organization of Information and Systems(ROIS). All rights reserved.