データサイエンスでここが変わる。01

ものづくりには、データと計算の力が利く。

2017年、情報・システム研究機構は、機構を構成する2研究所から、7月に統計数理研究所ものづくりデータ科学研究センター、12月に国立情報学研究所システム設計数理国際研究センターというものづくりに関わるセンターをそれぞれ開設した。アメリカ、ドイツをはじめ欧米・アジア諸国でデータサイエンスや人工知能（AI）を採り入れて、ものづくりのあり方を変えようという国家レベルの成長戦略の活発な動きを踏まえたものだ。日本が得意なものづくりの世界に、進化を続けるコンピュータの計算能力やビッグデータの情報力を、どうしたらうまく結びつけることができるか？──データサイエンスや新しい数理を開拓し、ものづくりのイノベーションへ向けて産学が協働するフロンティアをお伝えしよう。

答える人：吉田亮准教授（統計数理研究所）

博士（学術）。2004年総合研究大学院大学統計科学専攻修了、東京大学医科学研究所ヒトゲノム解析センター特任助教、情報・システム研究機構統計数理研究所助教を経て、2011年より現職。2017年7月より、同研究所ものづくりデータ科学研究センターセンター長。国立研究開発法人物質・材料研究機構特別研究員、総合研究大学院大学複合科学研究科統計科学専攻准教授を兼務。JST-CREST生命動態領域「神経系まるごとの観測データに基づく神経回路の動作特性の解明」（主たる共同研究者）、JSTイノベーションハブ構築支援事業「情報統合型物質・材料開発イニシアティブ」物質・材料記述基盤グループ（グループリーダ）、国立研究開発法人物質・材料研究機構「マテリアルズオープンプラットフォーム」等のプロジェクトに参画。国立研究開発法人物質・材料研究機構特別研究員を兼任。

答える人：蓮尾一郎准教授（国立情報学研究所）

国立情報学研究所アーキテクチャ科学研究系准教授。2002年東京大学卒業、2008年学術博士（計算機科学，オランダナイメーヘン・ラドバウド大学）。東京大学大学院情報理工学系研究科准教授、京都大学数理解析研究所客員准教授等を経て、2017年4月より現職、同11月より同研究所システム設計数理国際研究センターセンター長。専門は理論計算機科学、特にシステム検証、プログラミング言語理論、物理情報システム、情報科学における数学的構造に関心を持つ。2016年10月よりJST ERATO 蓮尾メタ数理システムデザインプロジェクト研究総括。

マテリアルズ・インフォマティクスの潮流

統計数理研究所ものづくりデータ科学研究センター長を務める吉田亮准教授は、学際領域におけるデータサイエンスのスペシャリストだ。これまで生物等のさまざまな複雑な現象の解明に取り組み、近年は物質・材料に研究のターゲットを定める。「マテリアルズ・インフォマティクス」と呼ばれるこの分野は、2011年米国オバマ大統領（当時）が主導した「マテリアルズ・ゲノム・イニシアチブ」以来、データサイエンスや人工知能の技術がもたらす製造業へのインパクトのゆくえが、世界的な注目を集めてきた。

「グラフは有機太陽電池の性能を示しています。点の集まりは現在存在する物質を示しており、縦軸に示したパワー変換効率の最高性能は、今のところ約11％です。一方、グラフの右方、既存物質のデータが存在しない未踏領域がわれわれのターゲットです。われわれの仕事は、この位置に、現在の最高性能である11％を大きく上回る新しい性能・性質を持つ材料を発見することです」と吉田准教授は言う。「材料科学は今まで、長年の研究の積み重ねによって物質の分布をゆっくりと拡大していましたが、われわれは今、データサイエンスの最先端の技術を駆使することで、この分布を一気に拡大させることができるんですね。これが科学や産業を加速させると考えられる理由です」。

データサイエンスの本質は、「データを集め、データが持つパターンを機械に読み取らせ、認識させること」だと、吉田准教授は言う。「理論は要らないんです。データの中に暗黙に入っているパターンや理論を解析によってあぶり出していく。そして読み解いたパターンの「逆問題」を解くことで、所望の機能に必要な構造を持つ仮想物質を、コンピュータの中に作り出すことができます。これを材料の研究者に提案し、実際に作れれば、新材料の発見につながります」。

画面は、有機太陽電池の新材料の探索結果。グラフ右の黒点のない場所に欲しい機能を示す四角形が描かれている。

「外挿」で、データサイエンスの限界を突破する

一方、データサイエンスは一般に、どのくらい科学の発達に貢献してきたのだろうか？「少なくとも、これまでの私の研究では、せいぜい5〜10％程度ではないでしょうか。歴史を振り返っても、科学技術の頂点はいつの時代も実験か理論であって、データサイエンスがノーベル賞級の大発見に決定的な役割を果たした事例は今のところない」のだそうだ。

吉田准教授は言う。「近年のデータサイエンスの変化の1つは、たとえば機械が画像や音楽を生成したり、アニメのキャラクターをデザインしたりというように、創造的な問題を解く方向へパラダイムシフトしていることです。しかしどんな応用分野であれ、データサイエンスにはデータがある領域しか予測ができないという限界がある。この限界を突破して、人の知性や経験を大きく上回る機械を作るためには、内部にデータを作り出すしくみが必須です」。

そこで、吉田准教授のグループは『SPACIER』というアルゴリズムを開発した。「『SPACIER』は、コンピュータの中に仮想的な実験室を作り、実験計画法とコンピュータシミュレーションで、外挿（現在データがない）領域にデータを作り出します。さらにこの逆問題を解くことによって、機械が新しい予測性能を獲得し、これまであった材料の分布から少し外に出ることができる。このような外挿性の獲得を何度も繰り返すことで、未踏領域に到達するアルゴリズムです。原理的には無限にデータを生産できるため、既存の領域を大きく超えることができます。また工業品の構造設計など、さまざまな分野に適用可能な汎用性も備えています」。

データサイエンスはパートナーシップが重要な科学

機械によるデータの生産といえば、2017年、自分自身と対局することで強くなるAlphaGo Zero（アルファ・ゴ・ゼロ）でも話題になったが、「データを内部で生産しながら機械に「超創造性」を獲得させるという試みは、まだ始まったばかり。技術的な課題も多く、社会実装が本格化するにはもう少し時間がかかるかもしれません」と吉田准教授は言う。「少なくとも現在のものづくりの世界では、コンピュータの中の実験だけでは不十分です。むしろ実際の実験、理論、計算による研究開発と、データサイエンスのアルゴリズムの組み合わせによっていかに実現のシナリオを描くかが本質なんですね」。

中期的にデータサイエンスと実際の実験・理論を循環させ、機械をどんどん賢くして、新しい材料を発見する。データサイエンスによるものづくりへのインパクトを「どう説明したら？」の問いに、「言葉ではだめ」と吉田准教授は言った。「実証するんですよ。ここ数年のうちに、産業界の研究開発の最前線に行って、強力なパートナーシップの下で実際にモノができることを社会に発信する」。センターでは今年度6社、来年度以降はより多くの企業と連携して、データサイエンティストの育成を含めた産学協働を計画している。

吉田准教授は、産学連携の「場」のデザインにも積極的だ。プロジェクトでの協働を通じて、企業が優れたデータサイエンティスト人材を獲得できるしくみも構築する。

クルマの自動運転が品質保証の世界を変える

「ちょうどいい時期にプロジェクトが始まったと感じている」と言うのは、ERATO 蓮尾メタ数理システムデザインプロジェクトの研究総括を務める、国立情報学研究所システム設計数理国際研究センター長の蓮尾一郎准教授である。「自動運転の実用化に代表されるように、品質保証を巡って、今、製造業の方がいわば未知の領域へ踏み出しています。これまで蓄積した経験的なノウハウだけでは十分ではなくなってくるのが目に見えているのだが、産業界でもどうしたらいいかわからないし、学術界でも誰が何を担うべきかはっきりしていない」。

背景にあるのは、ものづくりにおける大きな変化だ。「工業製品はもともと機械だったので、力学に則り、制御理論の成果を使って安定化させるという手法が基礎になっていますが、今やほとんどの製品にコンピュータ制御が入っているんですね。単純な機械の多くは線形システムなので，たとえば入力を2倍にすると効果も2倍になるというように、そのふるまいがある程度予想しやすいのですが、自動車など大規模で複雑なシステムのコンピュータ制御ではそうはいきません」。

「圏論」で、品質保証のガイドを構築する

安全な製品であることをどう説明し、どう保証するのか。そこでプロジェクトが用いるのは、論理学と、蓮尾准教授が特に専門としてきた「圏論（Category Theory）」である。「圏論とは、代数学から生まれた構造記述のための数学の言葉で、ものとものの関係を抽出して抽象化するという使い道があります。同じく関係性を記述するグラフ理論とは異なり、現象そのものを抽象化するのではなくて、現象について語る理論について語り、これを抽象化する「メタ」な言葉であるところに特徴があります」。

1940年代、数学の代数的構造を元にフランスに起こった構造主義人類学とも関連があるのだろうか？「クロード・レヴィ＝ストロースの貢献の一つは、さまざまな共同体に共通する構造を抽出したことである、と理解しています。情報科学が従来相手にしてきた情報システムと，それに物理系が加わった工業製品のような物理情報システム，この2つは一見違うけれども代数的な目で見れば一緒なところもたくさんある、ということなんです」。むしろこのような圏論の強みに、物理情報システムの品質保証という応用を見つけた点が、プロジェクトを世界的にもチャレンジングな取り組みにしていると言えるだろう。

情報システムにおける「形式手法」を拡張する

一方、情報システムにおいては、以前から無限ループに陥ることはないか、脆弱性はないかといった検証が欠かせない。針の穴ほどのわずかな間違いが、ロケットの打ち上げに不具合や、コンピュータの四則演算にエラーを生んだ例もあることから、ソフトウェアやハードウェアが思った通りに動いているかどうかを数学的に検証する「形式手法」が比較的普及しているという。

ところが情報システムにおける形式手法を、物理情報システムである実際の工業製品にいかに展開するかは自明でないため、使われている例はまだ多くない。

「未開の領域に踏み出すにあたって、数学的な積み上げが、確かなガイドになる。われわれは圏論を使って形式手法を拡張し、問題の本質を数学の言葉で書いたテンプレートのようなものを充実させていきます。そしてこれらをいわば「ひきだし」に蓄えて、現場の技術者の方々と対話しながら具体的な課題に合った証明をつくっていく。またこの過程では、近年発達を遂げている人工知能や機械学習の技術が活用できます。実際の製造の現場においては、今だったらエンジニアの方が知識と長年の経験に基づいて、だいたいこのあたりをテストしておけば大丈夫だろう……と検証しているプロセスの時間と労力が、大いに短縮できるはずです。このような例を、5年半のプロジェクトが終了するまでに、5例作ることを目標にしています」と蓮尾准教授は言う。既に数社との間で対話が始まっているそうだ。

JST ERATO 蓮尾メタ数理システムデザインプロジェクトは、都内の地下鉄の駅に直結したビルの一室にオフィスを構える。手法の一般化の担い手と応用の担い手が集まって、日々議論を重ねている。

（聞き手：池谷瑠絵　写真：飯島雄二　公開日：2018/01/10）

Science Report 013