Science Report 018

データサイエンスでここが変わる。06

ビッグデータ時代、その先を展望する。

日々大量に生成されるデータが企業、大学などで、広く利活用されるようになったビッグデータ時代。今回は、ITと統計数理の最先端をそれぞれ担う、情報・システム研究機構の2人の所長の対話により、このような時代のサイエンス、技術、教育をリポートする。データを資源として機械自ら判断する「AI(人工知能)」、データを駆使して現代の複雑な問題に解決を見出そうとする「データサイエンス」、そして加速的に発達するコンピュータがいつか人間の能力を越えるであろう特異点「シンギュラリティ」といった、まさにホットな科学技術のキーワードを交え、今起こりつつある変化を展望する。
Twitter Facebook Google+
喜連川 優所長(国立情報学研究所)

答える人:喜連川 優所長(国立情報学研究所)

きつれがわ・まさる。2013年より情報・システム研究機構 国立情報学研究所所長、ならびに東京大学生産技術研究所教授。1983年東京大学卒、工学博士。専門はデータベース工学。情報学を代表する研究プロジェクトを率い、また非順序実行方式による高速データベースエンジンの開発、巨大なデータ量を持つ地球環境統合データベースの運用などで知られる。情報処理学会前会長、日本学術会議情報学委員会第23期委員長。

樋口 知之所長(統計数理研究所)

答える人:樋口 知之所長(統計数理研究所)

ひぐち・ともゆき。1984年東京大学卒、1989年同博士課程修了後、統計数理研究所入所。2011年より情報・システム研究機構 統計数理研究所所長。専門はベイジアンモデリング。現実の問題に即した統計的モデリング、シミュレーション計算と大量データをつなぐデータ同化の研究で知られる。数多くの融合研究を推進し、また研究者の育成にも尽力。情報・システム研究機構理事。データサイエンティスト協会顧問。


ビッグでないデータの解析方法を設計・開発する

まずはビッグデータにかかわるサイエンスについて、その概況をお伝えしよう。最先端では何が起こっているのか、またどんな開発が注目を集めているのだろうか?──

喜連川:今一番面白いのは、スモールデータをどうやってビッグにするかという課題です。例えば日本に台風が襲来するのは年間およそ10回ですから、10年経ってもたった100個しか学習するデータがありません。その100個でどうやって勝負をするのか。つまり本質的にデータが少ない領域でどうするかが、今一番大きなチャレンジだと思います。

樋口:レア・イベント(稀な事象)と言って、そういうところこそリスク分析やイノベーションの卵になる。統計数理には伝統的に、数の少ない実験でも仮説が検証できるようにする「実験計画」の手法がありますが、今はむしろ実験、観測・観察をもっとアクティブに、一体化したようなシステム作りが重要になってきていますね。

喜連川:例えば梶田隆章教授(東京大学)は、非常に少ない実験データを解釈することでニュートリノに質量があることを発見して、ノーベル賞を受賞された。この「解釈」というのは非常に特別な解析であって、よくあるAIのパターン学習とは全然次元が違うわけです。もちろん現象そのものは物理則に従っているので、一歩一歩精緻に検証していくことができます。でも、世の中の現象はなかなかそうはいきません。例えば、われわれの最近のテーマの1つに稀少疾患があります。糖尿病、高血圧などの患者が100万人もいるような疾患であれば、現在はもうかなり解けるんですが、日本に1人、イギリスに1人といった、世界にほんの少ししかない病気をいかに解くのか。このような課題には、やはり人間の英知を結集して、いろんなことを考えながらやるわけです。

樋口:物質・材料のデータサイエンスでは、ある機能を持った物質の分子結合や構造はわかっても、実際に作るのは難しくて、そこがボトルネックになっています。仮想実験のシミュレーションを走らせるとか、何らかのパターンを得ようとかいろいろな試みがありますが、今のところこのプロセスではまだ経験値のほうが優位という印象です(笑)。

喜連川:つまり、実際の作り方を発見するために、構造を探索した計算手法をどう拡張すればいいのかが、自明でないんですね。また自然言語処理においても、大量のデータから深層学習させてできることは限られてきています。では次にどんな切り札を入れるのかというフェーズに入ってきていると思います。

データサイエンスで解けるもの、解けないもの

気象のような地球環境から、素粒子物理学、医療分野、材料開発まで……このようにデータサイエンスは今、とても幅広いシーンで必要とされるようになってきた。研究領域にとどまらず、商業的な利用も活発で、イノベーションの引き金という期待もかかる。──

喜連川:科学者の立場から言うと、データサイエンスで解ける領域がある一方で、先ほどのように解けない問題もある。学術としてはそのような限界も示していく必要がありますね。

樋口:ええ。私はふだん「内挿・外挿」という概念で説明しています。データサイエンスは、基本的に既に獲得したデータの範囲内で推論する、つまり内挿です。一方、データの範囲外にある事象を予想しようというのが外挿です。内挿の手法がどんどん高度化して、AIも大きく発達してきたわけですが、ではAIは外挿にどう応えていくのか? これは非常に足りない部分であって、現在のデータサイエンスのある種の限界です。それからデータサイエンスではいろいろな相関関係を導けるけれども、因果に関してはまだほとんど…。

喜連川:無理ですね。

樋口:ええ。外挿というのは言わば「予想外」の事象ですから、例えば地震がどの瞬間にどこで起きるか当てるといったことは、少なくともデータサイエンスで、あるいは今われわれの手にあるシミュレーションではできない。しかし観測網の豊富なデータや高速計算を駆使して、だいぶ定量的なリスク評価ができる時代にはなってきたんです。

これからの社会で大事な素養とは?

さて、ビッグデータの未来はこれから、どういう社会になっていくのだろうか。今度は発達する技術を受け入れる側の人間と、その教育について訊ねた。──

喜連川:科学技術の進歩が過去に比べると非常に速くなっていて──「収穫加速の法則」と言いますが──、やがて技術的特異点(シンギュラリティ)を迎えると言われていますね。ここで一番難しいのは、人間がそれをどう咀嚼するか、社会の変化の中でどう受け入れていくか、そのスピードが遅いということだと思うんです。例えばネット上の著作権法の改正をするのにも、気が遠くなるほど時間がかかる感じがします。社会に有益な技術を採用しても、人間が腑に落ちないままでは、社会がどんどん混迷していくでしょう。人の理解のプロセスを何とか加速化できないかと考えます。

さかのぼれば、文明を大変換あるいは破滅させるのは、いつも最後の最後、1年で言えば大晦日の1秒ぐらいの時間で起こっています。その現象はまさに想定外の、何とも言えない妙な人工物が引き金となって、戦争になり、不安が広がり……というシナリオだったのだと、現時点からは見えてくる。すると今、技術だけが、人間が判断する間もないうちにどんどん発展しているとすれば、近未来に大きな大変化が見込まれるような、まさに、そういうことが起こっているんじゃないかと……。

樋口:全く同感ですね。どう人を教育するか……。ちなみに、小中高校におけるプログラミング教育については、どうお考えですか?

喜連川:日本では日本語をまず勉強します。ちょっとしてから英語を、大学に入ると第2外国語を学びます。プログラミング言語は、少なくとも日本語以外の言語と同じぐらいのレベルの市民権を、与えられるべきではないかと思います。例えば英語を話せると世界中のかなり多くの人々と話が出来、相手をより深く理解でき、それはまた人生をすごく豊かにすることもできますね。プログラミング言語は、自分が思ったものを実際の「モノ」にすることができます。ITの講義の最初の授業で、いつも「コンピュータが入っていない人工物を持って来い」という問いかけをしているのですが、今、コンピュータが入ってない物はほとんどないんです。そんな中で、プログラミングができなければ何も作れない、あるいは会話に加われないということも出て来るでしょう。この意味で、プログラミング言語は人間にとって非常に基礎的な素養の1つだし、自分の思ったものを作る能力を若い頃から育てることは重要だと私は考えています。

樋口:身の回りを見れば、こんなにもデータに取り囲まれた世界に私たちは生きています。自分の手でデータを分析してみて、解釈して、明日の生活に役立てるといったことを、小さい頃から体験して欲しいですね。統数研では、中・高校生を対象に「統数研データサイエンス・ハイスクール」を実施しています。機械学習や統計の凝った手法を習う機会のように思われるかもしれませんが、狙いはそうじゃないんです。データサイエンスの一番大切なところは、実は着眼点や課題設定であることを、学んでもらいたいと思って取り組んでいます。

(聞き手:池谷瑠絵 写真:飯島雄二 公開日:2018/06/11)

大学共同利用機関法人 情報・システム研究機構
〒105-0001 東京都港区虎ノ門4丁目3番13号ヒューリック神谷町ビル2階
TEL:03-6402-6200 FAX:03-3431-3070 E-mail:webmaster_sr@rois.ac.jp
Copyright © Inter-University Research Institute Corporation Research Organization of Information and Systems(ROIS). All rights reserved.