データを使ってモデルをリアルに近づける。

今回ご紹介するのは、データ中心科学「リサーチコモンズ」の3つの基盤整備事業のうち「モデリング・解析」を担う、「データ同化・シミュレーション支援技術」のプロジェクトです。「データ同化」とは、ひとことで言えば、シミュレーション・モデルとデータ解析を結び付ける統計手法。そして物理系から生物系、マーケティングなどの経済系まで、およそあらゆる分野で役に立つ応用範囲の広さも、大きな特徴のひとつです。またプロジェクトを通じて統計学を学び、大量データの取り扱いやプログラミングに親しむことで、まさにビッグデータ時代に要請される人材が巣立っています。プロジェクトディレクターの中野純司教授(統計数理研究所)がご紹介します。

たとえば細胞生物学とつながると…

現象の奥にひそむ本質的な動き

本プロジェクトは、もともと統数研樋口所長が始めたもので、われわれはこれを引き継ぎ、研究所にある「データ同化研究開発センター」を中心に、国立極地研究所や国立遺伝学研究所のグループと連携して研究を進めています。そもそも統計とは、理論だけではあり得ません。データを使うことによって、その確率的な現象の奥にひそむ本質的な動きを捉えたいという大きな目的を持っています。生物学者でもあったロナルド・フィッシャー(Sir Ronald Aylmer Fisher, 1890-1962)は、10、20といった極めて少ない数の実験データから、いかにその背後にひそむしくみを見つけ出すかを考えるなかで、現代に連なる統計学を確立しました。今あるデータで、まだ手にしていないデータについて考えたり、予測したりすることができるのは、やはりモデリングの力だと言えるでしょう。

2つのシミュレーション

データを大量に取得できる分野では、昔からシミュレーション・モデルづくりが行われてきました。よく行われているのは1個のモデルを決め、これに適当な初期値を与えて未来を生成するような「物理シミュレーション」です。これに対して「統計シミュレーション」では、モデルづくりのプロセスにおける「不確定性」が大きな役割を果たします。大量のデータがあったとき、それを説明する式はひとつではない、という場合にどれが一番いいかを推定する。このためには、まずなんからの量を与えて、実際のデータとの「ずれ」を計算します。データを全体として見たときに最も誤差が小さくなるようなモデルを選び出し、そのパラメータの近辺でもう一度探すという作業を繰り返していきます。ちなみにランダムに発生する事象のデータを作成するには乱数が有効であり、またデータにフィットするモデルを探すには「粒子フィルター」と呼ばれるベイズモデルを活用しています。

感染症の拡大を予測する

「データ同化」とは何か?

このように乱数を使って作り出したデータを元に計算を積み重ねていったシミュレーション・モデルを、実際のデータと比べて見ると、やはり違うところがあったり、あるいはそもそもモデルが予想していない事象には対応できないといった問題があります。そこで実際のデータを使って、その結果をなぞるようにモデルをフィットさせていけばどんどん精度が上がり、本物に近づいていくはずですね? 実はこの手法こそが、「データ同化」です。人間社会の現象には、どうしても制御しきれないところがある。物質にしても、そもそも不確定なのだということを量子力学は示しています。誤差だけでなく、データの欠けなども避けることができません。そういった事象をうまく扱えるのが統計学であり、データ同化である──つまり、より現実的なのですね。

コラボレーションから"筋のいい手法"を探り出す

われわれのプロジェクトは「数理・計算」「モデリング」「データデザイン」の3チームから成り、それぞれ統数研、極地研、遺伝研が中心になって推進しています。とはいえ、そもそも統計学はデータを見ながら、あるいはデータをつくりながら、これが知りたいという目的に応じて手法をつくってきた学問ですから、研究所間の交流も盛んですね。たとえばこの実験では絶対にある「違い」を区別することはできないとか、なるべく少ない実験で言いたいことをはっきり示すにはどんな実験が必要かといったことを、まさに統計学が提案できるのです。そこでデータデザインチームでは、このような共同研究を遺伝研・統数研のメンバーで進めています。そしてその際、われわれ統計学者は、なるべく汎用性の高いモデルをつくろう、と挑戦する。なぜなら筋のいい手法は、幅広い分野で使い回しが利き、長く使われていくからなんですね。

オーロラの予測に役立てる

データ同化を実際に使いやすいソフトウエアの形で提供するため、Web上でのシステムの構築、統計ソフトウエア「R」への移植作業が行われている。2014年夏には、統数研が大学や研究コミュニティに提供するスパコン利用の新サービスもスタートし、「データ同化」の活用とサポートがいっそう拡充される予定だ。

(文:中野純司・池谷瑠絵 写真:水谷充 公開日:2014/05/12)