統計データを社会に活かす未来像。

PDCAサイクルを回す

1947(昭和22)年に公布された統計法が、2009(平成21)年4月、およそ60年ぶりに大改正されました。「統計」を意味する「Statistics」は、まさに国「State」の状態、すなわち国勢を知ることによって国を動かす指針にする「国勢学」がその語源です。リサーチコモンズの研究データベース「人間・社会データ」は、その応用研究としての「社会コミュニケーション」と一体化しながら、研究コミュニティに役立つデータ基盤を整備・提供し、さらに社会科学等における統計手法の共有・発展を支えていくためのプロジェクト。サブプロジェクトリーダーを務める椿広計教授(統計数理研究所)がご紹介します。

科学による政策と、公的統計データの「2次利用」

統計学は16〜17世紀、「歴史は動く統計である」とも言われ、その重要性が認識されてドイツを中心に広まりました。データを集めて科学として利用する、今日のようなエビデンスに基づく政策決定が始まるのは、19世紀末頃からです。日本では1881(明治14)年、大隈重信によって統計の整備が進められ、大正時代に国勢調査が始まりました。このように国が収集するデータは、これまでもっぱら政策という「1次利用」に限られてきましたが、データは国民全体の知的財産であるという考え方から「2次利用」を推進して、もっと研究に活用したり、その研究成果を国民にフィードバックしたりしようというのが、統計法改正のポイントです。そこでわれわれは、研究利用を含む2次利用を統括する独立行政法人統計センターと連携協定を結び、一橋大学など他の大学とともに、実際の研究利用をお手伝いしています。

統数研の金融データ

研究利用の基盤をつくり、モデリングを支援する

なかでも情報・システム研究機構は、データ提供だけでなく、社会科学等の研究者に解析・モデリングを支援する役目があると考えています。たとえば社会科学的分析に用いられるモデリング手法がほんとうに妥当なのか、われわれのところにログなどのかたちで記録が残るようにすれば、社会科学で今こんな手法が使われているという生きた情報をアーカイブしていくことができます。そしてその中から、どんなものが問題解決や社会への提言につながるのか、よいもの・ダメなものを選ぶというプロセスも重要です。さらに、このように草の根的に集めた「モデリングの知」からある程度汎用的なモデルを生成したり、研究者が共有・再利用したりできるようにすることを目指しています。

リスク解析戦略研究センター
公的統計データをセキュアな環境で利用するため、監視カメラを備えるなど、高い審査基準をクリアした統計数理研究所の「オンサイト室」。2010年から匿名化された公的データの提供を開始し、2次利用が進められている。同研究所の宿泊施設「赤池ゲストハウス」を活用して、遠方からの研究者を受け入れる準備もある。一方、個人情報保護に対応した匿名データは情報量が少なく、社会科学にとっては大規模なモデリングが行えない。そこで総務省2次利用研究会で検討を重ね、応用統計学会を通じて学術会議マスタープランに提言したところ、2013年に採択された。全国の大学などが公的統計データを活用できるこの有効な方法は、内閣府統計委員会の基本計画に盛り込まれ,2014年3月閣議決定された。また統計センターには、将来的には総務省だけでなく全省庁のデータが集まる方針も固まり、今後いっそうの大学共同利用が期待される。

公的統計がサイバー空間の情報と結びつく強み

私の専門は応用統計なので、統計の新しい応用分野を拓くのが役目であり、それによってもう一方の柱である数理統計も伸ばしていければと考えています。「社会コミュニケーション」プロジェクトで取り組んでいる自殺対策、食品安全というテーマは、まさに融合研究から生まれたものであり、今や主力分野に成長したと言ってよいでしょう。また私が専門とする統計データはどちらかというと"クラシックな"統計であり、データの中から対象が持つ特徴を探り、モデル化する作業が中心になります。一方、世の中には収集するだけで価値を生み出せるデータも多く、プロジェクトディレクターの曽根原登教授・一藤裕研究員(国立情報学研究所)が取り組むサイバースペース・データはその代表例です。2つのデータはまさに一長一短で、たとえば伝統的な人口統計である国勢調査は5年に1回ですが、今や携帯電話を使えばリアルタイムに人の移動を把握できます。人口調査と移動端末数とではまったく別物ですが、もしある時点における国勢調査と携帯電話の情報をうまく連携させてモデリングすることができれば、国勢調査が行われている間の人口移動を推定できます。このように一方の統計が持つ偏りを他方が補正するしくみを工夫していくと、すごい力になると思いますね。

「社会コミュニケーション」プロジェクト

PDCAサイクルと統計の役割

ビッグデータからの発見が問題解決を加速する

統計の考え方の基本に「Plan・Do・Check」というサイクルがあります。これに「Action」が加わったものを「PDCA」と言い、1960〜1990年代前半の日本の自動車工場がこれを品質管理手法として採用して、世界をリードしたことでも知られています。サイクルのうち、最近の統計が活躍するのはチェックのところ──実際のデータ(実測)とモデルによって期待されるデータ(予測)を見て、どのずれが解消されなければならないかという問題を発見するのが最近の統計の役割です。たとえば現在、日本全体としては自殺数が減ってきていますが、年齢や地域によっては依然として増えているところがある。このような地域によってばらつきが存在することが問題だと考えるわけです。そして原因と思われるデータと結果のデータを集め、モデリングを行います。これを使って効いている原因をコントロールしたり、環境因子がどう影響を与えているかを評価したりして、さらに分析を進めていきます。この辺は検証的で古典的な統計モデリングが依然として重要です。ただ,このような問題解決プロセスの中で近年大きく進歩したのは、ビッグデータから要因を発見するような統計だと申し上げたい。機械学習、データマイニング、人工知能など、問題のありかや原因候補を探索するさまざまな方法が登場し、統計のサイクルを活性化させていると言えるでしょう。

「原因と結果の相関グラフを描くだけでも重要なトレーニング。統計のサイクルをきちっと回せれば、小学生だっていろんなことができる」という。データサイエンティストの育成にも関連して、小・中学生を対象とした"統計による問題解決"の教育・普及啓蒙にも奔走する。

(文:椿広計・池谷瑠絵 写真:水谷充 公開日:2015/02/10)