データの中にあるプライバシーをどう守る?
答える人:南 和宏 教授(統計数理研究所、データサイエンス共同利用基盤施設)
みなみ・かずひろ。統計数理研究所、データサイエンス共同利用基盤施設 教授。専門は、プライバシー保護技術という分野のうち、特にデータを利活用する際に機密情報を守る匿名化技術。博士(コンピュータ科学、米国ダートマス大学、2006)。イリノイ大学講師、国立情報学研究所特任准教授等を経て、2020年より現職。
答える人:高部 勲 センター長(総務省統計データ利活用センター)
たかべ・いさお。総務省統計データ利活用センター長および統計研究研修所教授。早稲田大学理工学部卒、博士(統計科学、総合研究大学院大学)。ビッグデータに関わる名寄せ技術の研究などを背景に、公的統計ミクロデータの提供、地方自治体や地域の大学等と連携したデータサイエンスの推進、証拠に基づく政策立案(EBPM)の支援に取り組む。
データの中にある個人情報を守るには?
現代の社会では、スマホから取得されるユーザの行動履歴や、オンラインショッピングの購入履歴などの情報が、企業等に自動的にどんどん蓄積されていく。このようなビッグデータは、2017年の個人情報保護法の改正により、きちんと匿名化という処理をすれば第三者への提供が認可され、利活用の道が開かれた。統計数理研究所、データサイエンス共同利用基盤施設の南和宏教授は、統計的な手法を用いて、このようなデータ利活用の際に個人情報を守る匿名化技術に取り組む。
「匿名化というと、名前やIDを削除すればいいように思われるかもしれません。しかし実は、それだけでは不十分であることが分かってきました。例えば性別と住所という属性を組み合わせたり、別のデータと組み合わせたりすることによって、個人を特定したり、その人の属性を推測できる場合があるんです」。
このことは「歴史的にも証明」されており、「1997年、米国マサチューセッツの州の医療データから州知事の病名が分かってしまったのはその一例」と南教授は言う。「不特定の方々に公開するので、中には悪意ある攻撃者や、組み合わせると有用な情報を持っている人がいるかもしれません。そのような人がデータを見ても個人の機密情報を知ることがないように、しっかりとデータを加工するのが匿名化の目的です」。
国が保有する「公的統計ミクロデータ」をつながりやすくする
日本には質のよい社会調査データがあるといわれるが、総務省統計局は、国勢調査をはじめとする公的統計の豊富なミクロデータ(個票データ)を保有する。和歌山県にある総務省統計データ利活用センターの高部勲センター長は、このような「公的統計ミクロデータ」の利活用促進と、地方自治体や学術機関とのデータサイエンスに関わる共同研究に取り組む。
「公的統計ミクロデータを十二分に活用するための環境の整備として、研究者の方々が情報セキュリティーが確保された施設内で、探索的なデータ分析を行うことができ、新たな価値を生み出すことができるオンサイト施設の設置を進めています。現在12拠点に広がっており、日本全国の地域ブロックへの展開を進めています」。
中でも高部センター長が担うのは、統計数理研究所と共同研究を進めている、異種のデータをつなぐ「データマッチング」や「名寄せ」と呼ばれる技術開発だ。「各自治体が保有する行政記録、あるいは企業が保有するPOSデータなどをオープンに利用できるようにしていこうという動きがあります。これらとわれわれの公的統計のミクロデータを連携させていく場合に、各記録、各個人のデータを、何を手がかりにどう連結させたらいいか、いわゆる「名寄せ」と呼ばれる技術的な課題に取り組んでいます」。
さまざまなデータをつなぐことによって、新たな価値創造が起こるのが、ビッグデータの醍醐味だ。「経済学はもちろん都市工学の観点からの分析、あるいは企業のマーケティングに資する分析、また国・地方自治体の政策立案に資する分析等が行われており、こうした研究は今後も増えてくると考えています」と高部氏は言う。
データサイエンス共同利用基盤施設のオンサイト施設
東京・立川市にあるデータサイエンス共同利用基盤施設のオンサイト施設。統計センターの定めるセキュリティ基準に従って、極めて高い安全性が確保された部屋となっている。研究者は、ここに一定時間滞在して、設置された端末からリモートアクセスでデータ管理サーバにアクセスし、調査票情報を解析する。受け入れを担当する情報・システム研究機構岡本基主任URAによれば「研究者が利用する調査票情報はすべて統計局・統計センターが運営する中央管理施設のデータ管理サーバに格納されており、端末にデータをダウンロードすることはできない「シンクライアント」のしくみが構築されています」という。さらに画面を撮影すること等による漏えいを防ぐため、監視カメラも設置されている。「利用者も少しずつ増えてきていますので、公的統計ミクロデータ研究コンソーシアムの運営とも連動して、公的統計の利活用と研究の発展に貢献していきたい」と、岡本主任URAは言う。
分析結果を持ち出す際の安全性基準を作る
オンサイト施設では、訪れた研究者は解析を行い、その結果を追って自分の論文に用いて発表することができる。しかし、その前に(独)統計センターの審査をパスしなければデータを持ち出すことはできない。南教授は、解析結果の持ち出し前にどんな秘匿処理をすべきか、その安全性基準の策定に尽力してきた。
「論文では一般に分析結果をかなり集計したかたちで掲載するため、個人情報の漏えいは起きないのではないかと思われるかもしれません。ところが意外と難しいのは、集計表のような表データです。集計表の場合、例えば1つのセル(マス目)だけ隠しても、表データには行と列ごとに集計欄があるので、合計からの引き算で簡単に復元できてしまいます」。
「では、実際にどこを隠せば値が守れるのかを決めるのを「二次秘匿問題」と言い、ちょっと複雑な表になると人間が行うのは不可能です。最小限の加工で本当に隠したいデータを隠すにはどの範囲を隠せばいいのか、隠したセル値に十分な不確定性を担保する「秘匿インターバル」を保証し、かつその安全性の審査するための説明資料も一緒に出力してくれるツールを、R言語を用いて開発しました」。
この二次秘匿自動化ツールは、安全性基準を担うものとして、いくつかのオンサイト施設の協力を得て、現在、評価のプロセスに入っているという。「将来的には、基本的にはこのツールを使って、プライバシーの安全を確保し、機密情報を秘匿処理したデータを、研究者に持ち帰ってもらえればと考えています」。
利用者と連携するコンソーシアムでもっと使いやすく
データサイエンス共同利用基盤施設社会データ構造化センターでは、南教授を中心に、公的統計ミクロデータの学術研究への利用促進のために、産学官が一体となって取り組むことを目的とする「公的統計ミクロデータ研究コンソーシアム」の運営にも取り組む。現在、会員は73名を数え、会員向けの教育・普及活動や意見・要望の集約などを行っている。計量経済学、社会学の研究者を中心に、最近は都市デザイン、エネルギー関連等の工学系の研究者も増えてきているという。
「これまで公的統計のミクロデータを分析されていた研究者の方は、どちらかというと公的統計だけを対象とされている方が多かったのですが、今や、民間企業等のさまざまなデータがどんどん公開されるという、想定し得なかった事態が生じており、公的統計とつなぐことで大きな価値創造が期待できます。経済センサスなどの公的統計は企業データと比較して、調査事項はそれほど多くはないものの、全数調査であるなど圧倒的に高いカバー率が特徴です。一方、企業データはカバー率は低いものの詳細な項目を持つことが多く、これらをつなぐことによって、利活用の可能性が大きく広がります(高部)」。
「つなげればつなげるほど、データは価値が上がるのですが、データが長くなればその分、個人情報が推測できるリスクが高まるため、当然のことながら匿名化は難しくなるんです。まさに高部さんの研究と、私の研究をどうバランスさせるかが非常に難しいところなので、連携して利活用を拡げていくことが大切だと考えています(南)」。
※本インタビューと対談は、オンラインで行われました。
(聞き手:池谷瑠絵 写真:飯島雄二(コラム) 公開日:2020/09/10)