Science Report 014

データサイエンスでここが変わる。02

データを発掘し、新たな歴史を記述する。

私たちはどこから来たのか?──歴史は、いつも人類の想像力をかきたててきた。人類のよりリアルな過去の姿を求めて、現代の考古学や歴史学では、科学的な計測・解析技術が広く用いられている。またデータがアナログからデジタルへ移行してからは、その利用方法も大きく広がり、さらにビッグデータ時代を迎えた昨今、大量データの高度な解析や、AI・機械学習などの手法も含めた、新しい「歴史を書く」という作業が試みられつつある。今回は、歴史などの人文学と、ゲノミクスや情報学が連携して取り組むデータサイエンスの挑戦についてお伝えしよう。
Twitter Facebook Google+

斎藤成也 教授(国立遺伝学研究所)

1979年、東京大学理学部生物学科人類学課程卒。1986年テキサス大学ヒューストン校生物学医学大学院修了。Ph.D.(テキサス大学(米国))、博士(理学)(東京大学)。人間の進化に注目し、さまざまな系統独自の進化をゲノムデータの大規模比較により解析する。1987年に系統樹を作成する「近隣結合法」を提案した博士論文は5万件近く引用され、現在も被引用数を更新中。著書に『核DNA解析でたどる日本人の源流(2017年)』、『歴誌主義宣言(2016年)』、『日本列島人の歴史(2015年)』、『Introduction to Evolutionary Genomics (2013年)』、『ダーウィン入門(2011年)』 他多数。総合研究大学院大学遺伝学専攻教授、東京大学生物科学専攻教授を兼任。

答える人:北本朝展 センター長(情報・システム研究機構)

1997年、東京大学工学系研究科電子工学専攻修了。博士(工学)。現在、情報・システム研究機構 データサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター センター長、国立情報学研究所 コンテンツ科学研究系 准教授、総合研究大学院大学 情報学専攻 准教授。画像データの分析を中心に、人文科学、地球科学、防災などの幅広い分野で、データ駆動型のサイエンスを展開する。文化庁メディア芸術祭アート部門審査委員会推薦作品、山下記念研究賞などを受賞。オープンサイエンスの展開に向けた超学際的研究コラボレーションにも興味を持つ。


貴重な出土品にドリルで穴を開けて

生物のゲノム進化を専門とし、特に現代人の進化、そしてヒトにいたる霊長類と哺乳類の進化に焦点をあてた研究を展開する国立遺伝学研究所の斎藤成也教授。2016年には福島県・三貫地(さんがじ)貝塚から出土した人骨からゲノムを解析し、縄文人が中国や東南アジアの人々とは遺伝的に大きく異なることを明らかにした。解析の元となるサンプルは、東大総合研究博物館所蔵の男女2体の頭骨の中にある奥歯に、ドリルで穴を開けて取得したという。「人類進化を知るには、人文系の情報が非常に重要です。日本の考古学が長い年月をかけて日本各地で発掘した史料が、既にたいへん豊富に集められているんですね。われわれは、それらの史料からデータを獲る探検に出かける。博物館がフィールドです」。

斎藤教授はさらに2017年、出雲に住む現代人のゲノム解析によって、従来2段階と考えられていた日本古代における大陸からの人々の渡来が、3段階だったことを示した。「三貫地貝塚では縄文人のゲノムを調べたわけですが、今度はこれを現代人のゲノムと比較することによって、ゲノムが似通った集団の分布にパターンがあることが見えてきたわけですね。すると、これまで知られていた渡来モデルが示す集団分布と、ずれがあることがわかったのです」。

このような遺伝学による発掘が、日本じゅうでどんどん始まっている、と斎藤教授は言う。「遺伝学はようやく追い付いてきたんですよ。縄文時代のヒト集団のゲノムを、多くの地域で面的に調べていくことによって、これからさらに詳しいことが分かってくるでしょう」。

歴史記述とデータサイエンスの不可分な関係

このようにして、これまで人文学が蓄積してきた史料から、新しいデータを引き出す。ところが、「いや、データなんて排泄物みたいなもの」と斎藤教授は笑う。「計測する、デジタルファイルになる、それでおしまい。むしろ南方熊楠が書き残した「心・事・物」のベン図が参考になる」のだそうだ。「人間の「心」の働きと、自然界=「物」の世界が重なった部分に「事」と書いてある。「物」を把握しようとする人間の「心」の中に「事」が生じる。「事」とは情報であり、データです」。

「生物学がすごく発達していろんなことが分かってきたと言われるけれども、実は分かっていないことだらけ。しかしゲノムは、遺伝情報という「事」でありながら、同時にアデニン(A)、グアニン(G)、シトシン(C)、チミン(T)という物質に1対1対応しているので、非常に「物」=本当の客観的な現象に近い。これは素晴らしい」。

斎藤教授が推進する「進化ゲノム学(Evolutionary Genomics)」は、これに時間軸が加わって、進化の過程でいかにゲノムが変化してきたかを問う分野だ。「僕らはゲノムを足がかりにして進化という自然現象を知りたい。人間を含めた世界に何があったのか、どう変化したのか、データによって現象をつぶさに記述することこそ重要なのです。この取り組みをデータサイエンスと呼ぶとすれば、それはデータという記述によって、歴史を証明することだと私は考えています」。

強者が生き残るのなら、なぜ生命は絶滅する?

広く知られる生命の進化の法則は、環境に対してより強い突然変異遺伝子を持つ者がより多くの子孫を増やすことによって、これまでの遺伝子と置き換わっていくとするダーウィンの自然選択(自然淘汰)説だ。「すべての生物がそれぞれの環境にすでに適応しているなんていうのはまったくの幻想ですし、自然淘汰でよりよい方が残るなら、基本的に種は絶滅しないはずです。ところが生命の歴史は、絶滅ばっかり。強い者の遺伝子が生き残ってきたというのはうそだということです」と、斎藤教授は問いかける。

というのも、学術においては現在、突然変異が生じて遺伝子の塩基配列が変化しても、子孫を残す比率は従来の遺伝子と同様であって「淘汰上中立」であるという、木村資生の「中立進化説」が定説となっているからだ。「突然変異が生じて遺伝子の塩基配列が変化しても、大体ものは悪くなって消えてしまう。残るのは現状維持です。これをダーウィンの「正の自然淘汰」に対して、「負の自然淘汰」といいます。現在では、遺伝子変化の大部分が、この淘汰上中立な突然変異が長いあいだに蓄積していって進化が生じたものであることがわかっています」。

2018年2月26日に一橋講堂(千代田区一ツ橋2-1-2、学術総合センター内)で開催される機構合同シンポジウム「人文知による情報と知の体系化〜異分野融合で何をつくるか〜」で、斎藤成也教授が「ヒトゲノム情報の革命がもたらした日本列島人史研究の新展開」と題して講演する。プログラム詳細や参加登録はホームページへ。

自然・社会・人文データで江戸時代を再現する

情報学の手法を用いてさまざまなデータを統合し、人文学などの様々な目的に利活用できるデータセットやツールを公開している、情報・システム研究機構データサイエンス共同利用基盤施設の人文学オープンデータ共同利用センター(CODH)北本朝展センター長。来る2018年3月12日には、古文書に由来する地震学、気候学、天文学などのデータを多角的な視点で統合解析する手法を探るCODHセミナー『歴史ビッグデータ〜過去の記録の統合解析に向けた古文書データ化の挑戦〜』を開催する。

「ビッグデータ時代の今ならTwitterなどに出来事を投稿するでしょうが、かつてはそれが古文書や古記録に記述され、今も残っているんですね。西東京の旧家が300年前から書き残している日記に天気の記録があったり、長野県の諏訪湖では、氷結した湖面が割れてせり上がり道のように見える「御神渡(おみわたり)」という神事があって、この公式記録が約600年も残されていたり、京都の神社では桜の開花日が長年にわたって記録されていたりします」。北本センター長が注目するのは、中でも比較的史料の多い江戸時代だという。

今回のイベントでも、気象の記録から古気候を再現したり、地震などの災害に関する記録を発掘したり、近世の市場変動や地下水管理などと自然現象を結びつけて解析したりする研究者達を集めて、人文情報学のコミュニティ形成を目指す。このように過去の「ビッグデータ」、すなわち過去の大規模な記録の網羅的な解析から歴史を再構成するという研究は、例えばベネチアの約1,000年分もの公文書などを分析して過去のベネチアを再現する「ベニス・タイム・マシーン」プロジェクトなど、世界的な潮流でもあるのだそうだ。「歴史的な記録を統合化し再利用していこうという研究活動はこれまでも行われてきましたが、そうした研究成果はバラバラに散らばっているのが現状です。各地に残る記録を読み解き、デジタル化し、統合し、共有化するという複雑な作業を、みんなで協力して進められるような基盤を構築するのがわれわれの役割だろうと思っています」。

ミュージアムやライブラリの画像公開標準化とオープンサイエンス

CODHでは、ミュージアムやライブラリなどの画像配信方式として国際的な標準化が進む「IIIF(トリプルアイエフ)」の日本国内におけるコミュニティ活動推進にも取り組む。IIIFには国立国会図書館、大英図書館、フランス国立図書館、EU欧州委員会の電子図書館ポータルサイト「ヨーロピアナ」、オックスフォードをはじめ世界の大学が参加しており、現在約3億5,000万件以上の画像データが公開されているという。CODHでは「IIIF Curation Viewer」を開発・公開し、この活動に貢献している。

「ウェブサイトで作品を見て、そこに描かれている人物の顔など注目する部分を切り取ることで、スクラップブックのようにお気に入り画像を蓄積・保存する仕組みがあります。以前なら、実際に美術館に行き、カメラやコピー機で複写し、はさみで切って、ノリで貼って……と行っていた作業が、この仕組みを使うと何百倍、何千倍も速くできます」と、北本センター長は言う。手軽に集めて分析できれば、発見の機会も増える。「顔だけを集めたキュレーションを作ってみたのですが、それで顔を比較してみると、実は別の絵巻にとてもよく似た描き方が見つかりました。絵巻は文字の部分と絵画の部分があるのですが、絵画の部分については絵師に外注する工房システムが存在していたらしいので、工房では顔のテンプレートを見ながら描いていた可能性もある。……現代のマンガとも共通するような技法が使われていたのかもしれませんね」。

データを集積し、公開し、そのプロセスを標準化することで、研究の検証や解釈の共有を飛躍的に改善することもできる。「人文学研究に貢献するだけでなく、それをどう変えるかがわれわれの重要なミッションです」。これまでは専門家の脳内に蓄えられていた素材や知識が、他者と共有して再利用できるようになる。「誰でもウェブ上の画像を使って、キュレーションができる。そんな市民参加のオープンサイエンスも推進したいと考えています」。

国文学研究資料館の関係機関が公開する古典籍15点の画像データから切り取った、くずし字3,999文字種・字形データ403,242文字の「日本古典籍字形データセット」も公開している。「機械学習(AI)によるくずし字認識ではルビの処理が難しい」と北本センター長。

人文学と情報学の交点から見えること

2017年には、江戸料理レシピデータセットの第一弾として、1795年刊行の『万宝(まんぼう)料理秘密箱』に掲載されている卵料理のレシピを公開した。料理レシピの人気サイト「クックパッド」にも公開され、広く話題となった成果だ。しかし、このことは同時に「データが真に利活用されるためには、データを単に公開するだけでは不十分という大きな教訓を残した」と、北本センター長は言う。

「人文学データの面白さは、データの背後に潜む歴史や文化とのつながりを深めていける点にあるのではないでしょうか。私は、単に人文学データを使って情報学の研究を進めるだけでなく、人文学データの中身を理解することで人文学的にも新しい知識を得たいと思っています。誰かからもらったデータをブラックボックスに放り込んで答えを得るだけの研究をやっていると、高度なツールのオープン化に伴って情報学者の活躍の場はどんどん狭くなってしまうかもしれません。データをどう取得するか、データをどんな知識を得るために使うかなど、データを取り巻く環境に目を向ければ、新しい可能性が見つかるのではないでしょうか。」

准教授を務める国立情報学研究所(千代田区一ツ橋)にて。

(聞き手:池谷瑠絵 写真:飯島雄二 公開日:2018/02/13)

大学共同利用機関法人 情報・システム研究機構
〒105-0001 東京都港区虎ノ門4丁目3番13号ヒューリック神谷町ビル2階
TEL:03-6402-6200 FAX:03-3431-3070 E-mail:webmaster_sr@rois.ac.jp
Copyright © Inter-University Research Institute Corporation Research Organization of Information and Systems(ROIS). All rights reserved.