Science Report 010

僕らはゲノムでできている。04

生物学とデータベースの関係は?

実験や観察で得られた個々ばらばらなデータを統合して、みんなで使えるようにする、というのは科学者の大きな夢のひとつだろう。学術のビッグデータが公開され、研究コミュニティが自由に利用できると、科学の発展が加速する。そこで学術データを標準化し、統合化しようとする動きが、世界的に進められている。そのためにはまずデータが公開される必要があるが、学術データのオープン化は、世界的にも特にヒトゲノムの公開で加速してきた経緯がある。生物の圧倒的に多様な世界を統合するために、実際にどんなふうにデータが収集・整理され、どう役立てられているのだろうか。21世紀の生物学とデータベースの切っても切れない関係をのぞいてみよう。
Twitter Facebook Google+

答える人:五斗 進教授(ライフサイエンス統合データベースセンター(DBCLS))

情報・システム研究機構 データサイエンス共同利用基盤施設 ライフサイエンス統合データベースセンター(DBCLS)教授(写真右)。1989年九州大学工学部 情報工学科、1994年、博士(工学)(九州大学)。1995年、京都大学化学研究所の金久實教授らとバイオインフォマティクス・データベース「KEGG」発足に参加、2017年より現職。大量のゲノム情報を整理して解析する「バイオインフォマティクス」を専門とする。略歴はこちら。 写真左は、片山俊明特任助教(DBCLS)。今年10年目を迎えるライフサイエンスデータの標準化に関わる合宿形式の国際会議「BioHackathon」を担う。略歴はこちら


生物学のデータベースは百科事典を目指す

ゲノム解析を始めとするデータや論文として発表された文献情報等が集められた生物学のデータベースは、日々の新しい発見によって改訂・編纂される巨大な百科事典(Encyclopedia)のようなものだ。その名の通り「Kyoto Encyclopedia of Genes and Genomes(KEGG)」は、京都大学の化学研究所で約20年の歴史を持つゲノムと遺伝子のデータベースである。発足から研究開発に取り組んできた、現在ライフサイエンス統合データベースセンター(DBCLS)の五斗進教授は「当時は、塩基配列やアミノ酸配列といった文字データがあり、一方教科書等を見ると、代謝経路やシグナル伝達系の図が書いてあるといった状況でした。この文字列と図がつながるといいなということで、ちょうど広まってきたウェブ上で実現しようと考えました」と振り返る。

遺伝子とその機能の関連を他の生物種と比較する

KEGGは、ゲノムや遺伝子と、それがどう機能するか──つまり代謝経路やシグナル伝達の経路等の「パスウェイ」を結び付けるデータベースだ。「ヒトゲノムを含めて何千、何万種類という生物種のゲノムが決まってくると、その中にどんな遺伝子があるかが分かりますね。その遺伝子が例えば代謝系の中のどこで働いているかという流れ図を、KEGGでは「パスウェイマップ」で表示します」。生物種ごとの遺伝子と機能・反応プロセスの結びつきが分かるだけでなく、それぞれの機能を、他の生物種はどのように持っているかも見ることが出来るという。「土壌等から採った時間系列のメタゲノム情報も集めているので、生物種間の関係を、機能の相互的な関係から見るといった新しい利用方法にも期待しています」。

データベースとデータベースを横断的に利用する

現在日本国内には、KEGGの他にも東北大学のヒトゲノム、かずさDNA研究所の植物ゲノムを始め、さまざまなデータベースが公開されている。そこでDBCLSでは微生物、真核生物、霊長類、鳥類、魚類、植物など数多のデータベースを横断的かつシームレスに利用できるようなデータの標準化と統合化を進めている。「データをRDFと呼ばれる形式にして、セマンティック・ウェブの技術に基づいたデータの統合をするための仕組みを構築しています。この形式では、例えば遺伝子Aと疾患Bは関係があるというだけでなくて、どんなタイプの関係があるのか、AとBのつなぎ方も指定して検索できるので、探しているものが発見しやすく、その後の解析・解釈も効率化します」。医療や生物の研究者が検索するだけでなく、開発用のインターフェースを提供してバイオインフォマティシャンが自分でアプリケーションを作って解析したり、データサイエンティストがデータベースそのものから情報を取り出して大量のデータから知識発見したりと、利用階層に合わせて活用できるよう公開されているという。

統合化・標準化が進むゲノム医療のためのデータ群

DBCLSでは、ライフサイエンスデータの統合化と標準化に関わる具体的な機会として、合宿形式の国際会議「BioHackathon」を年1回開催している。10年にわたりこの会議をとりまとめる片山俊明特任助教によれば「近年特にヒトの病気の原因をゲノム変異から調べるといった、医療データベースの統合を推進している」という。また今回のBioHackathonでは、世界的にも新しい動きの1つ「ゲノムグラフ」も議論になりそうだ。「ヒトゲノムは個体ごとにほんの少しずつ違いがあるので、これまではその違いを別途管理し、後で参照できるようにしていました。これに代わって、膨大な数のゲノムを束ねて、違いも一括して扱おうという手法がゲノムグラフです。束ねた中から日本人だけに注目する使い方もできるので効果が高められるはず」と片山助教。ゲノムグラフから治療や投薬など一連の過程を標準化する「パイプライン」の開発も重要だ。「全部束ねた同じパイプラインを共有して、地域ごと等のサブセットを持つようにすれば、みんなが最新の技術を利用できる」。このような作業過程を記述する言語「CWL(Common Workflow Language)」に関する開発も今回のBioHackathonのテーマだという。国際連携による標準化がいっそう進展しそうだ。

DBCLSが提供するサービスのひとつ「TogoGenome」を解説する片山特任助教。BioHackathon 2017については「10周年なので、今までの活動を総括するため、シンポジウムの日程を2日間にしました」とのこと。また「今年大きく変わったのは、日本医療研究開発機構(AMED)を始め医療・創薬関係の参加者が増えていること。今までの10年間はデータベース統合の基礎技術に注力してきましたが、これからはゲノムと健康に関わる国際連携「Global Alliance for Genomics & Health」などの課題を踏まえ、いっそう国際的な標準化に関わっていく」という。9月9〜10日、JSTサイエンスプラザ(東京都千代田区)にてシンポジウムを、11〜16日ホテル大観(岩手県)にて合宿形式の会議を開催。

(聞き手:池谷瑠絵 特記外の写真:飯島雄二 公開日:2017/09/11)

大学共同利用機関法人 情報・システム研究機構
〒105-0001 東京都港区虎ノ門4丁目3番13号ヒューリック神谷町ビル2階
TEL:03-6402-6200 FAX:03-3431-3070 E-mail:webmaster_sr@rois.ac.jp
Copyright © Inter-University Research Institute Corporation Research Organization of Information and Systems(ROIS). All rights reserved.