生物学とデータベースの関係は?
答える人:五斗 進教授(ライフサイエンス統合データベースセンター(DBCLS))
情報・システム研究機構 データサイエンス共同利用基盤施設 ライフサイエンス統合データベースセンター(DBCLS)教授(写真右)。1989年九州大学工学部 情報工学科、1994年、博士(工学)(九州大学)。1995年、京都大学化学研究所の金久實教授らとバイオインフォマティクス・データベース「KEGG」発足に参加、2017年より現職。大量のゲノム情報を整理して解析する「バイオインフォマティクス」を専門とする。略歴はこちら。 写真左は、片山俊明特任助教(DBCLS)。今年10年目を迎えるライフサイエンスデータの標準化に関わる合宿形式の国際会議「BioHackathon」を担う。略歴はこちら。
生物学のデータベースは百科事典を目指す
ゲノム解析を始めとするデータや論文として発表された文献情報等が集められた生物学のデータベースは、日々の新しい発見によって改訂・編纂される巨大な百科事典(Encyclopedia)のようなものだ。その名の通り「Kyoto Encyclopedia of Genes and Genomes(KEGG)」は、京都大学の化学研究所で約20年の歴史を持つゲノムと遺伝子のデータベースである。発足から研究開発に取り組んできた、現在ライフサイエンス統合データベースセンター(DBCLS)の五斗進教授は「当時は、塩基配列やアミノ酸配列といった文字データがあり、一方教科書等を見ると、代謝経路やシグナル伝達系の図が書いてあるといった状況でした。この文字列と図がつながるといいなということで、ちょうど広まってきたウェブ上で実現しようと考えました」と振り返る。
遺伝子とその機能の関連を他の生物種と比較する
KEGGは、ゲノムや遺伝子と、それがどう機能するか──つまり代謝経路やシグナル伝達の経路等の「パスウェイ」を結び付けるデータベースだ。「ヒトゲノムを含めて何千、何万種類という生物種のゲノムが決まってくると、その中にどんな遺伝子があるかが分かりますね。その遺伝子が例えば代謝系の中のどこで働いているかという流れ図を、KEGGでは「パスウェイマップ」で表示します」。生物種ごとの遺伝子と機能・反応プロセスの結びつきが分かるだけでなく、それぞれの機能を、他の生物種はどのように持っているかも見ることが出来るという。「土壌等から採った時間系列のメタゲノム情報も集めているので、生物種間の関係を、機能の相互的な関係から見るといった新しい利用方法にも期待しています」。
データベースとデータベースを横断的に利用する
現在日本国内には、KEGGの他にも東北大学のヒトゲノム、かずさDNA研究所の植物ゲノムを始め、さまざまなデータベースが公開されている。そこでDBCLSでは微生物、真核生物、霊長類、鳥類、魚類、植物など数多のデータベースを横断的かつシームレスに利用できるようなデータの標準化と統合化を進めている。「データをRDFと呼ばれる形式にして、セマンティック・ウェブの技術に基づいたデータの統合をするための仕組みを構築しています。この形式では、例えば遺伝子Aと疾患Bは関係があるというだけでなくて、どんなタイプの関係があるのか、AとBのつなぎ方も指定して検索できるので、探しているものが発見しやすく、その後の解析・解釈も効率化します」。医療や生物の研究者が検索するだけでなく、開発用のインターフェースを提供してバイオインフォマティシャンが自分でアプリケーションを作って解析したり、データサイエンティストがデータベースそのものから情報を取り出して大量のデータから知識発見したりと、利用階層に合わせて活用できるよう公開されているという。
統合化・標準化が進むゲノム医療のためのデータ群
DBCLSでは、ライフサイエンスデータの統合化と標準化に関わる具体的な機会として、合宿形式の国際会議「BioHackathon」を年1回開催している。10年にわたりこの会議をとりまとめる片山俊明特任助教によれば「近年特にヒトの病気の原因をゲノム変異から調べるといった、医療データベースの統合を推進している」という。また今回のBioHackathonでは、世界的にも新しい動きの1つ「ゲノムグラフ」も議論になりそうだ。「ヒトゲノムは個体ごとにほんの少しずつ違いがあるので、これまではその違いを別途管理し、後で参照できるようにしていました。これに代わって、膨大な数のゲノムを束ねて、違いも一括して扱おうという手法がゲノムグラフです。束ねた中から日本人だけに注目する使い方もできるので効果が高められるはず」と片山助教。ゲノムグラフから治療や投薬など一連の過程を標準化する「パイプライン」の開発も重要だ。「全部束ねた同じパイプラインを共有して、地域ごと等のサブセットを持つようにすれば、みんなが最新の技術を利用できる」。このような作業過程を記述する言語「CWL(Common Workflow Language)」に関する開発も今回のBioHackathonのテーマだという。国際連携による標準化がいっそう進展しそうだ。
(聞き手:池谷瑠絵 特記外の写真:飯島雄二 公開日:2017/09/11)