バイオハッカソン2014、データ統合への道のり。

"ハッカソン"とは、一言でいえば気鋭のプログラマーたちが集まって、短期間ながら凝集性の高い交流を通じて開発に取り組み、課題解決を目指すコーディング・イベント。バイオハッカソンは2008年にこの形式を採り入れ、以来ライフサイエンス分野のデータベースを扱う世界トップレベルの研究者や技術者を集めて、毎年開催しています(NBDC、DBCLS主催)。近年は、Web 3.0時代のセマンティック・ウェブにおいて標準とされるデータ形式「RDF(Resource Description Framework)」化を推進しており、世界的にも、データの統合化と標準化を担う重要な機会として定着してきました。第7回目の今年は11月9日〜14日、東北大学 東北メディカル・メガバンク機構との共催により仙台・松島で開催され、10ヶ国から78名が参加。今回はこのイベントについて、オーガナイザーの片山俊明特任助教(DBCLS)、山口敦子特任准教授(DBCLS)がご紹介します。

バイオハッカソンだからできた7年間

そもそもは海外で開催されたあるハッカソンに招待されて、すごく生産性が高い方法であることを知ったのがきっかけなんです。研究は人間の営みですから、人が会って一緒に作業するのが一番効率がいいわけですね。今や、研究発表や講演のようなものならネットでも視聴できる。学会でも、むしろ質疑応答やコーヒーブレーク時のディスカッションのような部分が有意義なんですね。ならば、その良いところだけ集中してやろうよというのが、ハッカソン。世界中の主要なデータベースを作っている人たちに集まってもらって、まずは問題を洗い出すところから始めます。それらの課題に対して、僕らがちょっとプログラムを書くことで、面倒な作業が1クリックで済むようになったり、検索やデータ整備が100倍早く進むようになったりする。そのような解決の1つ1つによって、バイオインフォマティクスを非常に効率よく進展させることができるんですね。さらにこれを毎年継続していく中から、海外との共同研究もたくさん生まれています。(片山)

日本人のゲノム情報を医療に役立てるために

今回は、地域の人々の世代間にわたるゲノム情報を集めている東北メディカル・メガバンク機構と連携して、これまであまり扱ってこなかった個人ゲノム情報やメディカルデータにもフォーカスしています。というのも、個人ゲノムのようなデータはプライバシーの問題等もあって、セマンティック・ウェブが担うオープンデータの思想になかなか馴染みません。そこでこれらのデータをライフサイエンスデータに統合していくための仕様策定や、医療系アプリケーション等の登場に備えたデータの整備といった技術開発を、今年の課題のひとつに挙げました。ちなみにデータの「標準化」はバイオハッカソンの大事なミッションの1つであり、過去にもすでに複数の国際標準を提案しています。遺伝子の特徴と日本人の病気傾向をつなぐデータが公共的に蓄積され、これを医療の現場で一人一人のゲノム情報と照合して、診断や治療に役立てる──そんな将来的なビジョンを共有しながら、いま出来る開発を進めています。(片山)

RDFを実用的に使いこなすための「縁の下」

このような標準化・統合化を進めるためには、データベースの基盤的な技術開発も不可欠です。そのひとつが、分散して置かれたオープンなデータベースと、手元にあるデータをシームレスにつなぎ、欲しい情報が取得できるようにするための技術開発です。これにはデータがRDF化されていることが前提となります。RDFは、データの持つ意味を機械が取得することを可能にし、多くのデータを意味的に連関を持たせてつなぐことができる形式として、現在最も代表的なものです。ところが分散化されたさまざまなRDFデータを対象に処理を行おうとすると、現状では現実的な時間内で処理できるほどには技術が成熟していません。そこでどこにどういうデータがあるかという目次を標準化したり、メタデータを自動生成したり、個々のサーバにあまり負担をかけることなくデータを自動収集したり……といった基礎技術を、今回もさらにブラッシュアップしています。(山口)

RDFについて

データベースは統合された知識を編み出す仕事

ところで、生物学のラボでは多くの人材が実験を担っていますが、かつて行っていたような個別研究から、次世代シーケンサーの登場によって一気に、大量にデータが生み出せるようになりました。実験手法においても、細胞内の量的変動を計測する等のさまざまな技術革新があり、このこともデータの増加に寄与しています。このような大量データを分類して再利用できるようにして、さらにその中からエッセンスをまとめることができれば、生物学として全体を成すような知識を編み出すことができるはずです。データベースというのは、本質的に図書館にとても近い事業なんですね。ライフサイエンスのすべての分野を俯瞰できて、しかも詳細が分かるようなデータベースを作れば、それは教科書のようなものになるはずだというのがデータ統合のひとつの考え方です。しかもそのようなモデルをデータから「発見」するのは、人間ではなくコンピュータかもしれない──データ統合の道のりは、きっとそんな未来にもつながっています。(片山)

開催初日のシンポジウムの風景から。「地球には何百万通りもの多様な環境があり、そのなだらかなランドスケープのそれぞれに適応した生物がいる。そして地球上のすべての生命が、他の生物と共通の遺伝子を持って生きている」と片山特任助教。「データベースから得た知識と理論で、工学的に生物を合成し、そこに何かの刺激を与えたら、それが生命としてポッと生き始める可能性もあるわけです。またこのことは、生と死のスイッチを理解することにもつながりますね」

(文:片山俊明・山口敦子・池谷瑠絵 写真:水谷充 公開日:2014/12/10)