国際標準化されたデータが、生命を語り始める。

ゲノムという膨大なデータで科学の進歩やイノベーションが見込まれるバイオ分野は、いち早くデータベース化に取り組んできました。アメリカではNCBI(The National Center for Biotechnology Information)、ヨーロッパではEBI(Part of the European Molecular Biology Laboratory, The European Bioinformatics Institute)そしてこれらの日本版であるDDBJ(DNA Data Bank of Japan)が、遺伝情報のデータベースの一元化に成功しています。これらとも連携して、日本の大学・研究機関・医療機関などが蔵する多種多様なライフサイエンスのデータベースの統合化を担うのが「ライフサイエンス統合データベースセンター(Database Center for Life Science: DBCLS)」です。プロジェクトリーダーでありDBCLSセンター長の小原雄治教授(国立遺伝学研究所)に、その取り組みをご紹介いただきます。

統合データベースとは?

ゲノム情報、遺伝子発現の情報など、ライフサイエンスのさまざまなデータが日々蓄積されています。また過去の研究プロジェクトから生みだされたデータなどが研究所や大学のサーバーに大量に保管されていたり、場合によってはメンテナンスできずに眠ったままになったりしていることもある。つまり、どこに何があるかまったく分からないんです。そこでばらばらに存在しているそれらのデータベースを、一か所に集めなくても、みんなが使えるようにしましょうというのが、統合データベースという考え方です。使えるようにするには、データの形を標準化する必要があります。たとえば現在公開中の検索サービスでは、国内すべてのライフサイエンスのデータベースを全部探してきて、串刺し検索ができるようにしています。ただそれだけではGoogleで検索するのとほぼ同じですね? 実は、われわれの開発は、いよいよこれからというところなのです。

RDFという国際的な共通フォーマット

今、私たちがGoogleなどの検索エンジンを使って得られる情報は、ウェブページという「文書」のかたちをしています。その後は人間がその文章を読んで意味を理解して取捨選択し、レポートを書いたりする。ウェブは今、このようなWeb of documentに代わって、Web of dataへと進化しようとしています。たとえばウィキペディアの次世代版である「DBpedia」では、機械がいろんな情報を組み合わせて、別の情報、つまりこれまでのレポートに近いものまでつくることができるんです。このようなセマンティックウェブを実現するために最適な情報のフォーマットとして、今「RDF(Resource Description Framework)」が世界標準となりつつあります。RDFはデータを、主語(英: subject)述語(predicate)目的語(object、述語の値)が一義的に定義できるような形で書き、これを「トリプル(triple)」と呼んでいます。データをトリプルで揃えることで、意味を含めた高度な検索やグラフ化など、データの使い途が飛躍的に広がります。また同じ言葉でも分野が変われば意味が違うため、「辞書セット」とも言える各分野の意味の地図にあたる「オントロジー」を整備し、検索結果のさらなる精度向上が世界的に目指されています。

データベースの国際標準化を担う「バイオハッカソン」

そこで片山俊明 特任助教(DBCLS)たちが中心となって、このようなデータベース開発の将来的なビジョンや仕様のディテールを巡り、協働作業と議論を通じて国際的な標準をつくっていこうというワークショップ「BioHackathon」を毎年開催しています(DBCLSとNBDCの共同開催)。短期の合宿形式で集まって、今抱えている問題を解決してしまおう、そんなワークショップのスタイルを「ハッカソン」といい、非常に生産性が高いため、今IT業界などでも盛んに採り入れられている手法です。「BioHackathon」では、今第一線で活躍しているデータベース、オントロジー、アプリ開発など現役の技術開発者たちが集まって、通常ならば1カ月以上もかかるような課題を、わずか1週間で解決してしまう。さらにこのイベントを通じて知り得た最新の知識やノウハウを普及するために開催する、国内版のイベントも、4回目を数えます。まさに継続は力なり、と言えますね。

BioHackathon 2014 in Tohoku

自然な文章でたずねれば、高度な検索結果が返ってくる

このような技術的な課題のなかでも、データベースにどのように問い合わせれば、うまく情報を引き出せるかという「Q and A」は、最も先端的なもののひとつです。金進東 特任准教授(DBCLS)の最近の研究では、英文で「○○病にかかわる遺伝子は何か?」といった自然文を入力することで、RDFデータへの標準の問い合わせ言語であるSPARQL(SPARQL Protocol and RDF Query Language)を自動生成し、「○○病」や該当する遺伝子に関わる文献情報、ゲノム情報、分子構造など、意味的に正しく関連づけられた情報を一元的に表示する技術を開発しています。難しいと言われるSPARQLをライフサイエンスの科学者などが広く使いこなせることができ、一方、医療の現場などでも役に立つための性能評価の基準づくりも進めています。

この他、動画の整備も始まっており、細胞の動きの解析結果を見て生物学者が意味を発見するといった「データ中心科学」の実現も期待されます。まさにそんな将来へ向けて、継続的な努力を続けていきます。

晴れた日には富士山が一望できる、三島市の国立遺伝学研究所にて。DBCLSは2014年春、東京大学(本郷)から、センター本隊は千葉県柏市へ、一部は国立遺伝学研究所へ移転した。

(文:小原雄治・片山俊明・金進東・池谷瑠絵 写真:水谷充 公開日:2014/04/01)