データベースの必要性
1990年代後半から急速に進展したゲノム科学により、ライフサイエンスに関わる情報がさまざまな形式で大量に生成・蓄積されるようになりました。ばらばらに存在するデータベースの保全に努め、データを通じてライフサイエンス分野の知識をまるごと有効活用できる、データベース統合化の最新技術・研究開発とサービス提供を行う専門機関が不可欠です。そこで、2007(平成19)年4月、ライフサイエンス統合データベースセンター(Database Center for Life Science: DBCLS)が設立されました。
ライフサイエンス統合データベースセンター(DBCLS)のあゆみ
2006(平成18)年度 | 文部科学省ライフサイエンス分野の統合データベース整備事業(略称 統合データベースプロジェクト)が開始される。 |
---|---|
2007(平成19)年4月 | 情報・システム研究機構内にDBCLSが設立される。同年より統合データベースプロジェクトの中核機関として事業を受託(期間4年)。 |
2011(平成 23)年 4月 | 科学技術振興機構(JST)にバイオサイエンスデータベースセンター(NBDC)が設置されライフサイエンスデータベース統合推進事業の第一段階を開始。DBCLSは「基盤技術開発プログラム」の研究代表に採択される(期間3年)。 |
2014年(平成26)年4月 | NBDC「統合データベースにおける基盤技術開発とデータベース運用に係る共同研究」を開始。 |
DBCLSでは、全国の大学、研究機関などに存在するさまざまなデータベースを一元的に利活用可能にする、ライフサイエンスデータベースの統合化の研究開発を推進しています。このため「統合データベース」に関する将来的なビジョンを国際的な研究コミュニティと共有し、その標準化に深く関わりながら、基盤技術の構築を継続的に行っています。また事業を通じて開発された最先端的な研究成果は、他のさまざまな分野にも応用可能であり、このような統合データベース研究拠点としての機能強化も進めています。
ライフサイエンス統合データベースセンター(DBCLS)の主な事業内容
- データベース統合化のための基盤技術開発(RDF化の推進)
- インターネットを活用した高度な検索を可能にする技術の開発
- ハイスループットシーケンスを中心とする大規模データの利用技術開発
- アノテーション、キュレーションの支援技術開発
- 開発者向けの国際開発者会議「BioHackathon」の開催
- ライフサイエンス分野の研究者を対象にした日本語による情報提供
(プロジェクトディレクター:小原雄治〔DBCLSセンター・国立遺伝学研究所〕)
研究開発の概要
1. RDF化技術によるデータベース統合の国際標準化
次世代ウェブと呼ばれるセマンティック・ウェブでは機械による処理ができるようデータに意味情報を付与する仕組みになっています。DBCLSはセマンティック・ウェブの標準記述形式であるRDFに基づくデータベース統合化の基礎技術開発および国際的な標準化を推進しています。国内外の先端的な研究機関・研究者との連携の下に、ハッカソン形式よる効率的な国際ワークショップを開催し、トップレベルの研究者の知を結集してプログラム開発(RDF化技術、高度検索技術の開発、オントロジーの整備等)やガイドライン作成等の重要課題への取り組みや、新たな研究課題の発掘を継続的に行っています。
2. ライフサイエンス分野データの大規模化への対応
大規模化、多様化、パーソナル化、定量化が進むライフサイエンス分野のデータベースについて、新しいタイプのデータ処理・統合化、画像処理、ゲノム・臨床データのセキュリティ、モデルとの融合などの技術的な課題を検討するとともに、データ公開に必要な制度的な検討や、より高度な検索への取組みなど、持続可能なデータベース統合化の技術を開発します。
3. 文献との連携強化による高機能化
自然言語処理技術等を活用し関連するデータと文献を連携させ、データ統合と利用の高機能化に関する研究開発を推進しています。
4. 研究と技術開発のための人材養成
全国の大学や研究機関との共同研究を行い、研究と技術開発のための人材養成を大幅に強化するための人材養成ネットワークの設立を目指しています。
データベース開発の推進体制
科学技術振興機構バイオサイエンスデータベースセンター(NBDC)、理化学研究所、産業技術総合研究所、京都大学化学研究所、東京大学、との連携により、統合化に必要な基盤技術を中心とした研究開発を行っています。
新しい研究動向と展望について
微生物を対象にセマンティック・ウェブ技術によるDB統合化を推進し、ゲノム情報の統合基盤システムTogoGenomeを公開しました。TogoGenomeでは複数のオントロジーによるファセット検索が実現されており、検索結果の可視化にはTogoStanzaシステムを開発しました。これは国内研究機関との共同研究および国際ワークショップ「BioHackathon」における国際協力による成果であり、このワークショップは、今後も引き続き開催する予定です。
また大規模データの利用技術開発として塩基配列データベースRefSeqに対する検索サービスGGRNA、GGGenome、急増するNGSデータの検索サービスDBCLS SRA、統合遺伝子発現データベースRefEx、等、公的データの活用を促進するサービスを開発しました。
人材育成の観点から大学院生を中心にリサーチアドミニストレーターを採用し、OTJ形式によりDBCLSオリジナルの動画コンテンツ統合TVの開発を中心に、生物学、バイオインフォマティクス等の課題に取り組んでいます。今後ビッグデータ化が予想されるヒトゲノムのデータにも対応すべく、国立がん研究センターとの共同研究もスタートさせました。
Research View 014
バイオハッカソン2014、データ統合への道のり。
[ライフサイエンスデータ(DBCLS)]片山俊明(DBCLS・特任助教)、山口敦子(DBCLS・特任准教授)
Research View 003
国際標準化されたデータが、生命を語り始める。
[ライフサイエンスデータ(DBCLS)]小原雄治(国立遺伝学研究所・特任教授)