e-サイエンス基盤技術 異分野の知と人を共有し、共同研究促進の基盤を構築します。

研究概要

成果概要

人類の歴史における学術情報の流通の変遷を、現在の私たちのICT環境において眺めるとき、研究者最新の学術研究データに1秒でも早くアクセスした上で、自らの研究成果および過程は、適切な共同研究者との間で安全に共有し、それを素早く商用化したり、研究成果として公知としたり、そのサイクルの中で、より大きな競争的資金やより良い共同研究者を獲得するような共有のありかたが望まれることがわかります。

しかしここにはいくつかの理論的・技術的な困難が存在します。第1は、多様な学術研究データがウェブ空間上に爆発的に増加したことにより、データへのアクセスが不可能に近いことです。ところが1を実現する検索技術は、研究者のニーズが多種多様であるため、個々の研究者に特化して的確に提供できるプッシュ型の情報検索・情報推薦の技術が必要になり、ここに第2の困難が生じます。

そこでわれわれはデータマイニングとオントロジーを用いた手法、ソーシャルメディア的手法を用いてユーザ自身からフィードバックを得る手法、そして外部の信頼おけるデータとそれに付与された情報を活用した連想検索という3つの手法を統合することで、この課題の克服を目指します。(プロジェクトディレクター:新井紀子〔国立情報学研究所〕)

プロジェクトの目的

爆発的な勢いで増加しつつある研究資源および研究情報を研究者が理解し、分野固有の文化や空間的制約に妨げられることなく分野横断的な研究が促進されるよう機械が支援する「サイエンス3.0基盤」構築を目指します。より具体的には研究資源・研究情報を機械可読化するために、大規模データマイニング技術・検索技術、既存学術データベースと連携するためのセマンティックウェブ技術、異種データベースをつなぐ情報リンケージ技術、オントロジー技術等の研究開発を推進する。

プロジェクト推進体制

研究の実施体制及び大学等研究機関等との連携(事業の実現に向けた実施体制等)

本研究は、データに基づいて学術研究や社会における課題解決を目指す研究コミュニティに対して、データ基盤整備事業によって提供するデータを高度活用し、課題の背後にある構造を可視化・モデリングし、シミュレーションなどを通じて、適切な課題解決を促進する研究環境を提供することである。その中でも、特に、(1)データ構造の可視化・探索支援技術、(2)モデリング知識基盤技術を担う。本研究の実施にあたっては、既存学術データベースと連携するためのセマンティックウェブ技術、大規模データマイニングおよびオントロジー技術、異種データベースをつなぐリンケージ技術および検索技術が不可欠となる。そこで、本研究プロジェクトを3つのサブテーマに分け、武田サブプロジェクトではセマンティックウェブ技術を、相澤サブプロジェクトでは大規模データマイニングおよびオントロジー技術を研究開発し、新井サブプロジェクトにおいて上記2つの要素技術を統合し、データ構造の可視化・探索支援技術を盛り込んだ上で、研究者にサービスするための基盤の研究開発を行い、実際に大学・国内主要研究グループ・学会等に提供しながら、実証的に研究を推進していく。

本研究の実施に先立って行った、「新領域融合研究センター」プロジェクトにおいて、日本全国の研究者を対象とした研究者向けサイエンス2.0基盤サービス「Researchmap」の試行版を公開、運用を始めた。Researchmapは、平成23年度にReaDとの統合を果たし、23万人の研究者が参加する世界最大級の研究者コミュニティへと飛躍的に成長した。本サービスはユニークアクセスで月平均35万件、「研究者」での検索ランクはGoogle, Yahooともに三位に上昇している。また、本サービス上で公開されている研究資源は、論文数は1400万件(昨年比2倍以上)に達しており、本研究が目指す異分野研究資源共有・協働基盤の構築を開始するための下地としては理想的な状態が整っている。

サブテーマ紹介

1. 研究資源に関する情報推薦基盤の構築

本サブテーマでは、これまで、新領域融合センターのプロジェクトのもとで、論文推薦手法の研究と実証システムの開発に取り組んできた。この研究成果を踏まえ、本サブテーマでは、「論文を単位とする検索」から「論文に書かれている情報の探索」の支援へと研究を展開して、リサーチコモンズ基盤技術の1つとして確立することを目標としている。このために必要な要素技術として、(1)文書読解プロセスの観測と分析およびモデル化、(2)文書構造と意味構造の統合による文書解析プラットフォームの構築、の2つに焦点をあてて研究を進めるとともに、(3)可読性の高い情報提示の技術と意味解析に基づく情報探索支援技術の両面から研究者の情報アクセスを支援する論文閲覧システムの開発と実証を進める。(研究代表者:相澤彰子〔情報研〕)

2. 学術リソースのためのオープン・ソーシャル・セマンティックWeb基盤の構築

本サブテーマの目標は本プロジェクトの目標は学術情報を学術コミュニティおよび社会で共有できる仕組みを構築するものである。インターネット、ことにWebは上記のより広く柔軟な学術情報流通を実現する基盤として重要である。しかし、現在のWebそのものは、そのような仕組みが組み込まれておらず、広く柔軟な学術情報流通を実現することは難しい。このためにセマンティックWeb等の技術を利用した情報流通基盤を構築することを目標とする。セマンティックWebにおいては情報の意味をURIとオントロジーの仕組みを使って記述する。この情報の意味記述を使うことで異なる分野における情報の交換の実現が可能になる。さらにソーシャルWebの考え方を導入してボトムアップな情報の構造化を実現する。ソーシャルWebでは広範な人々の参画による情報の生成や構造化がなされている。本研究ではオントロジー構築とオントロジーマッピングにおいて集中型でなく分散型の仕組みを導入する。このことにより情報流通をより広くすることができる。さらにこのようなすべての情報は制限なく利用可能であるべきである。このため情報をオープンにアクセス可能な形式で公開する仕組みを構築する。柔軟で広範な情報流通を実現する情報基盤を構築して利用可能にすることが本研究の成果である。これらの情報基盤を利用することで、より密な分野内の情報共有・流通が可能になるとともに分野を超えた情報流通が促進される。
本サブテーマの研究成果は随時、Researchmap等のシステムを通じて、研究者に直接提供し、フィードバックを得て、改良を進める。(研究代表者:武田英明〔情報研〕)

3. 融合研究を加速するための情報共有クラウドサービスの確立

本サブテーマでは、研究論文や特許、競争的資金獲得状況や社会貢献活動など研究を取り巻く多様な静的情報を研究活動という動的な情報と組み合わせながら、研究の現在を可視化し、融合的研究や産学官の連携、また研究を活用した社会的課題の解決につなげていくような循環型研究情報基盤の構築を目指している。まず武田プロジェクトにおけるセマンティックウェブ技術の成果を活かした研究者項目規約を定め、多種情報のリンケージの手法および可視化の方法論を研究開発する。また、研究論文をはじめとした一次データ蓄積のためのOpenDepoシステムを構築し、これをResearchmapとID連携する。このデータを用いて、相澤プロジェクトで推進している論文に書かれている情報の探索および推薦を実装し、その上で、各論文を読むための支援インタフェイスを本サブプロジェクトで開発、提供する。これにより爆発する情報空間から、各研究者に有用な学術・研究情報を取捨選択して提供するパーソナライズされたサービスを構築することが可能となる。
本研究によって構築されたソフトウェアResearchmapは、実証実験後随時JSTに提供し、研究者サービスReaD&Researchmapとして実際に日本全国の研究者に提供していく予定である。(研究代表者:新井紀子〔情報研〕)

関連記事

Research View 026

ウェブデータはオープンを目指す。

[e-サイエンス基盤技術]武田英明(国立情報学研究所教授)

ウェブ以前から人間の持つ知識に注目し、人類の巨大な知識をいかに機械が使えるようにするかに取り組んできた武田英明教授(国立情報学研究所)。まだ人々を惹きつけることはなかった1990年代前半のウェブに大きな衝撃を受けて「未来の知識はここにある」と、人工知能(AI)の研究からウェブによる知識獲得へ、いち早くテーマを移したといいます。

Research View 024

人工知能は可読なビッグデータを待っている。

[e-サイエンス基盤技術]新井紀子(国立情報学研究所・教授)

情報・システム研究機構発足直後の融合研究で「サイエンス2.0」として研究開発が始まったresearchmap。研究者の卵や研究支援者にも門戸を開き、共同研究を加速し、大学共同利用の基盤となるようなシステムとして2009年に公開され、以降も改良が続けられてきました。