人工知能は可読なビッグデータを待っている。

情報・システム研究機構発足直後の融合研究で「サイエンス2.0」として研究開発が始まったresearchmap。研究者の卵や研究支援者にも門戸を開き、共同研究を加速し、大学共同利用の基盤となるようなシステムとして2009年に公開され、以降も改良が続けられてきました。現在24万以上の登録を数える日本の研究者総覧に成長し、去る2015年9月16日には、一橋大学一橋講堂(東京都千代田区)にて、科学技術振興機構、情報・システム研究機構主催、大学IRコンソーシアム後援により、researchmapシンポジウム「自らの強み・特色を知るために〜これからの大学のIRとは?〜」も開催されました。「一人一人の研究者がいかにグローバルに活躍するかということだけでなく、日本の研究を国際的に競争力あるかたちでポジショニングしていくために必要なのがresearchmap」と、プロジェクトディレクターの新井紀子教授(国立情報学研究所)。その研究開発が、リサーチコモンズ研究プロジェクト「e-サイエンス基盤技術」として進められています。(researchmapについてはこちらから)

融合研究のためのプラットフォーム

researchmapという企画を機構の融合研究として始めた時、最初に私に招待講演を依頼くださったのが「NSF Tokyo Regional Office(米国The National Science Foundationの東京オフィス)」だったんです。ところが講演したところ、みんなホームページを持っているのに何でこういうものが必要なのかといったご意見が多く、全然理解されなかった。ところが程なくオバマ政権になって科学技術政策のための科学という方針が打ち出され、NSFには政策のための科学の大規模プロジェクトが作られました。そのディレクターだったJulia Lane氏が来日したときに、researchmapのデモをご覧になって、これが自分の欲しかったものだとおっしゃったんです。現在でもまだ国全体をカバーする規模の統一的な研究者総覧が出せるresearchmapのようなものを持っているのは、本当に限られた国しかないと言えます。世界に先駆けてこういうものを日本が作ったことは、ぜひ強調しておきたいと思います。

大学のリポジトリを「機械可読」にする

どんな研究があるかを知るには、まず論文データです。多くの大学や研究者は、論文のリストを提出することが重要だと思っていらっしゃる。しかし、それは紙の時代の連想なんです。研究は論文の本数で測るものでもないし、実際関心がある研究者が本文をクリックして、その後に読むなり引用するなりといった一連のアクションが伴わないと、その研究は加速していきません。この意味で、リンクが張られていない「黒い」データはダメだ、と私は言っています。学術プラットフォームは、参照することによって連想が広がるとか、ああ、これが自分が求めていた情報だな、というふうに誘導されていくような「プッシュ型」のデータベースであるべきです。この点、researchmapは現在JSTさんが運用していますから、今後たとえば競争的資金に関するJSTのデータベースとリンクする、といったことが実現できれば、研究者がresearchmapに自分の研究情報を蓄積する大きな動機になるでしょう。

科学技術政策・研究戦略策定のためのデータ基盤

researchmapは、日本が研究とイノベーションを推進する戦略に役立つ基盤データを提供していきたいと考えています。ある科学技術政策を行ってそれが本当によかったのか──たとえば交付金を減らして競争的資金を増やしたらどうなるのか? またこのことによって期限付き雇用の若手研究者が増加していますが、この人材がどこへ行くのか? この雇用を把握することによって、元の政策を評価するといったことです。現在はこのような評価の基になるデータがないんですね。あるいはこのようなデータを大学にフィードバックし、各大学でさらに教務のデータを加えることで、大学の強み・弱みを分析する。今大学が迫られている「体質改善」を、最も望ましいかたちで実現するといったことにも、ぜひresearchmapをご活用いただきたいと思います。その際、人間が見て分析しやすいような情報の可視化技術にも、私たちは取り組んでいきたいと考えています。

進化する「プッシュ型」でいっそう使いやすく。

researchmapはこれまでも背後でデータベースを駆使して、研究者の方が手間をかけずに論文や科研費情報などの業績を入力できるという便利な特徴を備えていました。このような使いごこちの背後にある研究開発を、サブリーダの武田先生、相澤先生との協力体制の下で発展させています。これからは、たとえば共著論文を共著者の一人が入力したら「これはあなたの論文ではないですか?」と通知する機能や、同一人物・同一論文を同定する「名寄せ」などの機能強化を行います。機械が入力したものは薄く、本人が入力したものは濃く表示して入力支援するようなイメージのインターフェースを、来年度ぐらいからご提供できるのではないかと考えています。

ウェブデータはオープンを目指す。

「オープンサイエンスへ向けて、何よりも重要なのは、研究データをどう共有していくかだと思います。しかしながら、データによって共有しようと思っても読めない、機械が情報を取得することができない、といったことはよくあるんですね。このように人にしかわからないビッグデータが大量にあっても、データ利用は進みません。言い換えれば、人工知能は機械可読なビッグデータを待っているということです。ログインしたら、あなたはこういう情報が要るでしょうとか、こういう研究者を欲しているでしょうとかいったことが、人工知能の技術を使って、自然と推薦できる状態になるといいなというふうに思っています。」(researchmapシンポジウムの会場にて)

(文:新井紀子・池谷瑠絵 写真:ERIC 公開日:2015/10/13)