ウェブデータはオープンを目指す。

ウェブ以前から人間の持つ知識に注目し、人類の巨大な知識をいかに機械が使えるようにするかに取り組んできた武田英明教授(国立情報学研究所)。まだ人々を惹きつけることはなかった1990年代前半のウェブに大きな衝撃を受けて「未来の知識はここにある」と、人工知能(AI)の研究からウェブによる知識獲得へ、いち早くテーマを移したといいます。約6年前に「学術世界の情報共有を進歩させよう」という新井紀子教授(国立情報学研究所)の講演に賛同し、セマンティックウェブと呼ばれる技術を利用した学術情報流通基盤構築を提案したのが、リサーチコモンズ「e-サイエンス基盤技術」プロジェクトへの参加のきっかけでした。

人工知能は可読なビッグデータを待っている。

人間の知識へ、工学的なアプローチで近づきたい

AIの分野は今、第3次ブームを迎えていますが、機械が学習するためにはやはりその前提として知識が必要です。ところで知識とは何でしょうか?……仮にブリタニカ百科事典を人類の知識源の代表例とすれば、近所のレストラン情報や列車の運行表のような身近な知識もありますね。そもそも情報を集めようがなかった時代には、そんな世界の隅々にわたる些末な事柄まで知り得るとは誰も考えなかった。ちなみに近年話題になっているIBMの人工知能ワトソンも、まさに巨大な知識ベースという昔からの夢を実現したものだと言えるでしょう。しかし今や、ある種の哲学的な知識よりも、むしろ生活の中にある些末な知識のほうが重要だろうと私は考えています。ブログやSNSなどを含めたこのような知識に対して、工学的なアプローチで近づきたいというのが、私の研究です。

ブレークスルーとなった「DBペディア」

ではこのようなウェブ上の知識がどういう形式で記述されていれば、機械と人がともに利活用できるのでしょうか? そこで、ウェブの生みの親であるティム・バーナーズ=リーが提唱したのが、ネット上の情報を再利用可な意味ネットワークにするための技術「セマンティックウェブ」でした。これは主語・述語・目的語からなるシンプルな構造化言語「RDF(Resource Description Framework)」を標準言語とし、この言語によって書かれたデータは「LOD(Linked Open Data)」と呼ばれます。その名の通り、ネット上に「オープン」に置かれ、他のデータと「つながる」ことができるのがLODの大きな特徴です。たとえば「来月10日東京で行われるイベント」といった文に含まれる「いつ」「どこで」「何を」などの意味を機械が理解し、「来月のイベント情報」といった他のデータベースともスムーズにつなぐことができるわけです。ウェブがこの新しい記述方法へ移行するひとつの契機が、ウィキペディアのRDFデータである「DBpedia」だったと言えるでしょう。いったん機械が理解できるデータが作られれば、人手を介さずRDFで知識を出力できるため、たとえばウィキペディアの知識を自社のデータベース上でシームレスに活用するといったことが簡単に行えます。実は、すでに人間が持つほぼ全部の知識がウィキペディアにあると言われており、人類の知識をいかに集めるかという問題には、すでに答えが出ているのです。

つながるデータを作るLODACプロジェクト

とはいえLODは、ウェブ全体のデータ量からみると1%にも満たないと言われています。そこでわれわれの目的である学術情報の共有を実現するためには、われわれの知識を共有するしくみを準備しなければなりません。そこでまずDBペディアの日本語版「DBpedia Japanese」を、プロジェクトの中で運用しています。たとえばスポーツのカテゴリーに「相撲」がなかったのを加えるというようにオントロジーの拡充を図ったり、検索などで入力される文字列とウィキペディアの項目をつなぐ「エンティティ・リンキング」を構築して、利便性を向上させたりしています。また日本の美術館・博物館100館以上の収蔵作品情報を集めて、LODによるデータベースも作りました。専門家による同一作者の特定を行うなどして、串刺し検索等ができる「LODAC Museum」というサイトを運用しています。さらに生物の分野でも、分子生物学・生態学といった領域の違い、植物・動物・微生物という対象の違いなどによってばらばらの状態に置かれていたデータベースの統合を行いました。この際、苦労したのは種の名称で、新しい科学的発見によって学名が変更になること等がわかったため、知識の変化を書くオントロジーを作って学名の変遷がたどれるようなウェブサイト「LODAC Species」を公開しました。また日本特有の和名という問題も、世界の情報とつないで最大の生物和名データベースを構築して同サイト上で提供しています。

オープンでつながる科学データのこれから

研究データを作って、論文は投稿したけれども、その後データは共有されないままになっている……それじゃ駄目なんだ、と今、学術の"文化"が変わろうとしています。実はこれ、生物学に限らず科学全般に拡がる問題であって、データ標準であるLODを使って、研究データを将来にわたって使えるように公開することの重要性は、世界的にも広く認識され、研究データのオープン化を加速しています。ちなみに当リサーチコモンズのDBCLSの取り組みも、同じ方向にあると言えるでしょう。また個々の論文や研究者をウェブ上で一意に認識できるようにするための識別子として、データの置き場所が変わると変わってしまう「URI」に代わって、「DOI」を付与しようという活動も始まっています。さらに論文そのものも──ひょっとするとすでに大半の論文が、文章を書くのではなく、データを構造的な情報として提示すればよいのかも知れません。実際、多くの学術分野で日々生まれる論文を人間が読み切れないため、いかに適切な論文を探すかという課題が生じています。LODデータであれば、誰もが、より欲しい情報に的確にアクセスできるようになる──それはみんなにとってよいことだと言えるでしょうね。

DBCLSの取り組み

ソーシャルメディアのデータ等を調べていると、知識がどのように出来てくるかというところに、すごく興味を引かれますね。その中には、後世ずっと残っていくような知識もきっと含まれている……。現実の知識を扱う研究としては、あまり大きな仮説よりも、むしろ今、目の前にある知識、情報なり、データなりをしっかり見るのが重要だと思っています」。研究のかたわら、DOI識別子の登録機関「ジャパンリンクセンター(JaLC)」の委員長、また学術論文の著者IDを統合的に管理しようというプロジェクト「ORCiD」の理事も務める。

(文:武田英明・池谷瑠絵 写真:ERIC 公開日:2015/12/10)