Science Report 034

デジタルな人文、データな社会 04

データサイエンス時代の人文学はどう進む?

現代科学がいま、データサイエンスという大きな潮流の中にいることは間違いない。人文学においても、多様な原資料を電子化し、利活用していく「デジタル・ヒューマニティーズ」などの新しい動きが活発だ。そこで今回は、多数の貴重な古典籍を所蔵する人間文化研究機構 国文学研究資料館(国文研)のロバート キャンベル館長を迎え、現在、情報・システム研究機構 データサイエンス共同利用基盤施設(ROIS-DS)と共同で進められている研究について、ROIS-DS藤山秋佐夫施設長、同・人文学オープンデータ共同利用センター(CODH)の北本朝展センター長とともにご紹介する。

Twitter Facebook
ロバート キャンベル 館⻑(国⽂学研究資料館)

答える人:ロバート キャンベル 館⻑(国⽂学研究資料館)

Robert Campbell。人間文化研究機構 国文学研究資料館 館長。ニューヨーク市⽣まれ。ハーバード⼤学⼤学院東アジア⾔語⽂化学科博⼠課程修了、⽂学博⼠(Ph.D. 1992年)。専門は近世・近代⽇本⽂学。1985年に九州⼤学⽂学部研究⽣として来⽇後、東京⼤学助教授などを経て、2017年より現職。専門分野と関連が深い⽂芸ジャンル、芸術、メディア、思想などに関⼼を持ち、テレビ等への出演も多数。

北本朝展 センター長(データサイエンス共同利用基盤施設、国立情報学研究所)

答える人:北本朝展 センター長(データサイエンス共同利用基盤施設、国立情報学研究所)

きたもと・あさのぶ。情報・システム研究機構データサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター(CODH)センター長、国立情報学研究所教授。東京大学工学系研究科修了、博士(工学)。デジタル・ヒューマニティーズと呼ばれる研究分野を推進し、特に日本古典籍の魅力あるさまざまな画像データ、くずし字データなどを対象に、AIや機械学習を駆使した活用を進める。

藤山秋佐夫 施設長(データサイエンス共同利用基盤施設、国立遺伝学研究所))

答える人:藤山秋佐夫 施設長(データサイエンス共同利用基盤施設、国立遺伝学研究所)

ふじやま・あさお。情報・システム研究機構データサイエンス共同利用基盤施設 施設長、国立遺伝学研究所特任教授。理学博士(名古屋大学)。専門は分子生物学、ゲノム科学。2003年のヒトゲノム解読に参加し、その後チンパンジーの全ゲノム解読等を達成。2016年より施設長として、分野を超えてデータサイエンスのさまざまな分野の研究促進や若手育成に注力。


「データサイエンス」時代の人文学へ向けて

「データサイエンスという言葉、最近よく聞きますね」と言うのは、2016年度に設置されたROIS-DSを担う藤山施設長だ。「でもデータサイエンスという特定の学問分野があるわけではありません。データというのも、絵とか文書とか、あるいは数値であるとか、実にいろんなものが含まれます。データサイエンスとは、そういういろいろな種類の、中でも特に大量のデータを取り扱い、さらに実際の研究者が使えるようにしたり、また社会の人たちが理解できるようにしたりする、そのための考え方だと思っていただければ結構です。そしてそれはやはり統計学や計算機科学といった学問に基づいた、物事の考え方だということです」。

藤山施設長自身の研究のバックグラウンドは、生物学だ。1990年頃からは、歴史的研究プロジェクトとなった国際ヒトゲノム計画にも参加・推進した経歴を持つ。「ヒトのゲノムを文字にすると全部でざっと30億文字あります。これを全部解読して計算機の中に入れ、その情報を解析して皆さんに使ってもらおうというヒトゲノム計画は、2004年に一応の完成を見ました。これをもって、生物学もデータ中心科学の仲間入りをすることができたことになります」と、藤山施設長は言う。「人文学における古文書やくずし字も、古くは偉い先生方が本に埋まるようにして、いろいろ難しいことを考えられていたのですが、データサイエンス時代においては計算機を使うことによって、より広く使ってもらおうという、そういう進め方になってきたと言えるでしょう。ROIS-DSは、さまざまな学問分野におけるデータサイエンスを推進していますが、デジタル・ヒューマニティーズはその一例なのです」。

デジタル化が難しい、日本の古典籍4つの特色

国文学研究資料館(東京都立川市)のロバート キャンベル館長は、近世・近代日本文学の研究者として知られる。まずは館が所蔵する資料等について聞いた。「当館は文学や歴史に特化した図書館で、原資料の閲覧・複写などが行え、多くの研究者にお使いいただいています。当館が所蔵する書籍・書物は江戸時代までに日本列島で制作されたものが中心で、長い歴史の中で巻物、巻子本、袋とじ等、形態がさまざまに推移しており、これらを全部ひっくるめて「古典籍」と呼んでいます。まさに千年以上にわたる古典史の結晶と、言うことができるでしょう」。

キャンベル館長によれば、日本の古典籍にはユニークな特徴がいくつかあるという。「まず絵がとても多い、つまり視覚要素と文字の要素が不可分であることです。次にさまざまな書体があり、漢文、片仮名混じりなど表記体もさまざまである点です。それから歴史上の人々が知識や情報をどのように積み重ねていったのかは大変興味深い問題ですが、江戸時代までの間に人々がさまざまな時代、さまざまな人々の考えを、注記というかたちで1つのテキストに併存・蓄積させることによって知識を作り上げていったことも、古典籍から知ることができます」。

「さらにもう一つ、日本の古典籍では本の大きさ、材質、表紙の模様といった姿形とその内容が相関しているという特徴があります。大きいものほど古典的で価値が高い、小さくなればなるほど、今日的、あるいは応用性の高い情報が盛り込まれていると期待されるということです。──こういった文字の電子変換だけでは回収できない多様な示唆に富んだ資料をどうデータ化していくか、蓄積された情報をどうもれなく整理していくのか、これは大きな挑戦であり、課題になります」。

国文学研究資料館へようこそ!──クリックすると、ロバート キャンベル館長による資料館のご紹介がご覧になれます。

古典籍がデータ公開され、情報学の対象になった

このような課題に対してROIS-DSは、原資料を信憑性のある汎用性の高いデータとして、永続的、持続的に実際に利活用可能なものにしていくという研究開発において「本当に不可欠なパートナー」とキャンベル館長は言う。実際、国文研との共同研究は、ROIS-DSの設置以来継続的に進められ、資料のデジタル化や、くずし字を読むなどのさまざまな成果を生み出している。

ROIS-DSの中でデジタル・ヒューマニティーズを担うCODHの北本センター長は、情報学をバックグラウンドに持つ研究者だ。「実は国文研と共同研究するまでは、おそらく多くの日本人がそうであるように、私も古典籍にはあまり馴染みがなく、遠い世界のものだと思っていました」と振り返る。「現在のような研究が可能になったきっかけは、まず国文研が大量の本をデジタル・データとして公開してくださったことにあります。これによって古典籍は情報学の研究対象となり、情報学的なアイデアを試せるようになりました。しかもAI技術の発展とデータ公開がちょうど重なったため、くずし字認識のような研究成果も生まれ、私にとっても非常に意義深いことでした」。

共同研究は、実際にどのようなかたちで進められているのか、「大きく3つの進め方があります」と、北本センター長は言う「まず国文研で作られたデータを、情報学研究などに使いやすい形式に整備して公開するという方法があります。たとえば、国文研が構築したくずし字のデータセットを、CODHがさらに整理してAI研究者が使いやすい形式に変換し、「日本古典籍くずし字データセット」として公開しています。

「2つ目は、国文学と情報学の研究者が話し合いながら、新しい利活用のアイデアを考えるやり方です。一般の方々にも利用者が多い「江戸料理レシピデータセット」は、実は国文研主催のイベント(アイデアソン)に参加した時に、江戸時代の料理本のレシピを現代の調理法で作ってみるとどうなるか、というアイデアから実現していったものです」。

「3つ目は、情報学の側から新しい技術を提案するという方法です。技術から発想することで、国文学の研究者が気づかないような手法を提案します。たとえば『武鑑』という江戸時代の大名や幕府の役人の名前などを集めた資料があるのですが、コンピュータ・ビジョンの技術を用いて異なる版の本を自動的に比較するというアイデアを試しているところです」。

古典籍のマイニングで、日本文化の遺伝子を突き止める

北本:現在のわれわれの一番大きな目標は、古典籍を全文検索できるようにするということです。日本の古典籍は、1ページずつ読まないと何が書いてあるか分からないのが現状ですので、これを検索可能にすることには最も大きな価値があるのではないでしょうか。さらに将来の目標にはなりますが、人文学に新しい方法を導入することによって、日本の文化の非常にコアな部分を探ってみたいですね。たとえば、キャンベル館長が指摘された日本の古典籍に文字と絵が混ざっているという特徴は、おそらく現代の日本のマンガやアニメにも受け継がれているのだろうと思います。このような日本文化の特徴を、世界にどう伝えていくかも含めて、情報技術がいかに活用できるかを考えていきたいです。

キャンベル:『鬼滅の刃』の源が、実は18世紀の読本であるとか、あるいは黄表紙であるとかといった面白いことが、情報系の方々の投げかけによって生まれるに違いない(笑)と考えています。

それからもう1点、当館ではギャラリーも併設しているのですが、非常に層の厚い文化資源を、さまざまなパートナーと研究以外の用途で利活用いただくという試みも同時進行させています。具体的にはアーティストや翻訳家を招へいして、コラボレーションを通じて利活用いただく「ないじぇる芸術共創ラボ」を4年ほど前から行っています。例えば芥川賞受賞作家の川上弘美さんに通っていただいて『伊勢物語』についていろいろと学んでいただき、これを元にした『三度目の恋』という全く新たな小説の世界が創造されたといった例があります。それぞれの成果を一堂に集めた特別展示〈時の束を披く〉を2月15日から開催する予定です。

藤山:私の研究分野で言うと、ゲノムとは生物の遺伝情報のセットであるわけですが、これらをひとまとめに研究する方法論と考え方を中心としたものが「ゲノミクス(ゲノム科学)」という分野になっています。今のお話を伺っていると、ヒューマニティーズのゲノミクス版としてヒューマノミクスとか、そういう総合的な新しい分野が資料、分析技術、さらに社会へのアウトプットまで含めて発展していけるようなビジョンが見えてきました。

北本:実は私自身も結構ゲノム解析の歴史を参考にしています。ゲノムの世界で起こったのと同じようなことが、これから人文学一般に対しても起こってくる──それがデジタル・ヒューマニティーズという新しい時代の研究方法なのではないかと考えています。(参考:北本朝展「歴史的典籍の検索機能の高度化、そしてスクリプトーム解析に向けて」

キャンベル:日本の古典籍のデータ化を通じて、現代においても脈打つ、まさに日本列島に生きた人々の行動のパターン、世界観、死生観、あるいは市民生活におけるさまざまな人々のチョイスというものが、実は歴史的にさまざまな模様としてあぶり出されてくるということを日々実感しています。

たとえばこの1年というもの、新型コロナウイルスの脅威が世界中を襲っています。日本ではロックダウンを強制的に行うことなく、業界や地域ごとに行動自粛や何らかの行動パターンを要請するという形での対応が進められてきましたが、これ実は、世界的には特異ともいえる取り組み方なんですね。江戸文学専門の者から見ると、江戸時代の幕藩体制の中で、業界や地域ごとにさまざまな統治能力、すなわちガイドラインを当事者の集団(=仲間)へ下ろしていったしくみを、まさに彷彿とさせるわけです。これは自然環境に対しても、地域の人々の働きかけによって維持されてきた「里山」のような例を挙げることができ、古典籍の推移とも、照らし合わせて見ることができます。

このようなさまざまな形で、まさに日本人の心、事柄、あるいは言葉のゲノムというものを、古典籍が持っている──1人ひとりで読んでいたのでは発見できないことを、これから情報学との協働の中で見出していけるのではないかと考えています。今日の鼎談で、非常に勇気をいただいた思いです。

藤山:やはり歴史的にも、文書を収集するというのは文化の根源だと考えますし、これに最新の情報技術を適用して研究が進められ、さらに社会に向けて発信されているということに、今日は改めて感銘を受けました。日本(人)文化論といったさらに大きな議論に発展していけばいいなという思いが、共有化できたこともたいへん有意義でした。

※本インタビューと対談は、オンラインで行われました。
(聞き手:池谷瑠絵 公開日:2021/01/12)

大学共同利用機関法人 情報・システム研究機構
〒105-0001 東京都港区虎ノ門4丁目3番13号ヒューリック神谷町ビル2階
TEL:03-6402-6200 FAX:03-3431-3070 E-mail:webmaster_sr@rois.ac.jp
Copyright © Inter-University Research Institute Corporation Research Organization of Information and Systems(ROIS). All rights reserved.