データサイエンスで病原体の変異と感染症の流行を予測する。機構シンポジウムを振り返って
新型コロナウイルスは中国湖北省武漢市における原因不明肺炎として報告されて以来、未だ感染力が衰えることなく収束の兆しが見えていない。ワクチン接種による集団免疫対策が進む一方で、遺伝子変異によるウイルスの変化が、ワクチンの有効性評価や対策方針の決定を困難にするなど課題が生じている。こうした課題解決に向けて、データサイエンスによる研究活動は、どのように立ち向かっているのだろうか。——シンポジウム「不確実な未来へ:地球規模課題に挑むデータサイエンス」では、北海道大学人獣共通感染症国際共同研究所の伊藤公人教授に、「データサイエンスで病原体の変異と感染症の流行を予測する」というタイトルで講演を行っていただき、後日改めてお話を伺った。(講演/取材は、デルタ株・オミクロン株が流行する21年12月~22年2月に行われた)
答える人:伊藤 公人 教授(北海道大学)
いとう・きみひと。北海道大学 教授。1990年より北海道大学大学院工学研究科において、データの中の規則性を発見する技術の研究に従事。1999年から北海道大学知識メディアラボラトリーにおいて、ウェブ上のデータやツールの連携手法の研究に従事。2005年より北海道大学人獣共通感染症リサーチセンター(現北海道大学人獣共通感染症国際共同研究所)においてウイルスの変異と流行の予測の研究に従事し、現在に至る。
デルタ株の感染力と流行を正確に予測
感染爆発を起こす新型コロナウイルスは、人から人へと伝播し、頻繁に増殖するうちに遺伝子情報を変化させ、多様な変異株を生み出している。この遺伝子変異がウイルスの病原性や感染性に変化を与え、流行の見通しを困難にする一面がある。伊藤教授は、「変異株がどれほど増え、どのように流行が拡がるのか、客観的なデータを駆使して調査研究を進めています」と話す。どのようなロジックで取り組んでいるのだろう。「簡単に言えば、過去のある時点で従来株の感染者が99人、変異株の感染者が1人であったとします。それが98人対2人というように徐々に変異株が優性となっていく。これらの疫学データが集まってくると、変異株は従来株に対して、何倍の感染力を持つのかが分かるようになります。その結果をもとに未来予測を行うと、いつの時点で変異株が半数を超え、さらにいつ置き換わるのかが分かります。計算は単純で難しいものではありません」と伊藤教授。しかし、扱うデータは膨大かつ多様だ。それらを的確に集め解析することで、伊藤教授らは世界に先駆けた研究成果の発表を続けている。「新型コロナウイルスのデルタ株は、従来株より1.95倍感染力が高いことが世界的に示されていますが、この数値は私たちの研究で得られたものです。この結果をもとに、東京オリンピックが開幕する2021年7月末には、デルタ株の割合が半数を超えるということを予測し、実際にその通りの流行が起こりました」と伊藤教授が話すように、その評価や予測は世界的に信頼を得るものとなっている。
このような迅速かつ正確な予測は、どのようにして可能となったのだろう。その背景を伊藤教授は次のように説明する。「世界のどこかで変異株が確認され、その情報がデータベースにアップロードされると、それらを自動的にサンプリングし、進化系統樹に示すウェブサイトがあります。以前のように、それぞれの国が個別に状況を調査し、ウイルスの進化系統樹を描き出して、流行の動きを計算するということは殆どなくなってきました。誰もが常に最新のデータを得られる基盤が整っています。私たちは、デンマークのデータ使って研究を行っていますが、デンマークでは全データベースが公開されています」ビッグデータのオープン化が進むことで情報の取得が容易になったことも、研究の後押しとなっているという。
膨大なデータから「正確性」を見つけ出す
新型コロナウイルスの流行予測には、800万件を超える遺伝子変異株のビッグデータ(GISAID/22年2月現在)とさまざまな疫学データ、加えて解析手法となる数式(数理モデル)を適切に組み合わせることも重要となる。伊藤教授は、「人から人へ、直接感染を広げる感染症の流行の動きを捉えたSIRモデルをベースに用いています。これに、感染症の広がりを表す再生方程式と、進化生物学で用いられ、生物の淘汰を定量的に表す適応モデルを組み合わせます。これにより、変異株の相対的な実効再生産数を推定することができると分かりました。変異株への置き換わりを正確に予測できるようになったのです」と説明する。
また、こうして導き出された流行予測には、次のような側面もあるという。「冒頭でもお話しましたが、導き出された予測が外れることはありません。なぜなら、不確実な事象は数式で表せませんし、数式化できる確実な事象だけを取り扱うことになるからです。いろいろな要素が絡み合う感染症の流行は不確実な点も多いですが、変異株への置き換わりは確実に起こります。そうした確実性や規則性に着目して解析していきます。一見すると不確実に見える情報の中から、確実に変わっていくものを抽出し、予測を組み立ているということです」と伊藤教授。曖昧さや多様性をはらむ膨大な情報の中から、規則性を持って確実に変化する情報を見極め、モデル化することがキーワードだという。伊藤教授はさらに、「こうした数理モデルとそこから導き出された予測は、後から見ると当たり前の結果と思えるものもあります。しかし、その時点では誰も分からないところ、思い付かないところに確実性を見つけ出し、予測に導いていると自負しています」と続ける。
データサイエンスを専門とする伊藤教授が、ウイルスの遺伝子変異とその流行に着目し、予測モデルの構築を研究するに至った経緯についても伺った。伊藤教授は、「もともとはデータから規則を見つける理論的な研究と、ウェブ上にあふれるさまざまなデータベースやツールを連携するプログラムの開発を行っていました。コンピューターの発展と同時に、分子生物学分野である遺伝子データベースの作成が盛んに行われるようになり、生物学分野と情報学分野が重なった学際領域であるバイオインフォマティクスと呼ばれる分野が脚光を浴びるようになりました。私の開発していたウェブ上のツール同士を連携するアプリケーションが、最も活かされる分野だと感じました」と振り返る。伊藤教授が現在所属する人獣共通感染症国際共同研究所は、医学、獣医学、薬学、理学、そして情報科学を基盤とする研究者が協働し、人獣共通感染症をはじめとする新興感染症の研究と教育を担う拠点でもある。「ウイルスや疫学データを研究する研究者と協働する機会が多い環境です。データサイエンスにとどまらず、遺伝子や疫学について理解した上でデータを見ることにより、確実性や規則性が見えやすくなります」と伊藤教授。分野横断的な研究環境も強みとなっているという。
感染症から身を守るための武器
新型コロナウイルスは、デルタ株からオミクロン株へと置き換わりが進みながら、いまだ収束の兆しを見せない。変異株の遺伝子データや疫学データが次々と更新される中、伊藤教授らの先を見通す予測研究も休む暇がない。研究の進捗について伊藤教授は、「オミクロン株の中でも、感染力が強いとされるBA.2株が知られるようになりました。同じオミクロン株のBA.1株より、実効再生産数が18%高いという分析結果が得られています。このBA.2株が国内に入ってきた場合、どのような流行を見せるのかについても、検討していかなければなりません」と説明し、次のように続ける。「オミクロン株が最後となり収束すれば良いのですが、また新しい変異株が出てくる可能性もあります。ビックデータの中に、新しい変異株の出現がないかモニタリングし続けるとともに、いつでも新しい変異株に対応できるように研究体制を整えているのが現状です」
医療技術の進歩が著しい昨今。感染症は撲滅されるどころか、SARS(重症急性呼吸器症候群)や鳥インフルエンザなど、近年新たに確認され、公衆衛生上の問題となる新興感染症の出現も増加している。移動手段の多様化が、こうした感染症を世界規模に拡大するリスクを生んでいる。データサイエンスの果たす役割も重要性を増していきそうだ。伊藤教授は最後に、データサイエンスへの期待と課題をこのように締めくくった。「多様なデータがあれば何らかの解析は可能です。しかし、解析結果の持つ意味や、どのように役立つのかが結びつかないことも多いものです。私たちデータサイエンスに取り組む者は、何が知りたいのか、どのように役立つのかという目的を明確にし、今何が求められているのか、見極めて取り組む姿勢を持つことが重要と考えています」
※本インタビューは、オンラインで行われました。
(聞き手:ノンフィクションライター 西岡真由美 公開日:2022/03/29)