ゲノム×統計学のNEXT STEP。

2016年3月、3年間のリサーチコモンズ事業が終了します。そのプロジェクトのひとつである「遺伝機能システム」は、しかし、当機構設立以来の融合研究を継承し、併せて約10年にわたって発展してきました。そこで去る1月25日、その成果を報告する研究集会「遺伝学と統計学における数理とモデリング」が、東京・六本木にある政策研究大学院大学にて開催されました。ゲノムを中心とした遺伝学のデータを解析する統計学にとって、「遺伝機能システム」はどんなプロジェクトであり、今後どんな展開へとつながっていくのか──研究集会の開催について、開催責任者でもある統計数理研究所の栗木哲教授・藤澤洋徳教授がご紹介します。

いま注目の「セレクティブ・インファレンス」

今回の研究集会はプロジェクトのまとめの報告会として開催するもので、プロジェクトに関わってきた仲間がこれまでに培ってきた統計的手法を、ゲノム解析に関わるコミュニティに紹介しようという趣旨です。そしてこの他にもうひとつ、この機会を活用して、この分野に関わる別の新しい動向をご紹介いただこうと、プロジェクト外の研究者にも声をかけました。招待講演のテーマは、機械学習の中の新しい潮流である「セレクティブ・インファレンス」です。私がかねてから専門としていた多重検定という統計的手法が別の文脈で展開され、しかも近年、非常に発展していると聞き、たいへん楽しみにしてきました。(栗木、下写真)

セレクティブ・インファレンスについては、われわれ統計の立場から見て、機械学習がここまでやるのか、という驚きがありました。というのは、データマイニングのように、データからの発見という志向を持つ機械学習に対して、統計は得られた結果に本当に再現性があるのかという、方法が担うことができる信頼性をとても重視するからです。そして多重検定とは、実はこのような統計の性質をとても色濃く持つ手法のひとつなのです。(藤澤)

生命の多様さとゲノムをいかにつなぐか?

数学が「難しすぎる」と「簡単過ぎる」の狭間で

融合研究を始めた10年前は、新しい研究者ネットワークが急に目の前に開け、すごく刺激的でした。この人たちは何を知っているんだろうと、お互いに触手を伸ばし合ったし、私もゲノムに接して、なんというデータの宝庫だろうと魅力を感じました。一方、最近ではみんなすっかり顔なじみになって、論文の投稿やレフリーへの回答等に関する細かな相談を受けることが多いですね。(栗木)

研究自体は面白いのですが、一番困ったのは、論文が通りにくいことでした。既存の研究分野には、それに対応した科学雑誌があるので、ある程度こういうものを書けば通るという暗黙の理解があります。ところが新しい研究には専門のジャーナルがないし、しかも融合研究ではたとえば遺伝系の雑誌に出せば数学が難し過ぎると言われ、統計の雑誌に出すと数学が簡単過ぎると言われます(笑)。ちょうど中間にあたるバイオインフォマティクス系の雑誌にも投稿しましたが、それでも苦労しました。(藤澤、下写真)

生殖隔離を起こすイネ遺伝子型の多重検定

本プロジェクトで私と藤澤教授、倉田のり教授(国立遺伝学研究所)、春島嘉章融合プロジェクト研究員とが行った解析のひとつに、イネの遺伝子型を大量に集めたデータの多重検定問題があります。イネの染色体は全部で12本あり、そのうちのある特定の場所の遺伝子とまた別の特定の遺伝子の組み合わせによって、なかなか生き残らないイネがあることが知られています。純粋種を掛け合わせて樹立された系統を考え、このような個体が減数分裂の段階で「交差」したりするような現象を含めてモデリングしていくと、ある染色体とある染色体の組み合わせの個体数というものが計算できます。ところが実際に実験を行うと「ずれ」がある──これが、遺伝子が不適合な場合に生殖隔離を起こすという有名な「ドブジャンスキー・ミュラー(Dobzhansky-Muller)モデル」で、この原因遺伝子を特定することが遺伝学的に重要だというのが、そもそもの問題でした。そこで私たちはチューブ法を用いて、1,000個掛ける1,000個の遺伝子型の組み合わせで理論値と実測値を比較する、全55万個の検定を行いました。それぞれの組み合わせのピークを算出し、それが有意なピークであるかどうかの判定に関する論文を発表しました。(栗木)

統計学者に、もっと刺激を!

ゲノムデータは、非常に巨大であり、それまでの統計的手法では対応しにくいことも多く、また統計学に大きな意識の変化を要求しました。このことは私自身がこれまで関心を持ってきた、データの中心から著しく外れているため通常は除外する「外れ値」と、観測データの欠損である「欠測値」についても同様でした。テクノロジーが進化すれば精度が上がり「外れ値」はあまり出て来なくなるだろうと思っていたのですが、新しいものこそ不安定な部分を持っており、むしろ外れ値は増えることも多いのです。するとやはり自動化したり、新しい統計的手法をつくり出そうとモチベーションが湧いてきます。それからプロジェクトを通じて、欠けのある生々しい科学データに接したことも、大きな動機づけになりました。このような刺激こそ、新しい研究の源ではないでしょうか。(藤澤)

写真左から城石俊彦副所長、高田豊行助教、プロジェクトディレクターの倉田のり教授(以上、国立遺伝学研究所)、土谷隆教授(政策研究大学院大学、共同開催責任者)、栗木哲教授、藤澤洋徳教授(以上、統計数理研究所)。

(文:栗木哲・藤澤洋徳・池谷瑠絵 写真:北岡稔章 公開日:2016/03/10)