はじめに―ゲノム配列解読からゲノム言語モデル
1953年に,ワトソンとクリックによって,DNA二重鎖こそが遺伝物質の本体であると説明されて以降,DNA二重鎖に遺伝情報がどのように書き込まれているのかというゲノム文法を解明することが生物学の中心的な課題となってきた.実際に,アミノ酸コドン暗号,エキソン・イントロン法則,プロモーター領域など,多くの特徴が広範な生物種をまたいで発見されている.他方で,人間が目視してわかるような範囲を超えた遠位の遺伝子発現制御エレメントなどは,いくつかの偶然によって実験的に見出されたもの以外は,いまだよく理解されていない.染色体のGバンド構造,未知の染色体組換え制御モチーフ,核内染色体配置を決めるエレメントなどのゲノム特徴も,十分にはわかっていない.これらを解き明かそうとしたときの1つの大きな困難は,ゲノムDNA配列が,一見すると単調なDNA塩基のつながった文字列とみなせるが,文字列としてはあまりにも冗長であり,句読点もなく,人間の目視や限られた計算機的手段では,一貫した読み解きができないことである.
前世紀のヒトゲノム解読プロジェクトに用いられたサンガー法による平均的な読み取り鎖長〔数百塩基対(bp)〕のヒトゲノム断片の配列情報を与えられて,目視した場合,比較的簡単に,200~300 bpの特徴的な配列に気がつく.比較的GC含量が高く3′側にポリAをもつもので,1出力配列中に複数個が見つかることもある.ヒトゲノムで最も数の多いリピート配列であり,全体の10%ほどを占めるAlu配列である.しかし,Alu配列は見つけられても,同様にヒトゲノムで優勢なLINE配列を見つけられる人はほとんどいないだろう.それは,全長が約6 kbと長く,1回のサンガー法での読み取り鎖長を超えている.アセンブリされた比較的長いゲノムDNA配列を与えられ,そこにLINE配列が含まれていても,そのゲノムDNA配列をはじめから目視で読み進め,それらしい特徴を探し出すことは,単純な作業であるのに,不可能なほど退屈で非常な労力を伴う.ヒトゲノム配列の場合は,これが30億もの塩基対に及ぶ.もちろん,前世紀のヒトゲノム解読プロジェクトの進捗と歩調を合わせるように計算機性能の向上があり,単調・単純だが膨大な作業というものを得意とするところではあるが,一方で計算機は人間が行うような些細で複雑な特徴の発見はあまり得意ではない.これが,生物のゲノムDNA配列に含まれるゲノム文法の理解を拒んできた主要因と言えるだろう.長大で単調なゲノムDNA配列であっても,強力な計算機がやるように複数の生物種をまたいで読み通し,かつ訓練された人間が行うように何らかの特徴を文脈依存で見出して,何万~何百万塩基という離れた位置との関係を探り出せるしくみが求められてきたゆえんである.
本特集のテーマとなっているゲノム言語モデルは,一定の精度でそれを可能にすると期待されている.これは,昨今,Google GeminiやChatGPTなど,膨大な規模で行われてきた自然言語での大規模言語モデル構築のアナロジーであり,一定の相同性(つまりアライメント可能性)を利用できるタンパク質で先行して成功を収めてきた枠組みである(鈴木の稿).最新のゲノム言語モデルであるEvo2は,DNAを言語として用いた大規模言語モデル構築のためのアーキテクチャー(StripedHyena2)を遠位の非アミノ酸コード領域にまでアライメントフリーで拡張することを可能にし,事実上,リファレンスグレードゲノムの得られているすべての生物種のゲノムを1塩基解像度での事前訓練が行われるまでになっている(東の稿)1).私たちは,膨大な生物種の膨大なゲノムDNA配列をまたいでゲノム文法を文脈依存で強力に探索し,柔軟に解釈する枠組みを,いまだ完全なものとは言えないにしても,はじめて手にしたといえるだろう.
科学研究のための大規模言語モデル(AI for Science:AI4S)
Transformerアーキテクチャーの発表以来,自然言語分野では,インターネット上の膨大な文章を自己教師データとした大規模言語モデルが次々とつくられるようになっている.特に,事前訓練に用いるデータ量や構築されたモデルのパラメータ数が多いほど,大規模言語モデルの性能が向上するスケーリング則の成立が予想され2),データとモデルは,それらを利用する計算機インフラ(GPUクラスタ)とともに,大規模化の一途をたどっている.この大規模言語モデルの急速な大型化によって,ついには事前訓練に用いられるデータの枯渇問題が指摘されるまでになっている(図1)3).オンライン上で入手できるようなデータは向こう数年で枯渇してしまい,大規模言語モデルの性能はそれ以上の向上が見込めない状態に陥るのではないかと危惧されている.打開のための,1つの方向性は,一般には流通していない科学データの活用である.大規模な科学データで事前訓練された大規模言語モデルは基盤モデル(foundation model)として機能し(図2),各研究者は,自身の手持ちのデータに関して転移学習※などのテクニックによって最適化されたモデルを利用できるようになると期待される4).
世界で利用されている大規模言語モデルはオンライン上の大量の文章で事前訓練されているが,大規模言語モデルの大型化のスピードは,この文章量の増加を上回っており,2030年ごろには訓練に使えるデータが枯渇してこれ以上の性能向上が見込めなくなるとされる.*:1トークンにつきおおよそ0.8語.**:Technology Innovation Institute, Abu Dhabi(アブダビ技術革新研究所).(文献3より引用)
人工知能の研究開発は,機械学習アルゴリズムの開発から深層学習アーキテクチャーの開発,そして,大量のデータを学習した基盤モデルの構築へと進んでいる.基盤モデルは,大規模言語モデルの枠組みで,幅広い膨大なデータを学習しており,高い汎用性を有している.(文献4をもとに作成)
※ 転移学習
事前に訓練されたモデルを,小規模の別データで継続して訓練あるいはファインチューニングして,目的とするタスクで利用する機械学習の手法.
実際に,現在,理化学研究所では,全所横断的にTRIP(Transformative Research Innovation Platform)構想とよばれるAI for Science(AI4S)のプロジェクトが進められている5).その中心となるAGIS(Advanced General Intelligence for Science)プログラム(泰地真弘人プログラムディレクター)では,理研が蓄積してきた,あるいは今後生産していく膨大な科学データと理研の保有する豊富な計算機資源を活用して科学研究基盤モデルを構築し,それを起点として,仮説生成~実験検証~結果解釈というフィードバックサイクルを自動で回すことで,科学研究・科学発見を効率的に加速しようという構想を描いている.この構想において,ライフサイエンス分野では,ゲノム言語モデルは中心的な基盤モデルの1つと位置付けることができるだろう.
例えば,人間がこれまで知ることのできなかったゲノム文法は,他の基盤モデルとの併用による多段階推論を通して,これまで解釈を拒んでいたヒト疾患関連バリアントの解釈可能性を高め,より有効な機能的検証を導き,さまざまな応用へと道を開く可能性を秘めている(中根の稿).他方で,Evo 2のようなゲノム言語モデルは,膨大な進化的訓練データセットをまたいで学習された配列の尤度(近似的に適応度と見做せる)を出力する(小針・高山の稿,松崎・成田の稿).これは,がんゲノム医療などでのVUS(variant of uncertain significance)の機能的重要性評価を可能にする興味深い枠組みとなる可能性を秘めている.このような予測・推論の用途だけではなく,ゲノム文法と表現型の関係の強固な理解が得られれば,言語モデルに付随する生成能力は,例えば農業分野で有益な遺伝子配列の新たな創造も十分に可能にするだろう(渥美の稿,赤木の稿)(概念図).
データベース中の多数の生物種のリファレンスゲノム配列を用いてゲノム言語モデルが事前訓練される.アライメントフリーで,1塩基トークンで,長いコンテキスト長が用いられる.その結果,生物種をまたぐ強い保存性に基づくゲノム文法が学習されていると期待される.このゲノム言語モデルの出力である尤度は,入力塩基バリアントの文脈依存での適応度と見做せる(ゼロショットでの有害性予測となっている言語).ゲノム文法はゲノム言語モデルに埋め込まれた特徴を解析することで抽出できる.そのような特徴をさらに別の機械学習手法に接続することで,高精度のバリアント効果予測なども可能になる.Evoシリーズでは,DNA配列中の左から右方向への自己回帰型言語モデリングが行われているため,与えられた文章の一部に続く文章部分を生成することを得意とし,さまざまな応用につながると期待されている.
米国でのAI4S:Genesis Mission
米国でもAI4Sの構想として,2025年11月24日に,トランプ大統領によって「Genesis Mission」が発令されている6).この大統領令は,科学的発見や技術革新が,これまで米国の繁栄の牽引役であったと位置付け,今後,現在のフロンティア領域であるAI分野で米国が技術的競争を制することを目的としている.米国政府が公表したファクトシートによれば,米国エネルギー省が中心となって,官民のパートナーシップで,世界最大規模の計算能力とデータセットを有したAIプラットフォーム「米国科学安全保障プラットフォーム(American Science and Security Platform)」を構築して活用することで,アドバンスド・マニュファクチャリング,バイオテクノロジー,材料科学,核融合エネルギー,量子情報科学,半導体・マイクロエレクトロニクスの6分野を含む最先端科学研究について生産性向上を図るという.米国の世界最高水準の科学データと最先端AI技術を組み合わせ,医学,エネルギー,材料科学などの分野で超大規模な基盤モデルやAIエージェントを構築することで画期的な成果を迅速に生み出すきっかけになると説明されている.このミッションを支えるための計算機インフラとしては,米国アルゴンヌ国立研究所に,10万基以上のNVIDIA Blackwell GPUを搭載するスーパーコンピューターが配備されており,これは,日本国内で現在利用可能なGPUの数十倍の規模である.このような強力な計算機能力を背景に,ライフサイエンス分野で中心的な基盤モデルとなるゲノム言語モデルも迅速に刷新されていくだろう.
今後の方向性
AI4Sでの科学データの活用について,日本での1つの重要な方向性は,レガシーデータの発掘と利用である.例えば,わが国の農業分野では,電子化されてAI4Sに利用可能になっているデータは,粗く見積もって過去30年分ほどにとどまっており,日本の近代化以降蓄積されてきたデータは,その3~4倍の年数分が大部分は電子化もされずに埋もれている状況となっている.農業分野にとどまらず,医学医療分野でも同様の状況がみられる.いくつかの病院では,歴史的価値からもそのような診療録データを厳重かつ慎重に保管している場合もあるが,実際には,その大部分は紙媒体のままであり,旧字体を含むものや,一部は墨書のものも多く残されている.このような貴重なレガシーデータは,多くの官民機関で存在が確認され,しばしば現代の研究にも活用されている.しかしながら,このような貴重なレガシーデータは,保管コストの問題もあって消失の危険もある.このようなわが国の宝ともいうべきレガシーデータの消失や流出・散逸を防ぐことは,科学研究における安全保障の観点からも重要であると思われる.少なくとも農業分野や医学医療分野でのレガシーデータと紐づく形で,記録当時の生体試料が保存されていることもある.農業分野であれば保管種苗が残されていることは多く,医学医療分野でも病理組織標本などが保管されている例も少数ながら存在する.もちろんそれらのレガシーデータや生体試料の利用には倫理的な課題が予想されるが,利用が可能になれば,ゲノム言語モデルを中心としたAI4Sの推進に貴重な情報となりえるだろう.
おわりに
大規模言語モデルは,オンライン上の一般的な文章知識だけではなく,多くの科学的知識の学習に向かおうとしている.ライフサイエンス分野では,ゲノム言語モデルが,その中心的な位置を占めることになるだろう.一方で,Evo2のような先進的なゲノム言語モデルでは,いまだ,強い種間配列保存性に基づいて,幅広い生物種に共通する,限られたゲノム文法(広く浅い)の学習にとどまっているように見受けられる.実際に,膨大な生物種で事前訓練されたEvo2よりも,少数の植物種ゲノムで事前訓練されたPlantCAD/PlantCAD2は,植物特異的なタスクではしばしば高性能であることが知られている(狭く深い).Evo2は勇敢なファーストペンギンとして,きわめて重要な開発であることは間違いないが,今後,新規アーキテクチャーの開発はもとより,事前訓練に用いる生物種包含のスコープの問題,また,種内多様性をも標的とすること,それらの複数のゲノム言語モデルの効率のよい統合などが,研究の重要な方向性となるだろう.理化学研究所TRIP-AGISのわれわれのテーマチームでも,このような方向性でのゲノム言語モデル開発とその適用を活発に進めている.また,国立情報学研究所においても,国立遺伝学研究所とともに,「バイオ生成AI研究開発センター」を設立し,生成AIとしてのゲノム言語モデルを活用した今後の新しい研究展開を開始している7).
文献
1) Brixi G, et al:bioRxiv, doi:10.1101/2025.02.18.638918(2025)
2) Kaplan J, et al:arXiv, doi:10.48550/arXiv.2001.08361(2020)
3) Jones N:Nature, 636:290-292, doi:10.1038/d41586-024-03990-2(2024)
4) Bommasani R, et al:arXiv, doi:10.48550/arXiv.2108.07258(2022)
5) RIKEN TRIP:理化学研究所TRIP事業本部. https://trip.riken.jp/
6) The White House:LAUNCHING THE GENESIS MISSION. https://www.whitehouse.gov/presidential-actions/2025/11/launching-the-genesis-mission/(2026年1月閲覧)
7) 国立情報学研究所バイオ生成AI研究開発センター:https://ds.rois.ac.jp/center10/(2026年1月閲覧)
8) The MHC sequencing consortium, et al:Nature, 401:921-923, doi:10.1038/44853(1999)
9) Takayama J, et al:Nat Commun, 12:226, doi:10.1038/s41467-020-20146-8(2021)
田宮 元:名古屋大学大学院在学中から東海大学医学部へと国内留学し,ヒトMHC領域のゲノム解読プロジェクトに従事する.1998年理学博士取得後,産業技術総合研究所,徳島大学にて疾患遺伝子同定研究に従事する.その後,山形大学を経て,東北大学(医学系研究科AIフロンティア新医療創生分野教授)にて,ゲノムコホート・バイオバンク事業に従事する.2017年より理化学研究所革新知能統合研究センターにてチームディレクターを併任.’24年より理化学研究所TRIP-AGIS事業に参加.
ゲノム研究の昔と今とゲノム言語モデル
筆者はかつて,東海大学医学部の猪子英俊教授(故)のもとで行われていたヒトMHC領域のゲノム解読プロジェクトに参加した8).シークエンサーが吐き出す大量のゲノム配列のアセンブリ,エディティングやアノテーション情報解析や統計解析という膨大な作業を通して,ゲノム配列の単調性や冗長性を,身をもって学べた.その後,ポストゲノム研究として,構造遺伝子の機能解析や疾患関連遺伝子同定を通して,ゲノム配列に含まれる情報の複雑性や解釈困難性と苦闘してきた.次世代シークエンシング技術の到来以降は,新規の日本人リファレンスゲノムを構築する機会を得た9).現在は,人工知能技術を膨大なゲノムバイオバンク情報へと適用している.このような経緯のうえで,ゲノム配列の究極の研究法の1つともいえるゲノム言語モデルの進展に立ち会えていることを幸運にも感じている.本特集では,米国のJD・ワトソン博士(故)とともに日本でのゲノム解読研究を育成してくださった松原謙一先生からもお話を伺うことができた(詳細は478ページ).日本でのあの当時のヒトゲノム解読研究と多くの先達たちのたゆまぬ努力があったからこそ,現在,ゲノム言語モデル研究を活発に進められるのだと思うと感慨深い.どんどんエキサイティングになっていくゲノム研究の大きな流れに参加し続けられていることに感謝したい.(田宮 元)












