スマホで読める実験医学
550円

超長距離文脈を扱うゲノム言語モデル

Genome language models for ultra-long contexts
10.18958/7915-00001-0006265-00
東 光一
Koichi Higashi:国立遺伝学研究所/情報・システム研究機構バイオ生成AI研究開発センター

近年,自然言語処理分野での大規模言語モデル(LLM)の成功を受け,ゲノム配列を言語として学習する「ゲノム言語モデル(gLM)」の開発が急速に進展している.初期のモデルは配列の分類や特徴抽出を主眼としていたが,最新のモデルはDNA配列の確率分布そのものを学習する「生成モデル」へと進化を遂げた.特に,100万塩基という長大な文脈を扱える新規アーキテクチャを採用した「Evo2」の登場は,高等生物の複雑な遺伝子制御のモデリングをも射程に捉えつつある.本稿では,gLMの進化の歴史,Evoシリーズの革新性,そして応用可能性について解説する.

ゲノム言語モデル,自己回帰モデル,Evo,StripedHyena2,生成AI

この記事は有料記事です

(残り約6,900文字)

  • 【スマホで読める実験医学】超長距離文脈を扱うゲノム言語モデル
    550円