実験医学増刊:ポストGWAS時代の遺伝統計学〜オミクス解析と機械学習でヒト疾患を俯瞰する
実験医学増刊 Vol.41 No.7

ポストGWAS時代の遺伝統計学

オミクス解析と機械学習でヒト疾患を俯瞰する

  • 岡田随象/編
  • 2023年04月20日発行
  • B5判
  • 232ページ
  • ISBN 978-4-7581-0410-4
  • 定価:6,160円(本体5,600円+税)
  • 在庫:あり
書籍を購入する
本書を一部お読みいただけます

概 論

ポストGWAS時代の遺伝統計学

岡田随象
(東京大学大学院医学系研究科遺伝情報学/大阪大学大学院医学系研究科遺伝統計学/理化学研究所生命医科学研究センターシステム遺伝学チーム)

ゲノム配列解読技術の発展とゲノム情報の著しい大規模化に伴い,遺伝統計学は情報解析技術を駆使して生命現象を解明する学問分野へと変貌を遂げつつある.遺伝統計解析手法の1つであるゲノムワイド関連解析(GWAS)は,ヒト形質の感受性遺伝子領域の網羅的なカタログ化を急速に達成した.疾患ゲノム情報と多角化するオミクス情報との横断的統合を通じた疾患病態の解明やゲノム創薬・個別化医療の社会実装を,異分野連携で展開していくことが今後は重要となる.本稿では本書の構成の紹介とともに,遺伝統計学を巡る最先端の情勢を俯瞰したい.

[略語]

CNV:
copy number variation(コピー数多型)
DTC:
direct-to-consumer
eQTL:
expression quantitative trait locus
GWAS:
genome wide association study(ゲノムワイド関連解析)
HLA:
human leukocyte antigen(ヒト白血球抗原)
KIR:
killer immunoglobulin-like receptor(キラー細胞免疫グロブリン様受容体)
MHC:
major histocompatibility complex(主要組織適合性遺伝子複合体)
PRS:
polygenic risk score(ポリジェニックリスクスコア)
QTL:
quantitative trait locus
scRNA-seq:
single cell RNA sequencing(シングルセルRNAシークエンス)
SNP:
single nucleotide polymorphism(1塩基多型)
SV:
structural variation(構造多型)
WGS:
whole-geome sequencing(全ゲノムシークエンス)

はじめに

遺伝統計学※1(statistical genetics)は遺伝情報と形質情報の因果関係を統計学の観点から検討する学問分野である1)〜3).古くはメンデルの遺伝の法則の発見まで遡る歴史ある学問であり,集団内における遺伝情報の挙動が形質情報の多様性にどのような影響を与えているか,さまざまな解析手法の開発とともに進化してきた.ヒトゲノム配列が未解読の時代においては,Hardy-Weinberg平衡検定など集団中における遺伝子変異の分布や挙動をモデル化する理論学問としての側面が強かった.その後,ヒトゲノム遺伝子変異の検出方法の開発とともに家系を対象とした連鎖解析が実施され4),疾患感受性遺伝子の探索が主たるテーマとなった.ヒトゲノムプロジェクトによるヒトゲノム配列の解読と,国際HapMap計画による現生人類集団に存在する1塩基多型(SNP)のカタログ化が達成された後,疾患感受性遺伝子領域の同定が急速かつ網羅的に進められている.

ゲノムワイド関連解析※2(GWAS)は,ヒトゲノム全域に分布する遺伝子変異と形質情報の因果関係をゲノムワイドに並列に検討する遺伝統計解析手法である.集団中に高頻度に存在するありふれた疾患(common disease)の感受性遺伝子領域の同定に効果的な手法としてアイディアが提唱された5).SNPマイクロアレイ技術の商用化と低コスト化により普及が後押しされ,21世紀において最も成功した遺伝統計解析手法の1つとなっている.世界各国でバイオバンク由来の大規模サンプル集団を対象としたゲノムワイド関連解析が数多く実施され6)7),千を超えるヒト形質に対し数千報の論文が報告されている8).対象形質もヒト疾患に留まらず量的形質(身体測定値・臨床検査値)9)や食生活習慣,適応進化10)11)など幅広く展開されている.英国の生体試料バイオバンクであるUK Biobankによる数十万人規模の遺伝・形質情報の一般分譲や,ゲノムワイド関連解析の関連統計量の一般公開12)など,公開データの2次利用は遺伝統計解析手法の新規開発と応用範囲の拡大13)に大いに貢献した.

対象サンプル数が大きいほど検出力が増加し,多数の疾患感受性遺伝子領域の同定が可能となる.いかに解析規模を大きくするか,多彩な人種集団を反映するかが,ゲノムワイド関連解析の近年のトピックであった.2022年に500万人を対象としたゲノムワイド関連解析が実施され,説明可能な遺伝的背景の大半がすでに反映されていることが報告された14).これは,解析規模の大型化により得られる知見が右肩上がりの段階を終え,ゲノムワイド関連解析が担ってきた疾患感受性遺伝子領域のカタログ化という「公共事業」の役割に,一定の終着点が見えはじめたことを示唆している.

なぜわれわれはヒトゲノム研究に取り組むのだろうか? ヒトゲノム配列はヒトの設計図であり,配列に隠された情報を適切に解釈すれば,ヒト個体や生命現象を再構成することが可能なはずである.しかしゲノムワイド関連解析が明らかにしたのは個別の1塩基多型が有する1.1倍程度のリスクであり,氷山の一角を覗いているに過ぎない.ヒトゲノム配列を完全に解読し氷山の奥底に到達すべく,遺伝統計学も情報解析技術を駆使して生命現象を解明する学問分野へと新たな進化の局面を迎えている(図1).

※1遺伝統計学
statistical genetics.集団における遺伝情報と形質情報の多様性のつながりを統計学の観点から検討する学問.両者の間に因果関係を仮定する点が特徴的である.疾患感受性遺伝子領域の同定が主たる研究対象であり,家系を対象とした連鎖解析や集団を対象としたゲノムワイド関連解析などが知られている.
※2ゲノムワイド関連解析
GWAS(genome wide association study).疾患感受性遺伝子領域の同定を主目的とした遺伝統計解析手法.ゲノム領域全体に分布する遺伝子変異と形質との因果関係を並列に検討する.近年では,数百万人を対象に数千万カ所の遺伝子変異を検討する大規模な研究が,多彩なヒト形質を対象として報告されている.

1.遺伝統計学を巡る最先端の研究分野

本特集は,遺伝統計学を巡る最先端の研究分野の俯瞰を目的に,第一線で活躍されている研究者の先生方を迎え,多彩な角度からゲノムワイド関連解析の次なる可能性についてご執筆いただいた(図2).特集の構成にあたっては,オミクス実験解析技術や情報解析技術の進化と,遺伝統計学の研究分野の発展の密接なかかわりを意識した.実験技術・情報解析技術の進化は予想を上回る速度で進んできたという客観的な事実があり,最先端の技術の先進的な導入は,遺伝統計学においても革新的な研究成果をもたらしている(図3).

1)遺伝統計学の基礎理論

第1章では,遺伝統計学の根幹となる基礎理論についての概論をいただいた.バイオバンク由来の大規模サンプルを対象に,SNPマイクロアレイだけでなく全ゲノムシークエンス(WGS)を用いたゲノム配列決定が進められており,遺伝統計学と大規模情報解析技術の融合が急務の課題である(第1章-1).遺伝統計学は生物統計学との密接なかかわりのもと発展し,集団遺伝学にもとづく遺伝子変異の挙動考察の理論化を経て,疾患ゲノム解析へ至った.その歴史的経緯を説明いただいた(第1章-2).臨床疫学の現場で培われたリスク推定手法とゲノム情報の融合は有望なアプローチである.メンデルランダム化を例に方法論と実践例を解説していただいた(第1章-3).ポリジェニックリスクスコア(PRS)はヒトゲノム全域に分布する無数の感受性遺伝子変異を統合して得られる個人の疾患発症スコアであり,ゲノム個別化医療実装の鍵として注目されている15)16).一方でポリジェニックリスクスコアの計算手法や人種間互換性には議論の余地があり,社会実装に向けた検討が進められている(第1章-4).世界各国で構築された多彩な人種集団のゲノム情報にもとづく現生人類集団の遺伝的背景の検討が注目を集めている.古代人ゲノム情報を解析するパレオゲノミクスにより,日本人集団の起源の新たな知見が得られている(第1章-5).

2)大規模疾患ゲノム解析の現状

第2章では,近年の大規模疾患ゲノム解析の実施状況やその研究成果を取り上げた.ゲノムワイド関連解析の対象形質は拡大の一途をたどり,個人の遺伝的背景と病原体ゲノム・感染状況が複雑に絡み合う新興感染症や17)18),生殖細胞系列と体細胞系列の遺伝子変異,さらに飲酒喫煙といった環境要因の相互作用の検討が要求される悪性腫瘍などにも範疇を広げている(第2章-1, 2).がんゲノム医療はがん細胞のゲノムにおける遺伝子変異を同定し診断・治療へとつなげる医療である.全国規模の病院連携で得られたシークエンス情報の統合・共有基盤の確立が必要である(第2章-3).後天的な体細胞変異を有する血液細胞がクローン性に増殖するクローン性造血の検出が可能となり,ヒト疾患との関連が注目を集めている(第2章-4).従来のゲノムワイド関連解析は1塩基多型を主な解析対象としていたが,精神疾患など一部の疾患においてはコピー数変異(CNV)や構造多型(SV)の検討の重要性が指摘されている(第2章-5).ロングリードシークエンス技術のスループット化が進み,従来のショートリードシークエンス技術では同定が困難だったヒトゲノム配列の全容が明らかになりつつある(第2章-6).バイオバンク由来の大規模ゲノム情報は,疾患感受性遺伝子の探索だけでなく同類交配などヒトの社会的行動における遺伝的背景の影響の解明にも貢献を果たしている(第2章-719)

3)オミクス解析と疾患病態研究の最前線

第3章では,多層的なヒトオミクス解析とゲノム情報の統合による疾患病態の解明研究に焦点を当てた.遺伝子発現量や代謝物メタボローム,タンパク質プロテオームなど,生体試料由来の多彩なオミクス情報の細胞組織特異的な構築が進められている.これらの中間形質(endophenotype)とゲノム情報とのかかわりを検討するQTL解析により,疾患感受性遺伝子変異が有する生体機能の解釈が可能となる.免疫細胞特異的なeQTLデータベースの大規模な構築が免疫疾患の病態解明に貢献を果たしている(第3章-1).eQTL情報と疾患ゲノム情報の高次元データの統合においては機械学習の有用性が指摘されている(第3章-220).eQTL解析も今後は1細胞解像度での情報解析に移行すると考えられ,情報解析理論の整備が進められている(第3章-4).RNAシークエンス情報の詳細な再解析により,遺伝子発現量だけでなくプロモーター活性の定量化やQTL効果の検討が可能であり,疾患感受性遺伝子変異の機能注釈に新たな情報を付加すると期待される(第3章-3).代謝物メタボロームやタンパク質プロテオームについても,バイオバンク由来の大規模サンプルを用いたハイスループットな計測とQTL解析が進められており,生体内組織の横断的ネットワーク解明や創薬標的探索に用いられている(第3章-5, 6).シングルセルRNAシークエンス(scRNA-seq)における情報解析技術の発展は著しく,細胞分画分類や遺伝子発現プロファイル取得だけでなく,細胞間相互作用や細胞分化軌道,エンハンサーRNA解析など生体メカニズムに迫る解析が進められている(第3章-7).さらなるオミクス情報層として注目されているのが微生物叢である.メタゲノムショットガンシークエンスにより日本人集団の腸内細菌叢・ウイルス叢のデータベース化が行われ,疾患や食生活とのかかわりが報告されている(第3章-821)

4)HLA遺伝子型をめぐる生命現象

ヒトゲノム多型のなかでも疾患発症リスクの強さと関連形質スペクトラムの広さ,遺伝子多型構造の複雑さにおいて顕著なのが,6番染色体短腕の主要組織適合性遺伝子複合体(MHC)領域内に位置するヒト白血球抗原(HLA)遺伝子ファミリーである.第4章ではHLA遺伝子型をめぐるゲノミクス研究をトピックとした.免疫応答にかかわる難読ヒトゲノム領域としては,キラー細胞免疫グロブリン様受容体(KIR)遺伝子も知られている.シークエンス解析を駆使したHLA/KIR遺伝子型の日本人集団での多様性の解明について技術面も含めて説明いただいた(第4章-122)23).HLA遺伝子型と自己免疫疾患とのかかわりの免疫学的な側面は長らく不明であったが,HLAクラスⅡ遺伝子の多様性がT細胞受容体配列の個人差を拘束し,疾患発症リスクを規定することが報告されている(第4章-2).HLA分子はT細胞との交差応答性を有し,特定の抗原に特異的なT細胞と疾患リスクHLA遺伝子型との関連の検討が進められている(第4章-3).細胞内のHLAクラスⅡ分子が小胞体内ミスフォールドタンパク質を認識し自己抗体の標的抗原になる例が報告されており,疾患感受性HLA遺伝子型の機能解析に注目が集まっている(第4章-4).

5)人工知能技術のゲノミクス応用研究

第5章では,多層的なゲノミクス情報を対象とした人工知能技術の応用について論じた.深層学習はサイエンスの多くの研究分野で有用な情報処理技術としての地位を確立しており,ゲノミクス研究も例外ではない.多様な機械学習を駆使することで,高次元のヒトオミクス情報から新たな知見につながる情報を抽出することが可能となっている.一方で機械学習に要するデータ規模の増大や人材育成など,人工知能のポテンシャル発揮に必要な検討事項も浮かび上がっている(第5章-1, 3).がんゲノム情報への人工知能アルゴリズムの導入は,がんの研究・診断・治療においてすでに実践的な成果をあげている(第5章-4).ビッグデータ解析によるin silico創薬の促進において治療標的分子を予測する機械学習手法の重要性が指摘されている(第5章-2).ヒトゲノム研究における深層学習の適用例はヒトゲノム配列ベクトルに対する適用例が先行していたが,集団ゲノム行列に対する深層学習の適用がHLA imputaion解析などの未観測ジェノタイプ推定に高い精度を発揮することが見出されている(第5章-524)

6)ゲノム情報の社会実装に向けた取り組み

第6章では,ゲノムワイド関連解析がもたらした疾患ゲノム情報をどのように社会実装していくか,について議論を深めた.社会実装の第一歩は公的データベースを通じたデータ公開である.ゲノムワイド関連解析に象徴される大規模ヒトオミクス情報は日々出力され続けており,データ公開による研究者コミュニティ・国民への還元と2次活用を通じたデータ価値の最大化は重要なミッションである(第6章-1).疾患ゲノム情報は新規創薬のシーズとなりうる.疾患ゲノム情報にもとづき標的化合物やドラッグ・リポジショニング候補を探索するゲノム創薬※3が,創薬全体のプロセスを効率化するとして産官学民の注目を集めている(第6章-225).得られたゲノム情報の個人への還元を伴うゲノム個別化医療の社会実装も,喫緊の課題である.その過程においては,適切な個人情報の保護と倫理面の配慮が必要であり,各国の動向と本邦における最近の取り組みについて俯瞰していただいた(第6章-3).遺伝情報にもとづく解析結果を直接個人に返却する消費者向けDTC遺伝子検査サービスは世界的に普及され,本邦でも広まりつつある.DTC遺伝子検査サービスをどのように社会実装してきくべきか考察をいただいた(第6章-4).

※3ゲノム創薬
疾患ゲノム情報にもとづく創薬研究の総称.ゲノムワイド関連解析の成果にもとづくゲノム創薬が,創薬プロセス全体を効率化しうることが近年明らかとなり,アカデミアのみならず製薬企業からも高い注目を集めている.

2.遺伝統計学のこれから図4

本書では,ゲノム情報の大規模化,オミクス情報の多角化,情報解析技術の進歩など,遺伝統計学を巡る最先端の情勢を俯瞰した.疾患感受性遺伝子領域の探索手段として開発されたゲノムワイド関連解析が,ヒト形質にかかわる生命現象の解明を担う基幹的リソースへと変貌を遂げつつあることが伝われば幸いである.ヒトゲノムを直接の解析対象としないライフサイエンス研究においても有用なリソースとしての価値が高まっていくと考えられる.今後は,高次元オミクス情報との多層的な関係性を最先端の情報解析技術を駆使して明らかにすることで,生命現象や疾患病態の解明,ゲノム創薬,ゲノム個別化医療への社会実装へとつなげる,生命医科学の原点に立ち戻った研究活動へと展開していくことが期待される.おそらく20年後には,われわれの予想をはるかに超えた新しい遺伝統計学が展開されているはずで,どんなおもしろいことになっているのか見届けてみたいと考えている.

文献

  • 「遺伝統計学入門」(鎌谷直之/著),岩波書店,2007
  • 「遺伝統計学の基礎 Rによる遺伝因子解析・遺伝子機能解析」(山田亮/著 ),オーム社,2010
  • 「ゼロから実践する 遺伝統計学セミナー」(岡田随象/著),羊土社,2020
  • Lander ES & Botstein D:Science, 236:1567-1570, doi:10.1126/science.2884728(1987)
  • Risch N & Merikangas K:Science, 273:1516-1517, doi:10.1126/science.273.5281.1516(1996)
  • Okada Y, et al:Nature, 506:376-381, doi:10.1038/nature12873(2014)
  • Sakaue S, et al:Nat Genet, 53:1415-1424, doi:10.1038/s41588-021-00931-x(2021)
  • GWAS Catalog
  • Kanai M, et al:Nat Genet, 50:390-400, doi:10.1038/s41588-018-0047-6(2018)
  • Okada Y, et al:Nat Commun, 9:1631, doi:10.1038/s41467-018-03274-0(2018)
  • Sakaue S, et al:ASHG annual meeting 2021(2021)
  • PheWeb.jp
  • Uffelmann E, et al:Nat Rev Methods Primers, 1:59, doi:10.1038/s43586-021-00056-9(2021)
  • Yengo L, et al:Nature, 610:704-712, doi:10.1038/s41586-022-05275-y(2022)
  • Polygenic Risk Score Task Force of the International Common Disease Alliance:Nat Med, 27:1876-1884, doi:10.1038/s41591-021-01549-6(2021)
  • Sakaue S, et al:Nat Med, 26:542-548, doi:10.1038/s41591-020-0785-8(2020)
  • Namkoong H, et al:Nature, 609:754-760, doi:10.1038/s41586-022-05163-5(2022)
  • Edahiro R, et al:Nat Genet,doi:10.1038/s41588-023-01375-1(2023)
  • Yamamoto K, et al:Nat Hum Behav, 7:65-73, doi:10.1038/s41562-022-01438-z(2023)
  • Wang QS, et al:Nat Commun, 13:4830, doi:10.1038/s41467-022-32276-2(2022)
  • Tomofuji Y, et al:Cell Genom, 2:100219, doi:10.1016/j.xgen.2022.100219(2022)
  • Hirata J, et al:Nat Genet, 51:470-480, doi:10.1038/s41588-018-0336-0(2019)
  • Sakaue S, et al:Cell Genom, 2:100101, doi:10.1016/j.xgen.2022.100101(2022)
  • Naito T, et al:Nat Commun, 12:1639, doi:10.1038/s41467-021-21975-x(2021)
  • Namba S, et al:Cell Genom, 2:100190, doi:10.1016/j.xgen.2022.100190(2022)

<著者プロフィール>

岡田随象:2010年東京大学大学院医学系研究科博士課程修了.’12年より米国Harvard大学Brigham & Women’s病院およびBroad研究所にてポスドク.東京医科歯科大学を経て’16年より大阪大学大学院医学系研究科教授.’21年より理化学研究所生命医科学研究センターチームリーダー.’22年より東京大学大学院医学系研究科教授.遺伝統計学を専門とし,ヒトゲノム配列の多様性に隠された生命現象や疾患病態の解明,ゲノム創薬や個別化医療の社会実装研究に取り組んでいます.静岡県藤枝市生まれの東京都町田市育ち.趣味は野球観戦と温泉巡り.研究室に参加してくれる方,大歓迎です.

書籍概略はこちら
実験医学増刊:ポストGWAS時代の遺伝統計学〜オミクス解析と機械学習でヒト疾患を俯瞰する
実験医学増刊 Vol.41 No.7

ポストGWAS時代の遺伝統計学

オミクス解析と機械学習でヒト疾患を俯瞰する

  • 岡田随象/編
  • 定価:6,160円(本体5,600円+税)
  • 在庫:あり
書籍を購入する