第1章 総論 公共データベース
1 オミクス研究と公共データベース
ゲノミクスやプロテオミクスなどのオミクス研究において,公共データベースはデータの登録,公共データの取得,データ処理のためのリファレンスデータの取得,解析結果解釈のためのアノテーション情報へのアクセスなどさまざまな方法で利用されている.本稿では,代表的なオミクス研究を紹介するとともに,オミクス研究と公共データベースとの関係や,さらに公共データを活用したオミクス研究について概説する.また最後にオミクス研究における公共データベース利用に関する今後の課題についても紹介する.
はじめに
オミクス研究では,全ゲノム配列,生体内で合成される全タンパク質など広範囲のターゲットに対して,塩基配列や分子の存在量などをDNAシークエンサーや質量分析器等を用いて取得し,そのデータをコンピューター等で解析する.そのデータ処理や解析結果の解釈をするための情報源として公共データベースは活用されている.また,オミクス研究で得られたデータを他の研究者が取得できるようにするためにも公共データベース(公共リポジトリ)は活用されている.本稿では公共データベースについて,特にオミクス研究の観点を中心に説明する.
オミクス研究
近年の生命科学分野では,いわゆる「オミクス(omics,オミックスと記載することもある)」とよばれる,ゲノムや分子情報を網羅的に解析・研究する手法が広く行われるようになった.「オミクス」という言葉は「ゲノミクス(genomics)」や「プロテオミクス(proteomics)」などに共通して使われる接尾語「-omics」からきているが,これは,ラテン語で「全体」を意味する「-ome」という接尾語に「学問対象」を意味する「-ics」という接尾語が組合わさったものである.オミクス研究にはゲノミクスやプロテオミクス以外にも,転写産物(transcript)を対象とする「トランスクリプトミクス(transcriptomics)」,代謝産物(metabolite)を対象とする「メタボロミクス(metabolomics)」,脂質(lipid)を対象とする「リピドミクス(lipidomics)」などさまざまなものがあり,DNAシークエンサーや質量分析器などの測定技術の進歩とともに誕生・発展してきた.また,複数種のオミクスデータを統合的に解析して全体的な生命現象の理解をめざす「マルチオミクス(multi-omics)」というアプローチも最近はよく使われている.
オミクス研究として行われる解析は多岐にわたる.そのような解析の例を表にまとめる.オミクス研究は生体情報を網羅的に取得し解析することを指向したもので,一度に多くの情報を取得することができる.しかし得られる情報はあくまでもDNA配列やその処理によって得られるゲノム領域であったり,さまざまな分子標的の存在量やその解析から同定される分子のリストであったりと,それ単独で生命現象を説明できるものとは限らない.生命現象の理解へ導くためには,既知の知見との突き合わせや,他のデータとの比較が必要である.そこで使われているのが世界中で公開・提供されているさまざまなデータベースである.特に生命科学分野では利用制限がなかったり無料で使えたりする公共データベースが充実しており,これらを効率的に活用することがオミクス研究では重要となっている.
| ゲノミクス | 全ゲノムシークエンス(WGS) | ゲノム全体を対象としたシークエンシング,全ゲノム配列の決定や変異の同定など |
| 全エクソームシークエンス(WES) | エクソンのみを対象としたシークエンシング,エクソン内変異の同定など | |
| ターゲットシークエンス | 特定の遺伝子やゲノム領域のみを対象としたシークエンシング,変異の同定やパネル検査など | |
| 長鎖ゲノムシークエンス | 長鎖シークエンサー(ONT社やPacBio社等)を用いたシークエンシング,新規ゲノム配列やリピート領域の配列決定など | |
| トランスクリプトミクス | RNA-seq | 全RNA転写産物の配列を網羅的に決定するシークエンシング,遺伝子発現プロファイルの取得,アイソフォーム,新規転写産物配列の同定など |
| 一細胞RNA-seq | 単一細胞ごとのRNA転写産物を解析するシークエンシング,細胞間の発現変化や細胞型特異的な遺伝子発現プロファイルの取得など | |
| CAGE | RNAの5′末端(転写開始点)を特異的に決定するシークエンシング,遺伝子発現量の測定,プロモーター領域の位置決定や活性状態の測定など | |
| Ribo-seq | リボソームに結合しているmRNA断片(翻訳中領域)を決定するシークエンシング,翻訳領域,翻訳効率,翻訳開始・停止位置の同定など | |
| エピゲノミクス | ATAC-seq | オープンクロマチン領域を検出するためのシークエンシング,クロマチンのアクセス可能性やヌクレオソームの位置分布の同定など |
| ChIP-seq | 転写因子や特定のヒストン修飾(メチル化ヒストンなど)に結合したDNA領域を同定するシークエンシング,転写因子結合部位やヒストン修飾パターンの取得など | |
| Bisulfite-seq/MBD-seq | DNAメチル化状態を解析するシークエンシング,ゲノム上のメチル化シトシンやメチル化領域の同定など | |
| 一細胞ATAC-seq | 単一細胞レベルでオープンクロマチン領域を検出するためのシークエンシング,細胞集団内のばらつきや細胞種特異的なクロマチン状態の解析など | |
| プロテオミクス | 網羅型(DDA/DIA) | 多数のタンパク質を対象とした質量分析法,網羅的なタンパク質プロファイル,発現比較解析,新規タンパク質,翻訳語修飾の同定など |
| ターゲット型(SRM/MRM/PRM) | 事前に選択した特定のタンパク質を定量する質量分析法,疾患バイオマーカーや候補タンパク質の検証,臨床検査など | |
| 翻訳後修飾(PTM解析) | リン酸化,アセチル化,ユビキチン化など特定の翻訳後修飾を対象とした質量分析法.修飾部位の同定,修飾パターンの比較解析,修飾型バイオマーカーの探索など | |
| 近接標識法(BioID/TurboID) | 目的タンパク質の近傍にあるタンパク質を化学修飾(例:ビオチン化)して捕捉・同定する質量分析法,タンパク質間相互作用や局在依存的な相互作用ネットワークの解析など | |
| メタボロミクス,リピドミクス | LC-MS解析,GC-MS解析 | 網羅的な代謝産物や脂質を対象とした質量分析法,プロファイルの取得や定量解析など |
| NMR解析 | 限られた種類の代謝産物・脂質を対象とした核磁気共鳴解析法,プロファイルの取得,構造決定,絶対定量など | |
| ショットガン解析 | クロマト分離等を行わずに代謝産物・脂質のプロファイルを取得する質量分析法,ハイスループットな初期スクリーニングや比較解析など | |
| イメージングMS | サンプル中の特定領域内に存在する代謝産物や脂質を対象とした質量分析法,臓器や組織切片における局在解析など |
ゲノミクス,トランスクリプトミクス,エピゲノミクス,プロテオミクス,メタボロミクス,リピドミクスのそれぞれで行われる解析の例.
オミクス解析における公共データベースの使い方には,取得したオミクスデータの登録や他の研究者が取得した公共オミクスデータを,いわゆる一次データベース(リポジトリ)から取得する場合と,オミクスデータのデータ処理に用いるリファレンスデータの取得や,解析結果の解釈に用いる公共のアノテーションデータを取得・参照するため,二次データベースにアクセスする場合などがある.
オミクス研究における公共データベースの活用
一般的に生命医科学分野におけるデータベースは大きく分けると2種類のデータベースに分かれる.1つがいわゆる一次データベースともよばれるもので,実験や測定で得られたデータがそのまま格納されており,リポジトリともよばれる.実際には測定データだけでなく,データ取得元のサンプルの情報や,測定に用いたプロトコルや機器の情報といった,いわゆる「メタデータ」もデータの理解や解析に重要であることから,メタデータと一緒にデータベースへ登録されている.もう1つが二次データベースとよばれるもので,一次データベースのデータを処理・再解析したものや,独自の意味や機能などの情報(いわゆるアノテーション)を付与したもの,複数のデータを統合したものがまとめられたデータベースで,知識ベースとよばれることもある.オミクス研究では両者のデータベースともさまざまな形で活用されている(図).またオミクスデータの種類によっては論文投稿や掲載までに取得したデータを指定された一次データベースに登録することが義務化されている場合もあり,データベースの利用は避けて通れない.
公共データベースを活用したさらなるオミクス研究
オミクス研究における公共データベースの活用法は,前記のものだけにとどまらず,いろいろな方法や研究で使われている.ここでいくつか紹介する.
公共のオミクスデータを用いたメタアナリシス
「メタアナリシス」とは複数の独立したデータを定量的に統合して解析する手法のことである1).特に医科学や疫学分野などでは「システマティックレビュー」2)とよばれる,複数の文献情報を系統的に収集・評価することでよりエビデンスレベルの高い結論を導く研究が行われるが,そのなかのデータ解析に使われるのがメタアナリシスである.このメタアナリシスの手法を公共データベースに登録されているオミクスデータに対して用いる研究が広く行われている3).これにより,一つの研究室レベルで取得できる規模を超えたデータを使った解析を行うことができ,よりエビデンスレベルの高い結論を導くことが期待できる.
オープンサイエンス実現のための公共データベース
「オープンサイエンス」とは研究活動のさまざまな過程を外からみられるようにする活動のことで,研究の透明性,再現性,アクセス性を高めることが目的である4).オープンサイエンスのなかには取得されたデータを入手可能にする「オープンデータ」5),実験手法や解析プログラムを公開する「オープンプロトコル」6)や「オープンソース」7),査読過程をみられるようにする「オープンピアレビュー」8),論文を誰でも読めるようにする「オープンアクセス」9),教材を公開する「オープン教育リソース」10)などがある.特に「オープンデータ」では,データを用いた再検証や,別の研究に取得データを再利用できることが求められるが,そのための公共データベースの役割が大きい.
機械学習や人工知能モデル構築における公共データベースの活用
近年,公共データベースなどに蓄積されたオミクスデータを学習データとして用いた,機械学習や人工知能(AI)モデルの構築が注目されている.例えば,タンパク質立体構造予測ツールのAlphaFold2ではタンパク質立体構造のデータベースPDB(第2章-25),非冗長タンパク質配列データベースUniRef(UniProt,第2章-26),Uniclust,BFD,マイクロバイオーム配列のデータベースMGnifyなどの公共データが使われている11).また,ゲノムのアノテーション予測ツールのEnformerでは,遺伝子アノテーションとしてGENCODE,エピゲノムデータとしてENCODE(第2章-22, 40)やRoadmap Epigenomics,転写開始点データとしてFANTOM(第2章-19)などのデータベースが活用されている12).また,AlphaFold2の予測結果をまとめたAlphaFold Protein Structure Databaseという公共データベースも構築されている13).このような活用は今後ますます活発になっていくことが予想される.
おわりに
オミクスデータと公共データベースに関する,今後の課題をいくつか紹介する.
ヒト由来データと生物多様性
オミクスデータのなかにはゲノム配列データなど「人を対象とする生命科学・医学系研究に関する倫理指針」14)に従って管理すべきデータ(いわゆるヒト由来データ)がある.ヒト由来データは試料提供者との同意に従ってデータ公開を制限する必要がある.公共データベースのなかにはNBDCヒトデータベース(第2章-2)のように制限アクセスに対応した機能を有したものがあり,ヒト由来データの登録や参照に用いられている.また,生物多様性条約および名古屋議定書では,遺伝資源の利用に際して資源提供国の主権的権利を尊重し,事前の同意や利益配分の合意を得ることが求められている.これに伴い,公共データベースの運営者や利用者にもアクセス手続きや利益配分への配慮が今後求められてくる可能性があり,今後注意が必要となっている15).
研究寄生虫(research parasites)問題
今日公共データベースにはさまざまなオミクスデータが登録され,誰でも取得・利用できるようになった.その結果,実際に実験せずに公共データベースのデータを再解析して論文を書くという研究が行われるようになってきた.2016年The New England Journal of Medicine (NEJM)誌ではこのような行為を「研究寄生虫(research parasites)」と名付けて批判的に表現した16)が,この記事自体への反発は非常に大きかった17).実際に科学活動におけるデータの再利用は科学の発展に非常に有効であり,必要不可欠と考えるべきだと思われる〔NEJM誌の記事を逆手に取って再解析により顕著な成果を得た研究を表彰するResearch Parasite Award(//researchparasite.com/)という賞もある〕.しかしこの指摘は必ずしも間違っていたわけではなく,実際に公共データベースからいくつかのデータセットをチェリーピックし,定型的なデータ解析のみを行っただけの論文がいくつも出版されており,ペーパーミル(paper mill,金銭で論文の作成を請け負う業者)の懸念もあげられている18).今後データ再利用のためのルールづくりやメタアナリシスの手法に則った解析手法の確立が求められるだろう.
最後に,オミクス研究において公共データベースはさまざまな面で活用されており,今後もますます重要となる.どのような公共データベースが利用でき,自分の研究にどのように活用していくべきか,常に最新の情報にアップデートしていくことが重要である.
文献
1) Page MJ, et al:BMJ, 372:n71, doi:10.1136/bmj.n71(2021)
2) 「Cochrane Handbook for Systematic Reviews of Interventions」(Higgins JPT, et al, ed), Wiley(2019)
3) Rung J & Brazma A:Nat Rev Genet, 14:89-99, doi:10. 1038/nrg3394(2013)
4) UNESCO Recommendation on Open Science, 2021(//www.unesco.org/en/open-science)
5) Wilkinson MD, et al:Sci Data, 3:160018, doi:10.1038/sdata.2016.18(2016)
6) Teytelman L, et al:PLoS Biol, 14:e1002538, doi:10.1371/journal.pbio.1002538(2016)
7) Ince DC, et al:Nature, 482:485-488, doi:10.1038/nature10836(2012)
8) Ross-Hellauer T:F1000Res, 6:588, doi:10.12688/f1000research.11369.2(2017)
9) Budapest Open Access Initiative, 2002(//www.budapestopenaccessinitiative.org)
10) UNESCO:Recommendation on Open Educational Resources(OER)(//www.unesco.org/en/open-educational-resources)
11) Jumper J, et al:Nature, 596:583-589, doi:10.1038/s41586-021-03819-2(2021)
12) Avsec Ž, et al:Nat Methods, 18:1196-1203, doi:10.1038/s41592-021-01252-x(2021)
13) Varadi M, et al:Nucleic Acids Res, 52:D368-D375, doi:10.1093/nar/gkad1011(2024)
14) 文部科学省・厚生労働省・経済産業省:人を対象とする生命科学・医学系研究に関する倫理指針,2021(//www.mext.go.jp/a_menu/lifescience/bioethics/seimeikagaku_igaku.html)
15) Klünker I & Richter H:J Law Biosci, 9:lsac035, doi:10.1093/jlb/lsac035(2022)
16) Longo DL & Drazen JM:N Engl J Med, 374:276-277, doi:10.1056/NEJMe1516564(2016)
17) Berger B, et al:PLoS Comput Biol, 12:e1004816, doi:10.1371/journal.pcbi.1004816(2016)
18) Suchak T, et al:PLoS Biol, 23:e3003152, doi:10.1371/journal.pbio.3003152(2025)
著者プロフィール
粕川雄也:大阪大学大学院修了,NTTソフトウェア社などを経て,現理化学研究所生命医科学研究センター(IMS)生命医科学大容量データ技術研究チーム・チームディレクター.転写や転写制御をターゲットとしたデータ解析,データベース・データセットの構築などの研究開発に従事.これまで開発してきたデータベースに転写開始点のリファレンスセットrefTSS,転写制御としてシスエレメントに関するデータベースfanta.bioなどがある.またFANTOMプロジェクトのデータコーディネーションなども行っている.
