概論
バイオDXとは何か,なぜ今バイオDXなのか
What is BioDX? Why BioDX now?
坊農秀雅
Hidemasa Bono:Graduate School of Integrated Sciences for Life, Hiroshima University / Database Center for Life Science,
Joint Support-Center for Data Science Research, Research Organization of Information and
Systems〔広島大学大学院統合生命科学研究科/情報・システム研究機構データサイエンス共同利用基盤施設ライフサイエンス統合データベースセンター(DBCLS)〕
文部科学省より発表された2021年度戦略的創造研究推進事業の戦略目標の一つとして「『バイオ DX(デジタルトランスフォーメーション)』による科学的発見の追求」が掲げられている.「バイオDX」と名を冠したプロジェクトが多数立ち上がってきているが,なかでもこれまでに公共データベースに蓄積してきたデータを利活用するという方向性でのバイオ DX に注目が集まっている.そこで,本企画では公共データの海で宝探しをするがごとく,データを利活用する流れについて紹介する.
はじめに―バイオDXとは何か
本年2021年9月1日にデジタル庁が設置された1).その目的は,デジタル社会の形成に関する内閣の事務を内閣官房とともに助け,その行政事務の迅速かつ重点的な遂行を図ることとなっている.このデジタル庁は,国・地方行政のIT化やデジタルトランスフォーメーション(digital transformation, 略してDX)の推進を目的としてIT分野を担当する.こういった社会情勢もあって,この「DX」という言葉が頻繁に使われるようになってきた.
では,DXとは何か?経済産業省のDX推進ガイドライン2)によると,DXの定義は「企業がビジネス環境の激しい変化に対応し,データとデジタル技術を活用して,顧客や社会のニーズを基に,製品やサービス,ビジネスモデルを変革するとともに,業務そのものや,組織,プロセス,企業文化・風土を変革し,競争上の優位性を確立すること」となっている.
そんななか,文部科学省より発表された2021年度戦略的創造研究推進事業の戦略目標の一つとして「『バイオDX(デジタルトランスフォーメーション)』による科学的発見の追求」が掲げられた3).この戦略目標の策定には,2020年9月に科学技術振興機構(JST)の研究開発戦略センター(CRDS)より出された調査報告書AI×バイオDX時代のライフサイエンス・バイオメディカル研究4)や,同じくJSTのバイオサイエンスデータベースセンター(NBDC)によって2020年12月にオンラインで開催されたワークショップ「データ駆動型研究の推進と課題」5)での議論が影響しているものと考えられる.その結果,バイオ分野でもDXの流れが推進され,「バイオDX」という言葉が使われるようになってきたものの,その具体的なイメージはまだ普及しているとはいえない.
そこで,図1にカメラ技術と顕微鏡での観察やゲノム配列解読からゲノム編集に至る流れを実例として対比してみた.この例がバイオDXのすべてというわけではないが,具体的なイメージの例として考えていただけると幸いである.
バイオDXは,新しく発足したJST CRESTの領域「データ駆動・AI駆動を中心としたデジタルトランスフォーメーションによる生命科学研究の革新」の研究領域の略省として使われている.また,同じくJST共創の場形成支援プログラム(COI-NEXT)にもバイオDXを拠点名に含むプロジェクト「広島から世界最先端のバイオエコノミー社会を実現するBio×Digital Transformation(バイオDX)産学共創拠点」が立ち上がっており,こちらについては奥原・山本の稿で詳しく紹介する.
前述のようにバイオDXは特定の定まった実験手法というわけではない.現状では,バイオ以外の分野での応用として機械による自動化などが多く,その延長上での実験ロボットを活用した「バイオDX」が注目されている(図2).その一方で,バイオ分野特有のDXをめざしたプロジェクトも立ち上がってきている.それらの例として,奥原・山本の稿で詳しく紹介するビッグデータや人工知能(AI)を利活用したゲノム編集による育種プロジェクトや,深層学習によるタンパク質立体構造予測を多くの研究者に利用可能としたAlphaFold2などに期待が寄せられている6).
1なぜ今バイオDX?
2021年現在,多くの生命科学研究者はCOVID-19の影響で当初の計画通りに実験ができず,「データ」を出すことができない状況にある.そこで,自ら実験して「データ」を出すのではなく,公共のデータベース(以下DB)に蓄えられたデータを検索し,そのなかから自らの研究に関係のあるデータを集めてきてデータ解析するという「データ利活用」による研究推進の流れが注目されている(林のコラム,図3).このデータ駆動型の研究スタイルもバイオDXとして捉えることができると筆者は考えている.
じつはCOVID-19と関係なく,生命科学技術のハイスループット化に伴うデータの大量蓄積に伴い,データ利活用の流れは着実に進んできていた.それに伴い,複数の研究の結果を統合し,より高い見地から分析を行うメタ解析(meta-analysis)が注目されている.メタ解析による論文発表が年々増加しており,その証拠に“meta-analysis”をキーワードにしてPubmed検索すると年々増加しているヒストグラムとともに,2020年だけで約3万件にのぼっていることがわかる7).
本特集では,各種の公共DBを利活用するバイオDXについてその実例をまず紹介する(図4).特に,公共DBから取得したデータのみから新規の発見をすることが可能となっており,それらの実例を紹介する(小野擁子・坊農の稿,川崎・堀江の稿).また自ら出したデータと既存のデータを組み合わせたハイブリッド型の研究も増えてきている(坂本・天竺桂の稿).
また,個別に実験することが不可能なことが多いヒト研究においては,以前よりデータを利活用する流れがあり,特にヒトの個体間にあるゲノム配列の違いのデータ(バリアントデータ)の利活用はごく普通に世界的に行われているが,次々と新しいデータが生み出されている今,可能性は以前より拡がっていると言えるだろう8)(三嶋の稿).なお,ヒトのデータは個人情報保護法などで保護され,アクセス制限が課されることもあるが,そのようなバリアントデータに対してリファレンスゲノム中の特定アレルをもつデータセットが存在するか否かを検索するGA4GH Beaconのような仕組みも用意されている9).
2データ利活用の現状
先ほど,データ利活用の流れは着実に進んでいると述べた.事実,塩基配列データに関してはそれらを公共DBに登録しないと論文が出版されない事情もあり,次世代シークエンサーから得られた塩基配列DBであるSequence Read Archive(SRA)には約55ペタ塩基〔ペタとは1000兆(10の15乗)倍をあらわす接頭辞〕もの大量のデータが蓄えられている10).
しかしながら,これらの大量のデータは単に蓄えられたアーカイブの状態で,図書館に例えれば,書いてあることはよくわからないまま,なんとか書棚に収めてあるという状態である.現状ではそれらを利活用するには実験情報のメタデータを頼りに検索するしか手段がなく,それらに対してBLASTするといった配列類似性検索を実行して利活用できる状態にはない.すなわち,データの利活用がそれほど進んでいるわけではない.
そんななか,それらをなんとか利活用できるようにするためのDB整備は,JSTのバイオサイエンスデータベースセンター(NBDC)を中心に国立遺伝学研究所のDDBJやライフサイエンス統合データベースセンター(DBCLS)で行われてきた(藤原のコラム,八塚のコラム).数多くのデータのなかからリファレンスとなるデータセットを選ぶアプローチはNCBIのRefSeqやリファレンスゲノム配列(GRCh38やmm10など)でも採用されているが,それと同様に各臓器における遺伝子発現プロファイルのリファレンスを用意し,それらを使いやすく研究者に提示するRefExもDBCLSの取り組みの成果の一つである11).生命科学研究において,そのRefExがいかに利活用されているかも,バイオDXの一例として本特集で紹介する(小野浩雅の稿).
最後に画像DBの標準化(大浪の稿),化合物DBの利活用(海東・山西の稿,大川のコラム)を含めて,最新のデータ利活用の動向を俯瞰する.
おわりに
本特集でとり上げたバイオDXは大量のデータが蓄積しているさまざまな分野に適用可能なものであり,その実現には,公共DBにあるデータをいかにうまく再利用するかがポイントとなる.そのためには参考図書にあげたような書籍でDB利用に関する基礎知識を学ぶことが必須である.特に公共DB利活用に必要不可欠なデータ解析の基本スキルは,レシピ本シリーズとして実験プロトコールと同様に成書として出版されているので,いつでも誰でもやる気だけを初期投資としてはじめることができる.本稿を読んだ方がデータを利活用し,それぞれの分野でブレークスルーを起こされんことを楽しみにしている.その際には利用したDBの存続のためにも,どのDBを使われたかを明記していただければ幸いである.
文献
- 「デジタル庁」
- 「デジタルトランスフォーメーションを推進するための ガイドライン (DX 推進ガイドライン)Ver. 1.0 平成30年12月 経済産業省」
- 「令和3年度戦略的創造研究推進事業 戦略目標『バイオDX』による科学的発見の追究」
- 「AI×バイオDX時代のライフサイエンス・バイオメディカル研究(―The Beyond Disciplines Collection―)」
- 「JSTバイオサイエンスデータベースセンター(NBDC)ワークショップ報告書『データ駆動型研究の推進と課題』」
- Jumper J et al:Nature, 596:583-589(2021)
- 「“meta-analysis”でPubmedを検索」
- 「バリアントデータ検索&活用 変異・多型情報を使いこなす達人レシピ 」(坊農秀雅/編),羊土社,2020
- 「GA4GH Beacon」
- 「SRA database growth」
- 小野浩雅 & 坊農秀雅:遺伝子発現解析の基準となるデータを快適に検索できるウェブツール「RefEx」.実験医学2018年4月号「クローズアップ実験法」,36:999-1003(2018)
参考図書
- 「Dr. Bonoの生命科学データ解析 第2版」(坊農秀雅/著),メディカル・サイエンス・インターナショナル,2021
- 「RNA-Seqデータ解析 WETラボのための鉄板レシピ」(坊農秀雅/編),羊土社,2019
- 「メタゲノムデータ解析 16Sも!ショットガンも!ロングリードも!菌叢解析が得意になる凄技レシピ」 (坊農秀雅/編),羊土社,2021
著者プロフィール
坊農秀雅:1995年東京大学教養学部基礎科学科卒業.2000年京都大学大学院理学研究科生物科学専攻博士後期課程単位取得退学.博士(理学).理化学研究所,埼玉医科大学ゲノム医学研究センター,ライフサイエンス統合データベースセンター(DBCLS)を経て,’20年より広島大学大学院統合生命科学研究科特任教授.研究テーマは,バイオDXによるデータ駆動型ゲノム育種(デジタル育種)技術の開発.ゲノム編集×バイオインフォマティクスで研究したい大学院生募集中.