【第5回】

この新刊立ち読みコーナーでは，新刊『バイオ実験に絶対使える統計の基本Q&A』から，１項目ずつ抜粋して合計６項目をご紹介いたします．５回目の今回から，現場で出会う具体例とその考え方をケーススタディ形式でお届けします．

Case1 培養細胞に試薬A を加える前と後の，ある遺伝子の発現量を測定しました．その効果についてどのように解析すればよいでしょうか？

河府和義：シンガポール国立大学癌科学研究所

※実践編　1章発現量，活性など一般的なin vitro実験のケーススタディーCase01を抜粋（2012.10.30掲載）

考え方

データ群には「独立2群」か「関連2群」の2通りあります．前者は別人同士や異なる遺伝子型マウス同士のデータを比較する場合です．後者は同一人物や同一系統マウスにおいて何らかの薬剤投与などをする際の，「前と後」のデータ間を比較する場合などのことです．本ケースのように，元は同じ培養細胞を用いて試薬A処理の前後という2つのデータ群を比較する場合は後者の「関連2群」の解析となります．さらにここではこれらデータ群それぞれが平均値を中心に比較的まとまったパターンを示すかどうかで解析方法が異なってきます．最初に大まかにそのまとまり具合の検証をする必要があります．そしてその結果，比較的まとまったパターン（正規分布）を示す場合には「1標本t検定」を用い，分布にまとまりがない場合には別の方法を用います．

クリックして拡大

1）データの入力と散布図のプロット

本ケースではウエスタン解析の結果から発現量を定量した数値をMicrosoft Excelにインプットするところからはじめます．例として，Jurkat cellにPMA処理をする前とした後の転写因子Rの発現量を解析します．図1の通りPMA処理前，PMA処理後のデータを入力します．このような解析データの実際のサンプル数は決して多く得られるわけではありません．しかし統計学的に有意差を検証したい場合にはサンプル数は多ければ多いほど有意差の有無を確認しやすくなります．そうでない場合（サンプル数が3以下の場合），Nature Cell Biology誌などのガイドラインでは，p値を示す代わりに全てのデータをグラフにプロットすることで有意差があることを示さなくてはなりません．

これらのデータの基本的な情報を確認しましょう．まずは実際に1つ1つを目で見てみることが基本です．これらのデータをグラフにプロットしてみます．グラフ化するサンプルを選択し，「挿入」のなかの散布図を選択して（図2A），「散布図（マーカーのみ）」を選ぶと図2Bのようなグラフが示されます．処理前後のデータはそれぞれ比較的まとまった数値から構成されているようです．通常はこのような結果が得られた場合には明らかな差があるということで問題はありません．しかし，もし2群のデータが非常に僅差の場合に統計解析が必要になります．

2）データの正規性の検定

クリックして拡大

比較的まとまったパターン（正規分布）を示す場合には「1標本t検定」を用います．この場合，正規分布を示すかどうかを検定する必要がありますのでその例を図3に示します．左上の歪度が0で尖度が3であればこのデータは正規分布をしていることになり，尖度が3よりも大きい場合には尖った分布を示すという風に解釈できます．

われわれの分野の研究結果で美しく正規分布を示すデータを得ることは決して頻繁に起こることではありません．しかもデータ数が非常に限られた少ないものである以上，正規分布しているものと仮定して統計処理をするというのが現状です．もしもおおもとの現象そのものが正規分布を示している場合でも採取した5サンプルのデータが必ずしも正規分布を示すとは限りません．よってバイオ研究の現場では多くの研究者は正規分布しているかどうかをあまり重要視していません．それが正しいことなのか間違いなのかはこの場では議論しないことにします．もちろん多くの患者さんへ薬剤投与する大規模コーホート解析などの場合の医療系研究には正規性を検証する必要があることは明記しておきます．

3）Microsoft Excelを使ったt検定

さて「1標本t検定」の方法について解説します．この解析方法はもっとも基礎的であり，ほぼ全てのバイオ研究において日常的に用いられるものです．TTEST機能は通常版のExcelに搭載されています．ここではその使い方について紹介します．

クリックして拡大

まずは2群のデータの統計結果を示す場所を決めます（図4）．そして数式を選ぶために赤点線の部分「fx」をクリックします．数式を選択する画面が示されますので，その中から最上段の「T.TEST」を選択します．すると関数の引数画面が表示されますので2群の情報をそれぞれ選択し（この方法はB3：B7と入力するか数列1の記入部位をクリックしてから選択するB3からB7までをドラッグ）します．検定の指定は1，検定の種類は1を選択します．

TTESTの結果は先ほど選択した「2群のデータの統計結果を示す場所」に表示されます．この場合には指数表示で「4.16063E-05」と示されますが，小数点10桁表示に変えると「0.000416063」となります．有意な差の有無を示す最も代表的な数値がこのp値になります．この場合には2群のデータが同じであるという帰無仮説を支持するp値は5％を下回っていますので，これら2群は有意差があることが示唆されました．この場合，プロット図の横にp＜0.001などと表記すると有意差があることを示すことができます．