第3章 統計的推測
2 仮説検定
本稿では,統計的検定を理解するのに重要な知識を学んでいこうと思います.データの種類やなにを知りたいかによって,数多くの検定がありますが,基本的な検定の流れや,結果の読みとり方に関しては,すべての検定で共通です.
1 統計的検定の結論は,必ず二択
まず,「統計的検定」という言葉に関してですが,世の中には検定と呼ばれるものが数多くあります.英語検定,数学検定,アロマテラピー検定など,ユニークなものとしては伊賀忍者検定なんていうのもあるそうですね.一見してこれらの検定は,統計的検定とあまり関連がないような気もしますが,統計的検定を含めたすべての検定には共通点があります.それは,
“合格/不合格”
という結果が出るということです.そんなの当たり前じゃないかと思うかもしれませんが,統計学的検定を考えるうえでも,実はこの“合格/不合格”という概念が重要です.しかし,なぜか統計的検定となると,この概念が抜け落ちる人が多いのです.
統計学的検定とは,あることを決める手法です.おそらく,皆さんはなんとなく想像がついているでしょう.そうです,
“有意差あり/有意差なし”
という結論を得るための手法です.これはとても重要なことで,この二者択一の結論以外にはありえません.絶対に二択です.
例えば,P値<0.01の結果が出たときに“非常に有意”という結論を出している学会発表をみたことはないでしょうか? “非常に有意”という結論は,実はありえないのです.これは英検で“すごく合格”という結果が出てくるようなものです.
2 統計的検定で重要なこととは?
① 検定はP値を出すことではない.P値は1つのツール
「検定すること=P値を出すこと」と思われている方もいるかもしれませんが,これは決定的な間違いです.確かに検定でP値は必要ですが,P値は結論を得るための1つのツールです.
もう一度いいますが,検定で大事なのは“有意差あり/有意差なし”という結論です.P値は,あくまで確率を表しているものです(詳細は後述).一方で検定は,結論を得るための手法です.
② 重要なのは,検定の概念
くり返し述べてきたように,検定は,“有意差あり/有意差なし”という結論を得るための手法です.そのため,検定を行ううえでは,どういった手順で検定を実施するかという,概念を知ることが一番重要です.この概念を,本書では最も重要視しています.多くの書籍やWebサイトでは「どの検定を使えばよいか?」「どうやったらP値を出せるか?」ということが重視されすぎています.そのために,検定=P値,さらには,統計=P値というイメージがつきまとうようになりました.
私たちがデータを解析するときに一番重要なことは,
“データを適切に処理し,適切な解釈をすること”
です.決して“小さいP値を得る”ことではありません.このことを念頭においていただければと思います.
3 αエラーとβエラー
① 検定にはエラーが生じる
統計的検定をはじめとする“判断が伴うこと”に関して,私たちは必ずといっていいほどエラーと向き合うことになります.統計的検定は,標本データで母集団がどうなっているのかを“判断している”ということができます.「真実(母集団全体のデータがあればわかる真の値)」に対する「判断結果(標本による推定)」には,正解と不正解(エラー)があります.そして,統計的検定においては,エラーは2種類あります.αエラーとβエラーです.それぞれ,第一種の過誤(Type Ⅰ error),第二種の過誤(Type Ⅱ error)とも呼ばれます.
αエラーは,真の薬効(仮に母集団を調べることができた場合の真の効果)がないにもかかわらず,検定で有意差ありという結果になった場合のエラーを意味しています.また,βエラーは,真の薬効があるにもかかわらず,検定で有意にならない場合のエラーを意味しています(表1).
② 株式投資でみるαエラーとβエラー
αエラーとβエラーに関して,株式投資の例で具体的に考えてみましょう.
ある株に“投資する/投資しない”を判断するとします.この判断では,皆さんはなにを考えて投資をする/しないを判断しますか? そう,その株価が将来,値上がりするのかどうかを考えますね.すると,“株価が上がる/下がる”を考えて,“投資する/投資しない”の判断をすることになります.ということは,投資すると決めた結果,株価が上がればOK(正解)で,投資しないと決めた結果,株価が下がれば,これもOKですね.
では,投資すると決めた結果,株価が値下がりした場合はどうなるでしょう.また,投資しないと決めた結果,株価が上がった場合にはどうでしょうか? これら2つの場合には,エラーを犯したということになります.どんなエラーでしょうか.次のように考えてみましょう(表2).
①投資すると決めた結果,株価が値下がりした場合は,慌ててしまったエラーです.
②投資しないと決めた結果,株価が値上がりした場合には,ぼんやりしていたエラーです.
前者がαエラー,後者がβエラーになりますね.そのため,
“あ(α)わてん坊のエラー,ぼ(β)んやり者のエラー”
こんなふうに考えると,覚えやすいです.
③ αエラーとβエラーは誰の不利益になる?
このαエラーとβエラーですが,臨床試験(特に第Ⅲ相などの検証的試験)ではどれくらいにエラーの確率を抑えなければならないかというのが決まっています1).
“αエラーは5%に,
βエラーは20~10%(試験によって異なる)”
にするのが基本です.ここで疑問になるかもしれません.なぜαエラーが厳しく,βエラーはそれよりも少しゆるいのか? その答えは,それぞれのエラーが起こると,誰にとって不利益になるかを考えるとわかります.
αエラーは,薬効がないものを誤って薬効があると結論づけるエラーです.つまりどういうことかというと,αエラーは薬効がないものを処方される,患者さんにとって不利益になるエラーといえます.
では,βエラーはどのようなエラーでしょうか.βエラーは薬効があるものを誤って薬効がないと結論づけるエラーです.つまり,βエラーは薬効があるのに承認されない,企業にとって不利益になるエラーといえます.
臨床試験でαエラーを5%にすることは,規制当局(国から委託された医薬品を審査する機関)からの要件でもあります.つまり,国が効果のないものを患者さんに届けるわけにはいかないという姿勢の表れでもあります.
一方で,βエラーは試験によって異なります.企業にとってその薬剤開発が失敗できないと判断するのであれば,βエラーを小さくします.しかし,βエラーを小さくすると,必要な症例数が多くなります(これは第4章-1の症例数設計のところで解説します).症例数が多くなると,開発コストが上がります.そのため,現実的には,開発コストとのバランスを考えていく必要があるのです.
- 文献
1) 厚生省医薬安全局審査管理課長:「臨床試験のための統計的原則」について(医薬審第1047号 平成10年11月30日).ICH-E9.
https://www.pmda.go.jp/files/000156112.pdf
