科学を育む 査読の技法 改訂版〜+リアルな例文771

科学を育む 査読の技法 改訂版

+リアルな例文771

  • 水島 昇/著
  • 2026年01月15日発行
  • B5判
  • 192ページ
  • ISBN 978-4-7581-2142-2
  • 4,840(本体4,400円+税)
  • 在庫:あり
本書を一部お読みいただけます

第1部 査読のリアル

2 査読の心得

査読を引き受けることになった場合に,どのような点に注意して評価すべきであろうか? 査読の本来の目的とは何なのかを考えながら,査読者がすべきこと,してはならないことをまとめてみたい.

何を評価すべきか

査読者の役割にはいくつかあると考えられているが,査読者はその論文が出版にふさわしいかどうかの判断に主なエネルギーを使うべきだと筆者は考えている.専門家として建設的なコメントをして論文をよりよいものにしてあげるという(サービス精神旺盛な)役割もあるかと思う.しかし,これは本来であれば共同研究者,研究室のメンバー,所属する機関や学会が行うべきことである.ボランティアで行う査読者にそこまで求めるのは過剰であるように思う.過剰なサービスをすることがいわゆる「査読疲れ(reviewer fatigue)」を助長し,それが査読辞退につながってしまうとすれば本末転倒である.投稿する立場からは「無料で専門家の意見が聞けるのだからこのあたりで一度投稿してみよう」というようなことをたまに聞くが,これは論文投稿の目的としては正しくないと思う.このような目的で査読者の貴重な時間を使ってはいけない.そのまま出版しても大丈夫であると自信を持って言える論文だけを投稿してほしいものである.

実際に評価すべき項目には次のようなものがある.

  1. 正当性(正しい方法で実験され,解釈されているか)
  2. 論理性(主要な結論が論理的にサポートされているか)
  3. 新規性(主要な結論が新しいものであるか)
  4. 重要性(インパクトや興味深さ)
  5. 普遍性
  6. 倫理性
  7. 論文の体裁

ここで①~④はすべての論文に共通,は該当する場合のみ,はオプションである.特にはすべての論文で必須である.ジャーナルインパクトファクター(JIF)が1のジャーナルでも20のジャーナルでも,間違った方法でなされた研究や,ロジックが崩壊している論文は採択されるべきではない.の新規性もジャーナルによってさほど大きくは変わらないと思われる.の重要性は主観的な判断になるが,研究によって大きな差があり,ジャーナルが求めるレベルにも大きな違いがある.高インパクトの総合誌であればの普遍性も重要な基準になるとされてはいるが,分野外から見るとさほど普遍性があるとは思えない論文もかなり掲載されているように見えてしまう.

したがって,査読者が気にすべきことのほとんどはジャーナルを問わず同じであるといって良い.ダメな論文はどのジャーナルでもダメなのである.ジャーナルによって大きく基準が異なるのは結局のところの重要性ということになる.しかし,重要性というのは人の主観に基づくので,ジャーナルの投稿規定の採択基準には明記されていない.どのジャーナルにはどの程度の重要性が求められるというのは,編集者,著者,査読者の間でそれとなく共有されているわけである.ただし,これは重要性の審査こそが大切だというわけでは決してない.真に重要なことを示そうと思えば,厚く手の混んだ実験が必要になり,そうなると正当性のハードルも上がる.重要なコンセプトを示そうと思えば,何重もの証拠の積み重ねが必要となり,論理性のハードルも上がる.当然ながら,みんなが驚くような強烈な新規性も必要である.やはり,項目①~③の審査も大切なのである.

それでは各項目について個別に見ていこう.

① 正当性

適切な方法が採用されているか

専門家として,分野のスタンダードに照らし合わせて適切な実験方法や研究材料が採用されているかどうかを判断する.例えば,弱点のあることがわかっている実験系だけを使っている場合や,多機能であることがわかっている遺伝子をノックアウトして特定の機能だけを解析するような場合などは,適切に批判する必要がある.

コントロールが適切に設定されているか

これも専門家ならではの評価が必要である.適切なコントロールが含まれていない場合は非常に多い.薬剤の非特異的反応やノックダウンのオフターゲット効果なども適切なコントロールを含めることでかなり除外できるはずである.

データの解釈(特に統計学的解析)が適切か

生物学や基礎医学のデータの多くは統計学的に解釈される場合が多いので,その方法が適切かどうかは重要である.実験を何回繰り返したか(n数),あるいは再現性がとれているかの記載は必要である.最近では,ジャーナルが用意したチェックリストに著者が記入するパターンもあるが,ジャーナルオフィスがその内容をきちんと見ているかどうかはわからない.査読者も精査すべきである.また,統計解析方法の妥当性も見る必要がある.特に,パラメトリックかノンパラメトリックか,1対1の比較か多群比較かなどに注意し,誤った検定方法が採用されていないかどうかをチェックする.一方で,p値の扱いについては最近議論が多い.米国統計学会は,もはや「統計学的に有意(statistically significant)」という言葉を使わないようにとの声明を出している1).そもそもn数が3など少数の場合,p値をもって有意かどうかを論じるのはほとんど意味がない.n数がより多いときにp値を計算することはよいだろうが,査読者として小さいスケールの実験に対して「統計学的に有意かどうかを検定するように」と求めるのは慎重になったほうがよいであろう.「p値が0.05以上なのでこれらのサンプル間には差がないはずだ」のような誤った指摘をしないためにも,統計については一度きちんと勉強されておくことをおすすめする1) 〜3).また,統計学的解析とは,本来は仮説を検証するためのものである.それにも関わらず,統計学的解析をして有意差のあるところを探し出してから仮説を立て,あたかも仮説が実証されたかのように見せかけるという不適切なケースがある.これらはp-hacking4)HARKing(hypothesizing after the results are known“結果がわかってから仮説を立てる”)5)と呼ばれており,実際かなり多く見られる.その他,よくある統計学的ミスについては他の総説などを参考にすると良い6)

評価に耐えうるデータか

よくあるのが,シグナルが飽和しているウエスタンブロットや,小さくてよくわからない蛍光顕微鏡写真などである.このようにそもそもデータの質が悪くて評価に耐えないときはその旨をきちんと指摘する.

データ加工が適切か

生物学分野で最近特に問題になっているのがデータの誤った加工である.バックグラウンドシグナルの過剰な除去や,ウエスタンブロットの切り貼りなどである.これも投稿規定や投稿時のチェックリストに記載されているが,不適切なものが非常に多い7).ジャーナルによってはこの点をまずチェックしてから査読に回してくれるものもあるが,査読中に気づいたら指摘すべきである.しかし,著者が意図的に隠そうとしているものを一般の査読者が見つけ出すのはほぼ不可能であり,そのようなことに時間を使うのは査読の範囲を超えていると考えられる.

②論理性(主要な結論が論理的にサポートされているか)

相関と因果関係を混同していないか

よくあるのが,相関と因果関係を混同している場合である.明らかに相関しか示されていないのに,「AがBに必要である」のように因果関係があると結論しているケースが多い.この場合は,因果関係を示すための実験が必要であることを指摘するべきである.しかし,実際は因果関係を示すのは簡単ではない場合が多い.例えば,フィードバックループを含むような複雑なシステムにおいて因果関係を示すのは難しい.しかし,論文の主要な結論が因果関係であるのに,それを示せていないのであれば不十分と言わざるを得ない.ハイインパクトジャーナルにリジェクトされる場合の常套句の一つは「rather descriptive (not mechanistic)」である.この場合,相関とdescriptive,因果関係(特に分子レベルの)とmechanisticがほぼ同義で使われているケースも多い.

結論に至る解釈や論理の妥当性

論文はロジックの積み重ねである.したがってプレゼンテーションの流れが論理的かどうかを評価すべきである.提示されているデータから得られる結論が,著者が述べているものだけかどうかをチェックする.その他の解釈が可能であるにも関わらず,特定の解釈だけを採用しているのは拡大解釈となる.具体的に他の解釈を挙げて,それらと区別するための実験が必要であることを指摘する.どのようにしても区別不能であればその旨を記載する.論文として解釈が100%正しいというのはありえないだろうが,50%というのは困る.ただ言い出せばきりがないので,ほとんどありえない可能性を指摘するのはやめたほうが良いだろう.

続きは書籍にて
ご覧ください

文献

  • Wasserstein R, et al:Moving to a World Beyond“ p < 0.05”. Am Stat, 73:1‒19, 2019
  • Amrhein V, et al:Scientists rise up against statistical significance. Nature, 567:305-307, 2019
  • Wasserstein R & Lazar N:The ASA Statement on p-Values: Context, Process, and Purpose. Am Stat, 70:129‒133, 2016
  • Simmons JP, et al:False-positive psychology: undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychol Sci, 22:1359-1366, 2011
  • Kerr NL:HARKing: hypothesizing after the results are known. Pers Soc Psychol Rev, 2:196-217, 1998
  • Makin TR & Orban de Xivry JJ:Ten common statistical mistakes to watch out for when writing or reviewing a manuscript. Elife, 8:e48175, 2019
  • Rossner M & Yamada KM:What’s in a picture? The temptation of image manipulation. J Cell Biol, 166:11-15,2004
書籍概略はこちら
科学を育む 査読の技法 改訂版〜+リアルな例文771

科学を育む 査読の技法 改訂版

+リアルな例文771

  • 水島 昇/著
  • 4,840(本体4,400円+税)
  • 在庫:あり