本書を一部お読みいただけます

第1部　査読のリアル

2　査読の心得

査読を引き受けることになった場合に，どのような点に注意して評価すべきであろうか？　査読の本来の目的とは何なのかを考えながら，査読者がすべきこと，してはならないことをまとめてみたい．

何を評価すべきか

査読者の役割にはいくつかあると考えられているが，査読者はその論文が出版にふさわしいかどうかの判断に主なエネルギーを使うべきだと筆者は考えている．専門家として建設的なコメントをして論文をよりよいものにしてあげるという（サービス精神旺盛な）役割もあるかと思う．しかし，これは本来であれば共同研究者，研究室のメンバー，所属する機関や学会が行うべきことである．ボランティアで行う査読者にそこまで求めるのは過剰であるように思う．過剰なサービスをすることがいわゆる「査読疲れ（reviewer fatigue）」を助長し，それが査読辞退につながってしまうとすれば本末転倒である．投稿する立場からは「無料で専門家の意見が聞けるのだからこのあたりで一度投稿してみよう」というようなことをたまに聞くが，これは論文投稿の目的としては正しくないと思う．このような目的で査読者の貴重な時間を使ってはいけない．そのまま出版しても大丈夫であると自信を持って言える論文だけを投稿してほしいものである．

実際に評価すべき項目には次のようなものがある．

① 正当性（正しい方法で実験され，解釈されているか）
② 論理性（主要な結論が論理的にサポートされているか）
③ 新規性（主要な結論が新しいものであるか）
④ 重要性（インパクトや興味深さ）
⑤ 普遍性
⑥ 倫理性
⑦ 論文の体裁

ここで①～④はすべての論文に共通，⑤と⑥は該当する場合のみ，⑦はオプションである．特に①と②はすべての論文で必須である．ジャーナルインパクトファクター（JIF）^※ が1のジャーナルでも20のジャーナルでも，間違った方法でなされた研究や，ロジックが崩壊している論文は採択されるべきではない．③の新規性もジャーナルによってさほど大きくは変わらないと思われる．④の重要性は主観的な判断になるが，研究によって大きな差があり，ジャーナルが求めるレベルにも大きな違いがある．高インパクトの総合誌であれば⑤の普遍性も重要な基準になるとされてはいるが，分野外から見るとさほど普遍性があるとは思えない論文もかなり掲載されているように見えてしまう．

したがって，査読者が気にすべきことのほとんどはジャーナルを問わず同じであるといって良い．ダメな論文はどのジャーナルでもダメなのである．ジャーナルによって大きく基準が異なるのは結局のところ④の重要性ということになる．しかし，重要性というのは人の主観に基づくので，ジャーナルの投稿規定の採択基準には明記されていない．どのジャーナルにはどの程度の重要性が求められるというのは，編集者，著者，査読者の間でそれとなく共有されているわけである．ただし，これは重要性の審査こそが大切だというわけでは決してない．真に重要なことを示そうと思えば，厚く手の混んだ実験が必要になり，そうなると正当性①のハードルも上がる．重要なコンセプトを示そうと思えば，何重もの証拠の積み重ねが必要となり，論理性②のハードルも上がる．当然ながら，みんなが驚くような強烈な新規性③も必要である．やはり，項目①～③の審査も大切なのである．

それでは各項目について個別に見ていこう．

① 正当性

適切な方法が採用されているか

専門家として，分野のスタンダードに照らし合わせて適切な実験方法や研究材料が採用されているかどうかを判断する．例えば，弱点のあることがわかっている実験系だけを使っている場合や，多機能であることがわかっている遺伝子をノックアウトして特定の機能だけを解析するような場合などは，適切に批判する必要がある．

コントロールが適切に設定されているか

これも専門家ならではの評価が必要である．適切なコントロール^※ が含まれていない場合は非常に多い．薬剤の非特異的反応やノックダウンのオフターゲット効果なども適切なコントロールを含めることでかなり除外できるはずである．

データの解釈（特に統計学的解析）が適切か

生物学や基礎医学のデータの多くは統計学的に解釈される場合が多いので，その方法が適切かどうかは重要である．実験を何回繰り返したか（ｎ数），あるいは再現性がとれているかの記載は必要である．最近では，ジャーナルが用意したチェックリストに著者が記入するパターンもあるが，ジャーナルオフィスがその内容をきちんと見ているかどうかはわからない．査読者も精査すべきである．また，統計解析方法の妥当性もみる必要がある．特に，パラメトリックかノンパラメトリックか，１対１の比較か多群比較かなどに注意し，誤った検定方法が採用されていないかどうかをチェックする．一方で，p値の扱いについては最近議論が多い．米国統計学会は，もはや「統計学的に有意（statistically significant）」という言葉を使わないようにとの声明を出している^1）．そもそもｎ数が３など少数の場合，p値をもって有意かどうかを論じるのはほとんど意味がない．よりｎ数が多いときにp値を計算することはよいだろうが，査読者として小さいスケールの実験に対して「統計学的に有意かどうかを検定するように」と求めるのは慎重になったほうがよいであろう．「p値が0.05以上なのでこれらのサンプル間には差がないはずだ」のような誤った指摘をしないためにも，統計については一度きちんと勉強されておくことをおすすめする^{1）
〜3）}．また，統計学的解析とは，本来は仮説を検証するためのものである．それにも関わらず，統計学的解析をして有意差のあるところを探し出してから仮説をたて，あたかも仮説が実証されたかのように見せかけるという不適切なケースがある．これらはp-hacking^4）やHARKing（hypothesizing after the results are known“結果がわかってから仮説を立てる”）^5）と呼ばれており，実際かなり多く見られる．その他，よくある統計学的ミスについては他の総説などを参考にすると良い^6）．

評価に耐えうるデータか

よくあるのが，シグナルが飽和しているウエスタンブロットや，小さくてよくわからない蛍光顕微鏡写真などである．このようにそもそもデータの質が悪くて評価に耐えないときはその旨をきちんと指摘する．

データ加工が適切か

生物学分野で最近特に問題になっているのがデータの誤った加工である．バックグラウンドシグナルの過剰な除去や，ウエスタンブロットの切り貼りなどである．これも投稿規定や投稿時のチェックリストに記載されているが，不適切なものが非常に多い^7）．ジャーナルによってはこの点をまずチェックしてから査読に回してくれるものもあるが，査読中に気づいたら指摘すべきである．しかし，著者が意図的に隠そうとしているものを一般の査読者が見つけ出すのはほぼ不可能であり，そのようなことに時間を使うのは査読の範囲を超えていると考えられる．

② 論理性（主要な結論が論理的にサポートされているか）

相関と因果関係を混同していないか

よくあるのが，相関と因果関係を混同している場合である．明らかに相関しか示されていないのに，「AがBに必要である」のように因果関係があると結論しているケースが多い．この場合は，因果関係を示すために必要な実験を提案するべきである．しかし，実際は因果関係を示すのは簡単ではない場合が多い．例えば，フィードバックループを含むような複雑なシステムにおいて因果関係を示すのは難しい．しかし，論文の主要な結論が因果関係であるのに，それを示せていないのであれば不十分と言わざるを得ない．ハイインパクトジャーナルにリジェクトされる場合の常套句の一つは「rather descriptive (not mechanistic)」である．この場合，相関とdescriptive，因果関係（特に分子レベルの）とmechanisticがほぼ同義で使われているケースも多い．

結論に至る解釈や論理の妥当性

論文はロジックの積み重ねである．したがってプレゼンテーションの流れが論理的かどうかを評価すべきである．提示されているデータから得られる結論が，著者が述べているものだけかどうかをチェックする．その他の解釈が可能であるにも関わらず，特定の解釈だけを採用しているのは拡大解釈となる．具体的に他の解釈を挙げて，それらと区別するためにどのような実験が必要かを指摘する．どのようにしても区別不能であればその旨を記載する．論文として解釈が100%正しいというのはありえないだろうが，50%というのは困る．言い出せばきりがないので，ほとんどありえない可能性を指摘するのはやめたほうが良いだろう．

③ 新規性

一般に，論文には新規性が求められる．内容が正しくても「limited advance」としてリジェクトされる論文は多い．しかしこの判断はなかなか難しい．あるタンパク質や細胞の新しい機能の発見，病気の新しい遺伝子の発見などの新規性の評価はしやすいが，新しいコンセプトの発見や方法の開発のようになると新規性の評価は簡単ではない．著者自らが「novel」や「for the first time」と書いている場合もあるが（しばしばto our knowledgeのような牽制句とともに），それを信じて良いかどうかは一概には言えない（そのため，このような新規性を直接的に示す言葉の使用を禁止しているジャーナルもある）．専門分野の査読者として，わかる範囲で新規性はきちんと評価したい．また，似たような研究があったということを，IntroductionではなくDiscussionで初めて触れるのはルール違反なので指摘するべきである．

不幸にも，投稿中あるいは論文改訂中に他のグループから同じ内容の論文が発表されてしまった場合の扱いはジャーナルによって異なる．JIFの高いジャーナルの場合，リバイスを要求する手紙の文面に，「改訂中に他から同じ内容の論文が発表された場合は採択を見合わせる場合がある」とわざわざ書いてある．一方で，最近は「スクープ・プロテクション」という制度を採用しているジャーナルも増えてきている（EMBO J，EMBO Rep，eLife，J Cell Sci，PLOS Biol，Life Sci Allianceなど）．これは初回査読時に新規性があると判断されれば，論文改訂中に他から類似論文が出ても不問にするという仕組みである．著者にとっては安心して論文改訂に取り組めるのでありがたい制度である．しかし，初回投稿時は新規性をしっかりと評価する必要がある．同様に，bioRxivなどのプレプリントサーバーで公開している場合も，新規性は担保されるというジャーナルも多い．一方で，そのような論文の投稿を認めないジャーナルもあるようなので，新規性の判断はジャーナルごとに異なるというのが現状である．

④ 重要性

前述したとおり，ジャーナルによって判断基準が大きく異なるのはこの項目である．いわゆるハイインパクトジャーナルは，科学的に正しい論文でも，インパクトがないことだけを理由に論文を却下できる．査読者も，その論文がコミュニティーにとってどれだけ重要でインパクトが有るかの主観的意見を求められる．例えば

その分野の長年の重要問題に答えたものかどうか
論文の結論が多くの研究者にとってエキサイティングであるか
パラダイムシフトとなるような画期的なものかどうか
従来とは異なる新しい方向性を生み出しうるか
社会的な波及効果が大きいかどうか
画期的な方法論の開発や，データ（リソース）の取得か

などである．もちろんすべてを満たす必要はないが，複数に該当すればそれだけインパクトも大きいということになろう．なお，PLOS One誌は前述の①〜③が満たされていれば，④の主観的な重要性は基本的に問われないということにしている点でユニークである．

⑤ 普遍性

特定の分野の研究者だけではなく，分野外の研究者も読むべき論文かどうかを判断する．これは総合誌の場合，査読のポイントとしてあげられることが多い．これが足りないと「specialized journalへ」という例の文言とともに却下となる．

⑥ 倫理性

特にヒトを対象にした研究の場合，専門的なチェックが必要である．動物実験や組換えDNA実験なども含まれる．しかし，今の時代は各機関できびしく指導されているので，基礎研究でこの点が問題になることは少ないように思われる．

⑦ 論文の体裁

論文が長すぎないか，不要な図やサプリメントがないかなどをチェックする．また，引用文献が適切かどうか，バランスが取れているかどうかにも目を通す．特に総説の場合は重要である．しかし，自分の論文を引用するように指示したり暗示したりするのはときに不適切になりうるので慎重にすべきである．

文献

Wasserstein R, et al：Moving to a World Beyond“ p < 0.05”. Am Stat, 73：1–19, 2019
Amrhein V, et al：Scientists rise up against statistical significance. Nature, 567：305-307, 2019
Wasserstein R & Lazar N：The ASA Statement on p-Values: Context, Process, and Purpose. Am Stat, 70：129–133, 2016
Simmons JP, et al：False-positive psychology: undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychol Sci, 22：1359-1366, 2011
Kerr NL：HARKing: hypothesizing after the results are known. Pers Soc Psychol Rev, 2：196-217, 1998
Makin TR & Orban de Xivry JJ：Ten common statistical mistakes to watch out for when writing or reviewing a manuscript. Elife, 8：doi:10.7554/eLife.48175, 2019

科学を育む　査読の技法

＋リアルな例文765

第1部　査読のリアル

2　査読の心得

何を評価すべきか

① 正当性

適切な方法が採用されているか

コントロールが適切に設定されているか

データの解釈（特に統計学的解析）が適切か

評価に耐えうるデータか

データ加工が適切か

② 論理性（主要な結論が論理的にサポートされているか）

相関と因果関係を混同していないか

結論に至る解釈や論理の妥当性

③ 新規性

④ 重要性

⑤ 普遍性

⑥ 倫理性

⑦ 論文の体裁

文献

科学を育む　査読の技法

＋リアルな例文765

科学を育む 査読の技法

＋リアルな例文765

第1部 査読のリアル

2 査読の心得

何を評価すべきか

① 正当性

適切な方法が採用されているか

コントロールが適切に設定されているか

データの解釈（特に統計学的解析）が適切か

評価に耐えうるデータか

データ加工が適切か

② 論理性（主要な結論が論理的にサポートされているか）

相関と因果関係を混同していないか

結論に至る解釈や論理の妥当性

③ 新規性

④ 重要性

⑤ 普遍性

⑥ 倫理性

⑦ 論文の体裁

文献

科学を育む 査読の技法

＋リアルな例文765

科学を育む　査読の技法

第1部　査読のリアル

2　査読の心得

科学を育む　査読の技法