本しゃぶり

骨しゃぶりの本と何かを繋げるブログ

9割の人が知らない再現性の危機

本で読んだ知識をドヤ顔で紹介したら、その実験には再現性がありませんでした。
そんな恥ずかしい記事を書いたブロガーは誰でしょう?

そう、私です。

ステレオタイプ脅威はありますん

ちょっと前に「ステレオタイプ脅威」の記事が話題になっていた*1

世の中には「女性は数学に弱い」というような負のステレオタイプがある。自分のアイデンティティがそれに該当していると意識してしまうと、実際にパフォーマンスが落ちるというものだ。これは様々な実験の結果によって示されている。というのが記事で紹介されていた話だった。

ところが現在、その「実験結果」は再現性が無いと言われている。ステレオタイプ脅威の根拠は実験結果にあるというのに、その土台は不確かなものであるのだ。

100歩譲って、再現性が無いという研究があったとしても、それを踏まえた上で「ステレオタイプ脅威は存在する」と考えて記事を書いたならまだいい。しかし記事に追記されたことからも分かるように、著者の骨しゃぶりは単純に再現性が無いことを知らずに書いていた

それでも、再現性が無いことを知るために英語の学術論文を読まなければいけなかったのなら、まだ擁護する余地はある。実際、骨しゃぶりが根拠に使っていた本『ステレオタイプの科学』は、2020年4月に出版された本である*2。研究者でもない一般男性*3にそこまで求めるのは酷というものだろう。なにせ新聞の書評*4やHONZ*5でも、再現性については言及していないぐらいなのだから。

だが、この方向でも擁護することは厳しい。なぜなら日本語で「ステレオタイプ脅威 再現性」と検索すれば、再現性の問題が出てくるからだ。つまり骨しゃぶりは、5分もあればできる裏取りを怠っていたわけである*6。反省してもらいたい*7

注意しなければいけないのは、この再現性が無いという問題はステレオタイプ脅威に限った話ではないということだ。では、それはどれくらいの問題なのか。また、どうしてこのようなことが起きるのだろうか。

心理学における再現可能性危機

理想を言えばここで、上記ツイートで紹介されていた本『Science Fictions』から話を始めたい。

しかし残念なことに本書はまだ邦訳されておらず、英語版を読むのはハードルが高い*8。ではそれで諦めるかというと、それは違う。こういう時に大事なのは「オプションB」の精神である。「最良の選択肢 (オプションA)」がダメなら、「次善の選択肢 (オプションB)」に進むのだ。ここでの次善の選択肢は日本語の文献である。

幸いなことに、日本語でも俺の疑問に答えてくれる文献は存在する。特にお勧めなのがこの論文だ。

日本語かつ無料で読める。さらにもっと知りたい人のためにディレクターズカット版もとい追加的ノートもある。もちろんこちらも無料。

なので本記事を読むのはここまでにして、この論文を読み始めるのは賢い選択だ*9。なにせ素人のフィルターを通していない知識を得られるのだから。

それでも俺の文章を読みたい人、あるいは「こいつちゃんと理解しているのか」と疑っている人のためにも記事はこのまま書き続けよう*10。まずはステレオタイプ脅威が問題となった社会心理学の状況についてだ。

心理学における再現性の危機概要

ステレオタイプ脅威の実験に再現性が無いというが、これはステレオタイプ脅威固有の問題なのだろうか、それとも社会心理学全体に蔓延している問題なのか。『Science Fictions』の紹介ツイートからも検討がつくように、これはかなり範囲の広い問題らしい。

複数の科学雑誌に掲載されている論文の再現性を確認した2015年の研究では、社会心理学でp<0.05の再現性があったのは14/55、つまり25%しかなかった*11。それに比べると認知心理学は優秀で、50% (21/44) とまだ半分も再現性がある*12。ゆえに適当な社会心理学の論文を元に論を語るのには注意が必要だ。再現性という観点からすると、ハズレの確率が高いからだ*13

なぜここまでひどいことになっているのだろうか。上で紹介した論文では、下記図のような負のスパイラルを形成していると述べている。

f:id:honeshabri:20201206193138p:plain
心理学における再現可能性危機:問題の構造と解決策 図1

まず最初の要因である「弱い理論」だが、これは皆のイメージ通りだと思う。逆に「強い理論」の例は物理学である。ここで言う「強い/弱い」とは、知見の根拠相互依存性からなる制約だ。制約が弱いと何が問題なのか。それは仮説の的中率が下がることにある。

物理学の場合は前提となる知見が頑強であり、相互依存性も強い。このような強い制約があるため、的外れな仮説は立てにくい。対して心理学の制約は弱いため、誤った仮説も立てやすくなるわけだ。

f:id:honeshabri:20201206200601j:plain
物理学は最初からハズレがある程度は見えているが、心理学はハズレが見えない

仮説が間違っている確率が高まる。これが2つ目の要素である「真仮説の事前確率の低さ」だ。

よく実験結果に有意差があるかどうかの基準として「p<0.05」がある。有意差が無い仮定の下で、偶然そのような結果が出る確率は5%未満という意味だ。これで偶然でない可能性が高い = 有意差があると判断する。しかしp<0.05だからといって、それは95%以上の確率で仮説が正しいということを意味しない

仮に検出力 (本当に差がある時に、差があると判定できる確率) を80%とし、p=0.05の確認を行ったとする。しかし判定対象 (仮説) の9割が間違っていたらどうだろうか。

正しい仮説 誤った仮説
仮説を正しいと判定 8.0% 4.5%
仮説を誤りと判定 2.0% 85.5%

仮説を正しいと判定した場合、その判定が本当に正しい確率は2/3以下である。判定の精度が高くても、そもそも誤った仮説の方が多いからだ*14。真仮説の事前確率が低いと偽陽性が高まるのである。

f:id:honeshabri:20201206193138p:plain
心理学における再現可能性危機:問題の構造と解決策 図1

「審美基準」「出版バイアス」も一つの流れとなっている。心理学者は美しい研究を発表したいと考える。結果が一貫的で物語性があり、そして斬新なものだ。「調べたけど関係ありませんでした」なんて発表を誰がしたいと思うだろう*15。そのため、発表される研究は「上手く行ったもの」が多くなる。これが出版バイアスだ。

先程、結果の有意差を判断するのに「p<0.05」があると述べた。これは有意差が無い仮定の下で、5%未満の確率で偶然であること示す。では本来有意差の無いものを100人の研究者がp=0.05の手法で調べたらどうなるか。95人の研究者は有意差は無いと判断するが、5人の研究者は有意差があると判断する。そしてこの選ばれし5%の研究者だけが論文を雑誌に投稿する。読者からしたら、全ての研究者が有意差ありと言っているわけだ。

そして最後に統計を操るテクニックが使われる。

「きっとこうなるはずだ」そう思って実験したのにp値は5%を超えてしまった。きっとサンプル数が少なかったせいに違いない。研究費節約のため、必要最低限の人数でしか試せなかったからだ。サンプル数を追加して再実験してみよう。

これはTCGにおけるマリガン (手札の引き直し) みたいなものだ*16。もちろんサンプル数が増えるに連れ、p値の変動は小さくなり正確性は増していく。しかしサンプル数を追加するたびにp値は変動するのだから、偶然p<0.05となることは起こりうる。それで有意差があると言っていいものだろうか (良くない)。

こういったp値をコントロールする方法は「p Hacking」と呼ばれる。サンプル追加はp Hackingの一つに過ぎないが、多くの研究者が取ってしまいがちなテクニックだ。Leslie K. Johnらが2012年に2000人以上の心理学者を対象としたアンケートでは、サンプル追加を行った研究者は5割を超えた*17。これは俺の予想に過ぎないが、そもそもこの手法が統計を行う上でやってはいけいないことと認識していない人も多いのではないだろうか。サンプル数を増やすのだから、むしろ正確性が増すだろう、と。

p Hackingを紹介すると、研究者がフラットな視点で結果を見れないのが問題だと考える人もいるかもしれない。「この現象はあるに違いない」と決めつけるからそうなるように結果を操作してしまうのだと。これは一理ある。だから二重盲検法というものがあるのだ。だからといって完全にフラットな視点、仮説を立てずにデータを眺めるのはもっと悪い

どんなランダムなデータでも、何かしらの傾向は存在する。それは偶然にすぎないが、たしかにパターンは見えるものだ。

f:id:honeshabri:20201206221411p:plain
Blythwood, CC BY-SA 4.0, via Wikimedia Commons

その偶然のパターンを上手く説明できる理論を考える。こうすれば理論とデータは100%一致するわけだ。この「矢が刺さったところに的を描く」ような行為は、「Hypothesizing After the Results are Known(結果がわかってから仮説を立てる)」の頭文字を取ってHARKingと呼ばれている。

当然HARKingによって作られた理論は、その結果にしか適用されない。偶然の産物だからだ。しかし見た目は良い。なので探索と確認を混同し、やってしまう研究者は多いというわけだ。

f:id:honeshabri:20201206193138p:plain
心理学における再現可能性危機:問題の構造と解決策 図1

もう一度例の図を見てよう。これはループを描いている。新たな研究というものは、先人の研究結果の上に成り立つものである。しかし前提が誤っていたらどうなるか。当然、新たに立てた仮説も誤りとなる。これでさらに理論が弱くなり、真仮説の事前確率は低下する。こうして社会心理学の再現性は低下してしまったのだ。

こうなると、「心理学、特に社会心理学は信用ならない。この分野もはや科学ではないだろ」と言いたくなる人も出るだろう。残念ながら、これは心理学に限った話ではない。もっと科学っぽい分野、例えば生物医学でも同じ問題が起きていた。

生物医学の分野では

世界最大の独立バイオテクノロジー企業アムジェンで働いていたC・グレン・べグリーは、ガン研究のプロジェクトで論文の実験結果を再現できなかった。新薬のアイデアは学術研究機関が発表した論文を元にすることが多い。そしてまず論文の内容を再現から始めるのだが、上手く行かないことが多いのだ。

次の職へ移る前に、べグリーは過去を清算することにした。自分の研究チームが再現できず、諦めていた画期的な53本の論文を選び出すと、それを再現するために活動を開始したのだ。論文の著者本人たちに協力を求めながら再実験を行う。しかし、実験結果を再現できたのは53件中わずか6件にすぎなかった。

実験結果を再現できなかったのはべグリーだけではない。他の組織や研究者も再現に挑戦したが、結果は散々なものとなっている。

  • ドイツの製薬企業バイエルによる2011年の報告では、結果を再現できたのは25%*18
  • アメリカ細胞生物学会が2014年に行ったアンケートでは、回答者の71%が研究結果を再現できなかったことがあると答えた*19
  • 『ネイチャー』誌が2016年に行った調査では、回答した科学者の70%以上が実験の再現に失敗していた

この数字だけを見たら、社会心理学と対して変わらない。これは要因も同様である。生物医学に携わる研究者だって、研究は美しく、上手く行ったものだけを発表したい。統計学を専門としているわけではないから、p HackingやHARKingも行ってしまう。こうして発表された論文を元に新たな研究が行われるのだから、真仮説の事前確率は低下する。ここでもまた負のスパイラルが生じているのだ。

さらに生物医学特有の問題もある。研究に使われている細胞株が間違えていたり、変質していることもある。例えば乳がん細胞株とされていたMDA-MB-435は、実は黒色腫細胞株だということが2000年に判明した*20。この細胞株が摘出されたのは*1970年代**である。間違えられたのはいったいいつから?

しかも恐ろしいのは、黒色腫細胞株であると判明した2000年以降も、MDA-MB-435を使って行われた乳がん研究の論文が発表されていることである。その細胞株が研究に適切か、ちょっと検索すれば分かるのに、それをしない研究者は多いということだ*21

他にも再現性を下げる生物医学特有の要因は存在する。だが結局の所は、自ら再現性を確かめずに論文を発表するからだろう。それは、個人の問題というより仕組みの問題だ。

インセンティブとプレッシャー

日本は研究者に金が行き渡らないとよく言われる。しかし程度の差こそあれ、資金のことで研究者の頭を悩ませているのはアメリカでも変わりない。研究資金を獲得するには、成果を出し続ける必要がある。

ここでの「成果」とは何か。それはインパクトファクターの高い雑誌で論文を発表することである。もちろんインパクトファクターの高さは、論文の質の高さを保証しない。はてブの多い記事が必ずしも良い記事というわけではないのと同じである*22。しかしはっきりと示される数値なので、とても参考にしやすい。インパクトファクターを使えないなら、学部長たちはどうやって研究を評価すればいいのか。読む記事を人気エントリーから選んでいる人は、その気持ちが良く分かるだろう。

なので研究者たちはインパクトファクターの高い雑誌に論文を投稿するため、研究活動を最適化させる。既存の研究の再確認は時間の無駄である。新規性のある内容をより早く、より多く投稿する。サンプル数は最低限、なぜなら資金は限られているから。確実性より拙速を重視だ。インパクトのある内容ではてブを稼げ!

こうして再現性の低い研究結果が蔓延することになった。何度も言うように、再現性の問題はループ構造である。この問題は悪化の一途をたどることになる。

改善活動

とはいえ、専門外の人間である俺がこのような記事を書いていることから分かるように、現在この再現性の危機は広く知れ渡っている。当然、様々な人達が状況を改善しようと頑張っている。やっていることはどこか製造業に通じるものがある。

検査手順の標準化。例えば病理学の専門家と臨床腫瘍学の専門家を代表する2つの主要な職能団体は、2010年に新しいルールを定めた。その中には乳房組織の保存を手術から1時間未満にすることを求めている。それ以上放置すると組織が劣化し、検査によって検出される分子が分解されてしまうからだ。

基礎研究にも基準を求めようとする人もいる。ランダム化、二重盲検法、適切なサンプル数の用意。そういった「当たり前」と思われるようなことは意外にできていない。だから実施基準が必要なのだ。もちろんルールを定める以上、合わせて教育もしなくてはいけない。

そして何より透明性である。方法や結果をより細かく公開する。そうすれば再現に失敗する確率は下がるし、研究手法の問題もよく分かる。なんなら仮説さえも公開するのはどうか。事前審査付き事前登録制度はその一つだ。実験を行う前に、研究者は自分が何を求め、何をしようとしているのかを登録しなくてはいけない。そうすれば問題のある手法は予め指摘できるし、研究の途中でゴールを動かすことも防ぐことができる。

再現性の危機は、すぐには解消されないだろう。しかし、説明できる問題は半分解決しているとも言われる。この先はマシになっていくと思うが、どうだろうか。

終わりに

以上のように、学術研究の世界では再現性の危機が叫ばれている。だが最後に書いた通り、この問題に立ち向かおうとしている人達も多くいるのだ。

ここで最初の問題に戻ろう。再現性の危機がある中で、ブログ記事を書く上でどうしたらいいだろうか。ちょっとでも裏取りの調査をするのは当然だろう。しかしこれには限界がある。人は全てを知ることはできない。

なのでやはり重要なのは透明性ではないか。自分が何を根拠に書いているのか、そのソースを明確にするのだ。そうすれば間違っている場合、他者が簡単に指摘できる。ネットには学問の世界と同様、自己修正機能が備わっている。実際、ステレオタイプ脅威の記事は3日も経たずに指摘を受けた。自己修正機能を最大限に活かせるよう心がけていきたい。

【この記事で言っていないこと】

  • 俺は悪くない
  • 「9割の人が知らない」のソース

参考文献

この記事を書くのに使ったもの。

心理学における再現可能性危機:問題の構造と解決策

記事の初めの方でも紹介した論文。日本語で無料で、内容がコンパクトにまとまっている。俺の記事よりこっちを読もう。

生命科学クライシス

生命科学クライシス

生命科学クライシス

本記事の後半は本書を元に書いている。こちらは生物医学における再現性の危機を解説した本。再現性の危機の仕組みは基本的にどの分野でも変わらないようだ。上の論文だけでは物足りない人は本書を読むべき。

再現性が無さそうなネタの記事

本しゃぶりには再現性が怪しそうなネタがいろいろあるけれど、最近のだとこれが一番怪しいと思う。

*1:主にはてなブックマークで。

*2:出版社は再現性の問題を知っていたのだろうか。

*3:こう書くと声優と結婚できそうだが、そんなことはない。一般男性だと声優と結婚しやすいのではなく、単に一般男性と呼ばれる存在が多いだけだ。これを一般男性の誤謬と呼びたい。

*4:【書評】『ステレオタイプの科学』脅威に潜む人間の哀しさ - 産経ニュース

*5:『ステレオタイプの科学』 色眼鏡で見られると本当にできなくなってしまう - HONZ

*6:本人が言っているのだから間違いない。

*7:「本しゃぶりを鵜呑みにした人も反省してもらいたい」とは言わない。他の人が言うならともかく、当人が言うのはどうかと思うので。

*8:俺にとって。ハードルが高くない人は読んで書評を書いて。

*9:もっと賢い人の選択は『Science Fictions』を買って読むこと。

*10:それに俺にとっても得るものがある。書物から得た知識の多くが、ほったらかしにしておけばいつまでも "他人" なのだが、第三者にわかりやすく紹介してみせる事で初めて "身内" になっていゆく。エウメネスがそう言っていた。

*11:(PDF) Estimating the Reproducibility of Psychological Science

*12:コップの水理論かよ。

*13:もっともこれは2015年に発表された研究なので、以降に発表された論文なら確率は違うかもしれない。再現の成功率が上がっているといいのだが。

*14:1年前ならこれを理解するのに苦労する人は多かったかもしれないが、現在はPCR検査関連の話で知っている人も多いだろう。精度の高い検査でも、検査した人に陰性が多いなら偽陽性である確率は高い。

*15:ハズレを潰してくれるという意味では有用なのだが。

*16:引き直しと追加という違いはあるけれど。

*17:Measuring the Prevalence of Questionable Research Practices With Incentives for Truth Telling - Leslie K. John, George Loewenstein, Drazen Prelec, 2012

*18:Believe it or not: how much can we rely on published data on potential drug targets? | Nature Reviews Drug Discovery

*19:ASCB Member Survey on Reproducibility - PDF Free Download

*20:MDA-MB-435, and its derivation MDA-N, are Melanoma cell lines, not breast cancer cell lines. | NCI-60 Human Tumor Cell Lines Screen | Discovery & Development Services | Developmental Therapeutics Program (DTP)

*21:なぜか親近感を覚える。

*22:再現性の無い研究を紹介した記事に800ブクマ以上つくこともあるし。