出版バイアスの程度は、一致してプラシーボ効果より優越性が示されており、以前の抗うつ薬よりは少ないが、認可機関当局へのデータ公表が無ければ、出版バイアスにより、有効性と無効性の境界は不明瞭ということになる。
Publication Bias in Antipsychotic Trials: An Analysis of Efficacy Comparing the Published Literature to the US Food and Drug Administration Database.
Turner EH, Knoepflmacher D, Shapley L (2012)
PLoS Med 9(3): e1001189. doi:10.1371/journal.pmed.1001189
8つの 第2世代の向精神薬 aripiprazole、 iloperidone、 olanzapine、 paliperidone、 quetiapine、 risperidone、 risperidone long-acting injection (risperidone LAI)、 ziprasidoneを 24のFDA登録市販前トライアルコホートを同定
FDAによるトライアル結果を 、ジャーナル論文結果と比較
研究結果と出版状況を比較し、2つのデータ情報源由来のeffect sizeを比較
24FDA登録トライアルのうち、4(17%)は出版されず
これらの内、3つはプラシーボを越える統計学的アドバンテージを示せず、一つは、統計学的にactive comparatorより劣性であった。
20の出版トライアルの内、ポジティブなものでなかった5つで、バイアス報告のアウトカムエビデンスが示された。
しかし、トライアル・アウトカムと出版状態との間の相関は、統計学的な有意に至らず
さらに、出版バイアスを伴うeffect size point の増加が軽度みられるが、統計学的な有意差に至らず
一方、非出版バイアスのeffect size(0.23, 95%信頼区間 0.07-0.39)は、出版トライアルのeffect size(0.47, 95% 信頼区間 0.40-0.54)の半分で、その差に有意差あり
日本の場合も厚労省は、製薬会社からの情報生データを公表すべきであろう。
effect sizeの勉強:
effect size、効果量(http://www.mizumot.com/method/mizumoto-takeuchi.pdf)
サンプル・サイズによって変化しない,標準化された指標である効果量(effect size)は、たとえば、「グループごとの平均値の差を標準化した効果量」の代表的な指標である Cohen’s dでは、“(介入の平均-対照群平均)/(SQRT(((介入群の標準差)^2+(対照群の標準偏差)^2))/2)で示される。
この計算から得られる値はグループごとの平均値の差を標準化したもの(standardized mean difference)になっている。
算出される数値は,標準偏差を単位として平均値がどれだけ離れているかを表しており,たとえば,d = 1 なら,1 標準偏差(SD)分だけ離れていることを意味する。効果量小(small effect size)という結果の場合、実質的な差は小さいということがわかる。
このように,効果量は,平均値と標準偏差のみでの直感的な判断とほとんど同じ解釈
ができるものなのである。また,効果量はp 値のようにサンプル・サイズによって影響
されることはないので,実質的な差を考えた場合には,統計的検定の枠組み(p 値)ではなく,効果量による解釈がふさわしいといえる。
つまり,統計的検定の結果を解釈する際には,p 値を判断の最終材料とするべきではなく,まずは平均値,標準偏差,そして効果量によって,実質的な差を検討すべきである。
また,研究における実験条件によっては,「有意差があっても(p < .05)効果量が小さい場合」もあれば,「有意差がなくても(p > .05)効果量が大きい場合」も考えられるため,有意差があろうがなかろうが,どちらにしても効果量は報告しなければならない(American Psychological Association, 2009;Field, 2009; Kline, 2004 など)。
よくある疑問としては,「効果量で実質的な差がわかるのであれば,統計的検定を行ってp 値を見る必要はないのではないのか?」というものであるが,「効果量のみでよい」ということはない。そもそも,効果量は確率を用いる推測統計とは目的が違うものであり,手元のデータから母集団にまで一般化を目指すのが統計的検定の目的なのである。
データのサンプリングがうまくいっていないために,手元のデータが「たまたま」大きな差が得られるデータだったという場合は,効果量だけの解釈ではその可能性が否定できない。
つまり,実質的な差を示す効果量が大きく,なおかつ統計的有意差もある(p < .05)というのが,理想的な統計的検定の形である。
Effect Size (ES) Lee A. Becker
http://www.bwgriffin.com/gsu/courses/edur9131/content/EffectSizeBecker.pdf