内科開業医のお勉強日記: 統計

ラベル統計の投稿を表示しています。すべての投稿を表示

2019年3月23日土曜日

「統計的有意」に弊害

「統計的有意」には弊害があるとして800人以上の科学者が反対を表明 - GIGAZINE
https://gigazine.net/news/20190322-scientists-against-statistical-significance/
2019年03月22日 20時00分サイエンス

「有意かどうか」が研究結果の結論を左右するようになり、「研究が発表されるかどうか」や「実験が助成金を受けられるかどうか」などまで支配するようになっているとのこと。

アメリカ統計学協会事務局長ロン・ワッサースタイン氏は

「実験結果を改ざんして、P値を自分の望む数値に近づける研究者や、実験に意義がある場合でも有意ではないために実験結果を公表しない研究者もいる」

と述べています。

一般の人々と同様に、科学者も「統計的に有意であれば結果は真である」と信じがちです。
ノースウェスタン大学のブレイク・マクシェーン氏は

「実験の状況により、実験結果がガラッと変わり得ることはあり得りえます。『真』か『真でない』のかの2択ではなく、もっと曖昧な結論、例えば健康に害があるかもしれない食べ物を食べるならば、『有害か』『無害か』ではなく、『健康に対するリスクはどれくらいだろう』ということを考えることが大切です」

とコメントしています。

Scientists rise up against statistical significance
Valentin Amrhein, Sander Greenland, Blake McShane and more than 800 signatories call for an end to hyped claims and the dismissal of possibly crucial effects.
Nature , 20 MARCH 2019
https://www.nature.com/articles/d41586-019-00857-9

講演会（セミナー）で演者が

there was ‘no difference’ between two groups because the difference was ‘statistically non-significant’?　；　”差が統計学的有意差がないため2群間は差が無い”

と言うのを聞いたのは最近はいつ？おそらく直近の講演会での出来事ではないか？

研究者たちは、”統計学的に有意でない”とは、”「帰無仮説」(グループ間で差が無い、あるいは、治療により特定の測定アウトカムへ影響がない)と言い続けている。また、”統計学的に有意でない”という結果は、他の仮説を証明しているわけでもない。かような誤解は、（多く知られているが）記載を大幅に歪ませ、誇張表現をもたらし、（余り知られてないが）”研究が存在しないところで主張の衝突をそもたらすなどmisconceptionからの餌食にならない工夫が必要

researchers have been warned that a statistically non-significant result does not ‘prove’ the null hypothesis (the hypothesis that there is no difference between groups or no effect of a treatment on some measured outcome). Nor do statistically significant results ‘prove’ some other hypothesis. Such misconceptions have famously warped the literature with overstated claims and, less famously, led to claims of conflicts between studies where none exists.

ということで・・・まずは、「P値」が0.05などの閾値より大きい、あるいは、信頼区間に”ゼロ”が含まれているという理由だけで"no difference"、"no association"という結論記載を止める事

ある特定の暴露があるリスクをリスク比で 1.2となった。一つの研究では有意差有り、もう一つの研究では有意差なしという報告。後者で「関連性なし」と報告することの問題点は明らかで、しかもこれにより議論・軋轢を生じることがままある

2016年に、American Statistical Associationがステートメントを公表。統計学的有意さとP値使用に関する警告

P値記載の25年間推移　2016

"統計学的有意”という概念を完全放棄すべきという・・・

では、どうしたらよいの？

結果を「統計学的に有意」と「統計学的に非有意」とまとめるとことはせず、ベイズ因子のような他の統計学的値による評価の開発を進め、2分割的評価を止める事を筆者は勧めている

e.g. )ベイズ・ファクター
https://to-kei.net/bayes/bayes-test-4/

Number Needed to Treat　2019

2018年5月29日火曜日

食事アンケート大集団調査の愚行（卵摂取量と心血管医ベント）

食事アンケート調査によりクリニカルアウトカムと結びつける報告多いが、Medpageで随分批判されている。まぁ似たような報告は多く、比例ハザードモデル解析だけで論評する講演経験しなんだか不満累積してたところで小気味が良い

「食事摂取回数と特定の健康アウトカムの影響研究なんて意味がありません。以下の論文を使って解説してみましょう」

I'll put it really plainly: Studies that use responses to a food-frequency questionnaire to link to some health outcome are not worth the paper they are printed on. And so let me use this recent egg study as an object lesson in the problems with dietary epidemiology research.

https://www.medpagetoday.com/blogs/themethodsman/73009

比例ハザードモデルといってもリスク補正十分されたとは言えない、社会・経済的背景を受け、味覚要素さえ影響を受ける。フォアグラ( foie gras)を食す人間と食さないのを比較して、この要素で生命予後や心血管疾患予後を推し量る愚とのこと

意訳をかなり含むが・・・

1）まず誰もランダムに食事を取ることなんてしない、例外は、評価家の2歳児で・・・、社会、経済、プラクティカル、味覚要素など食事の選択理由なんて様々。この単純な研究では多共役要素を補正してない。フォアグラの例・・・

2）卵はいろんな食品に含まれる。故に、この調査法だと信頼性が低い

3）130を超える食品アイテム調査で、偶発的蓋然性、偽陽性確率が高くなる可能性指摘（日本のくだらない人間ドック商売と一緒でたくさん調べれば異常を検出する確率高くなり、医療商売に結びつきやすいのと同じ）

4）130以上のアイテムに限定しているが、実際上はそれ以上の食品内容を摂取している。意図的な選択バイアスがかかっている。

5）サンプル集団が大きい、50万もの調査の時は有意差示しやすい。多ければ多いほどよいというものではなく、普通の人間が一生涯関わりの無いイベント確率で杞憂しているようなもんだ。研究自体の意味が無い・・・

以下、その論文

Associations of egg consumption with cardiovascular disease in a cohort study of 0.5 million Chinese adults
BMJ, Heart
http://heart.bmj.com/content/heartjnl/early/2018/04/17/heartjnl-2017-312651.full.pdf

中国の異なる10地点、３０−７９歳５００万名
層別化Cox比例ハザードモデル解析

ベースラインにおいて通常１日 0.76個、連日摂取13.1％、滅多に食べない群 9.1％(通常摂取 1日0.29個）
卵非摂食者に比べ、卵摂取はCVDリスク低下　 (HR 0.89, 95% CI 0.87 to 0.92)

多変量補正HRs(95%CI)　IHD 0.88 (0.84 to 0.93)、MCE 0.86 (0.76 to 0.97)、出血性卒中 0.74 (0.67 to 0.82)、虚血性卒中 0.90 (0.85 to 0.95)

全CVDエンドポイントにおいて、量依存相関認める　線形傾向　P＜ 0.05

連日卵摂取はCVD死亡リスク18％減少、出血性卒中死亡 28%減少

この絵の方がインパクトある

2018年3月23日金曜日

P値 0.05 → 0.005 へ

ピーチとどこぞかの航空会社が合併するとか・・・今回、それではないP値の話

これは下記Natureの解説となっている

The Proposal to Lower P Value Thresholds to .005
John P. A. Ioannidis, et al.
JAMA. Published online March 22, 2018. doi:10.1001/jama.2018.1536

すでに、ゲノミクスの話では、有意性閾値は 5×10^-8が用いられており、0.05、0.01という常識は崩れつつある。とはいうものの要約、フルテキストの96％は 0.05以下というP値を記載

P値といえば 0.05未満、時に 0.01未満とするがその問題点としての誤用、過剰信頼、誤解など指摘され続けている。ASA(American Statical Association)2016年ステートメントにおいて、最多の誤解は｢仮説が真である確率｣というもの。例えば、｢帰無仮説が2％ほど真実であり、対立仮説が98％正しい｣という表現。full reportと透明性が適切なレポートには要求されるが、P値はそれを保証するものでなく、逆に、P値小さければ選択性・非透明性の可能性の疑義を持たなければならない。P値は特異的な閾値を超えるかどうかで科学的、ビジネス的、政策決定を決めてしまうことがあることで、P値は結果の重要性、effect sizeを測定しているものではないことが重要
P値が少しだけ下回るような報告では誤謬である可能性あり

P値閾値を 0.05から0.005へ移動することで、過去の生物学的文献の1／3ほどを示唆的というカテゴリーにシフトすることになり、雑に言えば｢白黒｣｢有意・非有意｣区分けには便利

総説的には、歓迎の方向と読み解いた

Redefine statistical significance
Daniel J. Benjamin, et al.
https://www.nature.com/articles/s41562-017-0189-z

We propose to change the default P-value threshold for statistical significance from 0.05 to 0.005 for claims of new discoveries.

ベイズ因子とP値の関係

P値閾値と偽陽性率

プライマリエンドポイントではないセカンダリエンドポイントでP値 0.05近傍の報告を後生大事にして、治療方針決定上のガイドラインを提示するお偉いさんのいる学会があるらしい(皮肉）

2016年7月6日水曜日

ASA：P-値に関するステートメント

”ベイズ的〈ポストp値時代〉の統計学”とやら・・・

遅ればせながら・・・

American Statistical Association (ASA)ステートメント：

Principles

P-values can indicate how incompatible the data are with a specified statistical model.
P-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone.
Scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold.
Proper inference requires full reporting and transparency
A p-value, or statistical significance, does not measure the size of an effect or the importance of a result.
By itself, a p-value does not provide a good measure of evidence regarding a model or hypothesis.

他アプローチ

These include methods that emphasize estimation over testing, such as confidence, credibility, or prediction intervals; Bayesian methods; alternative measures of evidence, such as likelihood ratios or Bayes Factors; and other approaches such as decision-theoretic modeling and false discovery rates.

All these measures and approaches rely on further assumptions, but they may more directly address the size of an effect (and its associated uncertainty) or whether the hypothesis is correct.

AMERICAN STATISTICAL ASSOCIATION RELEASES STATEMENT ON STATISTICAL SIGNIFICANCE AND P-VALUES
Provides Principles to Improve the Conduct and Interpretation of Quantitative Science March 7, 2016
https://www.amstat.org/newsroom/pressreleases/P-ValueStatement.pdf

Statisticians issue warning over misuse of P values Policy statement aims to halt missteps in the quest for certainty.
http://www.nature.com/news/statisticians-issue-warning-over-misuse-of-p-values-1.19503

信頼区間・尤度比あたりに落ち着くのかな
decision theoretic modeling、FDR(False Discovery Rate)(*)あたりは今後学習対象として重要？

2016年3月17日木曜日

P値記載の25年間推移

”P ＜（小文字） 0.05” ってのは文字化けするからきらいという個人的感想はともかく、信頼区間、effect size他uncertainty metrics表示が望ましく、"P ＜ 0.05"値のみ記載は問題。
P値＞0.05なら同等などとふざけた宣伝はさすがに見かけなくなったが、相変わらず、ｐ値の誤用が目立ち、御解釈やミスリードに利用されることもあると序文。

ここ25年間で“P値＜０．０５”表示頻度の推移などPMCフルテキスト、MEDLINE要約を調査

MEDLINE要約をText Mining手法により抽出

Evolution of Reporting P Values in the Biomedical Literature, 1990-2015
David Chavalarias, et. al.
JAMA. 2016;315(11):1141-1148. doi:10.1001/jama.2016.1952

要約とフルテキストにおける P値記載（0.05 , 0.001）に強い集積性分布が見られる

経年的に、"最良"（最も統計学的有意）報告P値は少なくなり、"最悪"（最小の統計学的有意）報告P値は次第に有意でなくなっている
Over time, the “best” (most statistically significant) reported P values were modestly smaller and the “worst” (least statistically significant) reported P values became modestly less significant.
P値を有するMEDLINE要約とPMCフルテキスト記事のうち、最低１つのP＜0.05記載は96％
1000レビューをマニュアルレビューしたところ、796でempirial data報告
P値報告要約中　15.7% (125/796 [95% CI, 13.2%-18.4%])
信頼区間報告　2.3% (18/796 [95% CI, 1.3%-3.6%])
Bayes factors　0% (0/796 [95% CI, 0%-0.5%])
effect sizes　13.9% (111/796 [95% CI, 11.6%-16.5%])
P値推定誘導可能なinformation　12.4% (99/796 [95% CI, 10.2%-14.9%])
有意差のqualitative statement　18.1% (181/1000 [95% CI, 15.8%-20.6%])
最低1つのeffect size記載・最低1つの信頼区間記載は僅か 1.8% (14/796 [95% CI, 1.0%-2.9%])

99のマニュアル抽出フルテキスト記事で
P値報告 55
全てeffec size記載の信頼区間　4
Bayesian method　0
false-discovery rate　1
sample size/power calculation　3
プライマリアウトカム特異的 5

要約での頻度

A, Proportion of items that have at least 1 P value of .05 or less in MEDLINE abstracts, 1990-2015.
B, Proportion of articles that have at least 1 P value of .05 or less in PubMed Central abstracts and full-text articles and MEDLINE abstracts, 1990-2015.

Effect Sizesのタイプ

2015年6月2日火曜日

PRISMA：Network Meta-Analysis

PRISMA(Preferred Reporting Items for Systematic Reviews and Meta-analyses) statementは、完成度の高い報告書式ガイドライン

かつては、２つの治療群を比較するのが普通であったが、多数治療群を比較することが多く、間接的なものもあり、これらへの対処のため、Network Meta-analysisが試みられてきた。

PRISMAステートメントとして、この手法を高く評価している。

The PRISMA Extension Statement for Reporting of Systematic Reviews Incorporating Network Meta-analyses of Health Care Interventions: Checklist and Explanations
Brian Hutton, et. al.
The PRISMA Extension for Network Meta-analysis: Bringing Clarity and Guidance to the Reporting of Systematic Reviews Incorporating Network Meta-analyses
Ann Intern Med. 2015;162(11):777-784. doi:10.7326/M14-2385

Comparing Multiple Interventions Methods Group　A Network Meta-Analysis Toolkit
http://cmimg.cochrane.org/network-meta-analysis-toolkit

2014年1月8日水曜日

95%CI から 95%UIへ：confidence intervalという用語はふさわしくない　→　不確定区間へ

信頼区間：confidence intervalという用語はふさわしくないらしい

例えば・・・

↓

Smoking Prevalence and Cigarette Consumption in 187 Countries, 1980-2012Marie Ng, et. al.,JAMA. 2014;311(2):183-192. doi:10.1001/jama.2013.284692http://kaigyoi.blogspot.jp/2014/01/blog-post_8.html

不確定区間のほうが適切というフィロソフィーに基づく主張

http://en.wikipedia.org/wiki/Confidence_interval

信頼区間の元々の意味は、内在する不確実性に対する統計学的推論上の記述である。ベイズアプローチによる解釈の方法として条件付きで真の値を含む一定の確率の範囲ということになる。

http://andrewgelman.com/2010/12/21/lets_say_uncert/

・既知の解釈上困難性（平均解釈でオフィシャルに用いられるが、人々は、どのケースでもベイズ的解釈としてとらえる）
・信頼区間と、予測区間とに曖昧さ存在：古典的枠内での「推論：inference」と「予測:prediction」の違い
・confidenceの低い場合、ノイジーな状況で信頼区間が広い、よりconfidenceがある場合は、その信頼区間が狭い

登録: 投稿 (Atom)

内科開業医のお勉強日記