Togetter/min.tで作ったまとめの「下書き保存」機能が便利になりました
第1章、数字はどうやって人を欺くのか 第2章、体験談というエビデンス 第3章、サンプルサイズ 結論および統計スタイルガイド
0
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

抜粋①) 『ニュースの数字をどう読むか~統計にだまされないための22章』Tom & David Chivers著、北澤京子訳、ちくま新書、10/2/2022 p.13 数字を用いた論争は、民主主義への参加能力に影響を及ぼしています。きちんと読み書きのできる住民がいなければ、民主主義国家が機能しないのと同じです。 pic.twitter.com/jJXBDoInAg

2022-04-26 00:49:20
拡大
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

第1章、数字はどうやって人を欺くのか  Simpson's Paradox は、" 生態学的誤謬 " (集団全体の平均像から、個人またはサブ集団について語ろうとする際に起きる誤り)として知られる、より大きな問題の一例です。記事の見出しに出てくる数字はより複雑な現実を隠していることがあり、さらに掘り下げて

2022-04-26 00:49:21
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

みる必要があります。  📌シンプソンのパラドックスのような状況では、同じデータであっても、自分の取りたい政治的立場によって、正反対のストーリーが作れてしまうのです。  2000年から2013年の間に、アメリカの賃金の中央値は実質ベースで(インフレ分の調整後に)約1%上昇しました。

2022-04-26 00:49:21
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

しかし、より小さな集団に分けて見れば、妙なことに気づきます。高校を中退した人の賃金の中央値は7.9%下がっています。高卒の人の賃金の中央値も4.7%下がっています。大学を中退した人の賃金の中央値も7.6%下がっています。さらに、大学で学士号を取った人の賃金の中央値も1.2%下がっています。

2022-04-26 00:49:22
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

どの教育レベルの人も賃金の中央値は下がったのに、全体では賃金の中央値は上がっていたのです。  じつは、大学で学士号を取った人の賃金の中央値は下がったのですが、卒業した人数がものすごく増えたのです。その結果、中央値には(平均値でも)奇妙なことが起こります。

2022-04-26 00:49:22
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

こうしたことは驚くほどよくあります。  アメリカの黒人は白人に比べて喫煙者が多いのですが、教育レベルで調整すると、「すべての教育レベルで」、黒人のほうが白人より喫煙者が「少ない」ことが分かります。これは単純に、喫煙者の少ない、教育レベルが高いグループでは黒人の割合が低いからです。

2022-04-26 00:49:22
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

COVID-19のR値(reproductive number)は、感染症疫学では1人の感染者から【平均して】何人が感染するかを指します。  R値が5で感染者が100人いた場合、100人全員がきっかり5人ずつにうつすこともあれば、99人は誰にもうつさず1人が500人にうつすこともあり得ます。

2022-04-26 00:49:23
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

別々のように見える2つの " 流行 " が、介護施設や病院と、より広い地域とで同時に起こっており、しかもその広がり方が違っていました。  ロックダウン後、介護施設には患者が90人いて、平均2.9人にうつし、地域には患者が10人いて平均1人にうつすとしましょう。  なんと、Rは2.71に上昇します。

2022-04-26 00:49:23
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

((90×2.9)+(10×1))÷100=2.71  実際にはどちらのグループでもRは下がっているのに。あなたが気になるのは全体のRかもしれません。だとしても「Rが大きくなるのは良くない」と単純に言えないのは明らかです。

2022-04-26 00:49:24
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

第二章、体験談というエビデンス  「デイリー・メール」と「ミラー」は、2019年に、末期がんと告知された女性が、メキシコにあるクリニックで、高圧酸素療法、全身低温療法、赤外線ランプ療法、パルス電磁波療法、コーヒー浣腸、サウナ、ビタミンC静注療法を受け、がんが劇的に縮小したと報じました

2022-04-26 01:13:03
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

この記事に数字はまったく含まれていないように見えるかもしれませんが、含まれています。  数字は隠れていてもちゃんとあります…1という数字が。ある主張を裏付けるために、たった1人のストーリーが使われる、これがいわゆる " 体験談というエビデンス " の例です。

2022-04-26 01:13:04
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

体験談というエビデンスは評判が悪いのですが、本質的に間違っているというわけではありません。もし熱いフライパンに触れてやけどをしたら、熱いコンロに触ると常にやけどをするに違いないから、触るのは良くないと…たった一度のエビデンスであっても…確信を持ちます。

2022-04-26 02:25:18
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

ふつうは常に同じことが起こる例は他にもあります。もしあなたが何か重いものを投げたら、常に下に落ちます。地球上にいる限り一貫してそうなります。最初に起こることは、毎回起こることのよい例なのです。統計学ではこれを「事象の分布の代表性」と言います。

2022-04-26 02:25:18
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

問題は、より予測が困難な、つまり事象の分布が単純ではない状況で、個人の体験談が使われる場合です。医学のような領域で起きている問題では、複数の人であっても、体験談では全体像はわかりません。「使った療法」と「良くなったこと」とはまったく無関係のこともかなり多いのです。

2022-04-26 02:25:19
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

そのため、何かの薬を使った後に良くなったという個人の体験談は誤解を招きがちです。意外性のあることはそうでないことよりも記事になりやすい。エビデンスが弱いという事実は、必ずしも結論が間違っているということを意味しません。

2022-04-26 02:25:20
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

高圧酸素療法やコーヒー浣腸でがんが治ると考えることに合理性はありません。一方で、世界には絶望的な状況のがん患者が何百万人もいて、その多くががんを治すためにかなり極端な方法を試すだろうと考えるのには合理性があります。そして、時にはがんが良くなる人もいます。

2022-04-26 02:25:20
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

偶然の一致が起こる可能性はかなりあります。彼女のがんが良くなったのなら、コーヒーが助けになったかどうかにかかわらず素晴らしいニュースです。でも、もし誰かがパルス電磁波療法か何かで良くなったという記事を読んだがために、実際に存在するエビデンスに基づいた医療を受ける気が失せるとしたら

2022-04-26 02:25:21
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

それは危険かもしれません。だからこそ、私たちは社会としてエビデンスを…それがどのように役に立ち、どんな時には役に立たないかを…理解することが重要なのです。  メディアというフィルターがかかると、体験談は偶然の一致である可能性が高くなり、そのエビデンスはほとんど役に立たなくなります

2022-04-26 02:25:21
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

第3章、サンプルサイズ  もし1人の経験が十分な説得力を持たないとしたら、何人ならよいのでしょう? これには決まったルールはありません。サンプルとは、全体を代表してくれそうな一部分のことです。データがどのくらいばらついているかを、分散といいます。

2022-04-26 06:28:02
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

たまたま、より健康な人を全員、全員とまではいかなくても大多数を介入群に入れてしまうかもしれません。その場合、薬で早く治ったように見えても、事実は、いずれにせよ早く治ったということでしょう。  問題は、よい推定値を得るためには何人必要か? という点です。その答えは、場合による、です。

2022-04-26 06:28:03
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

介入に伴う変化がわずかであればあるほど、それを検証するために多くの人数が必要になります。より大きな " 統計学的検出力 " が必要になります。「頭を拳銃で撃たれるのは体に悪いか? 」という疑問に答えるのに、1万人ものサンプルサイズが必要なはずがありません。

2022-04-26 06:28:03
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

" 被験者内 " 試験デザインと呼ばれるものは、サンプルサイズが小さいことによる問題を軽減できます。偶然出た結果を見ているにすぎない可能性を減らすための統計学的な操作もあります。  とは言え、経験則としては、参加者が100人未満の研究で、特に、調べていることがかなり意外だったり、

2022-04-26 06:28:04
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

微妙だったりする場合には注意が必要です。他の条件が同じなら、サンプルサイズが大きいほど信頼性が高まります。  2020年前半、トランプがツイートして注目を集めた研究に「ヒドロキシクロロキンによる治療はCOVID-19患者のウイルス量の減少や消失と有意に関連がある」というものがあります。

2022-04-26 06:28:04
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

全部で42人の患者を検討し、ヒドロキシクロロキンが投与された介入群が26人、投与されなかった対照群が16人でした。この研究が他の点では完璧にうまく実施されたとしても(そうではありませんでしたが)、サンプルサイズが小さいという点で脆弱でした。

2022-04-26 06:28:05
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

効果がないかもしれないし、じつは有害かもしれないのです。この研究からは、そのどちらなのかはほとんど分かりません。しかしそれにもかかわらず、それを報じる記事の見出しが世界中を駆け巡ったのです。

2022-04-26 06:28:05
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

p.239 結論および統計スタイル  ジャーナルにはそれぞれ、ハウススタイルがあり、記事の表記が統一されています。イギリスの新聞は、Covid-19, アメリカの新聞は、COVID-19。ただしイギリスでも、文字ごとに発音する場合は、すべてを大文字(BBC)にするといった具合です。twitter.com/chokusenhikaem…

2022-05-03 09:58:07
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

「バズフィード」ですら自分たちのスタイルガイドがあります。" バットダイヤル (butt-dial) " [携帯電話をお尻のポケットに入れているために、知らないうちに誰かに電話してしまうこと」、" サークルジャーク (circle Jerk) " [男性数人が輪になって自慰行為をしたり、それを手伝ったりすること]、

2022-05-03 10:01:09
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

" ドシューバッグ (douchebag) " [膣洗浄用の器具、転じてイヤな奴]といった類の語にハイフンをつけるかどうかや、ジェニファー・ロペスに略語 (J.Lo) で言及する際にスペースを入れるかどうか(入れない)のルールにはかなりの時間を使っています。

2022-05-03 10:04:58
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

英タブロイド紙「サンデー・スポーツ」の編集者は、「MAN LOSES B*LLOCKS BUT DOCS SAVE HIS BELL-END! ( 男は睾丸を失うが亀頭は医者が救う!)」という見出しに文句をつけるメールをスタッフ全員に送りつけました。「bollocks は見出しであっても *は入れない。bell-end にハイフンを入れやがったの

2022-05-03 10:38:53
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

はどこのどいつだ?」。それから彼は一連の " もっともよくある間違い " をリストアップして、机に貼っておくようスタッフに命じました。「SHIT ( 糞 ) : 本文でも見出しでもフルに書く、WANK ( 自慰 ) : 本文ではフルに書く、見出しなら w**k…」など。

2022-05-03 10:45:10
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

アメリカの出版社の多くはAP(Associated Oress) のスタイルブックを使っています。これは本当に重要なことです。  ですが、スタイルガイドが数字の提示の仕方について述べていることはめったにないというのは特筆すべきです。数字の記載の仕方については書いてあります。

2022-05-03 10:49:23
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

新聞では通常、1(one)から9(nine)は文字で書き(書籍では通常99、ninety-nine まで)、それより大きいと数字で書きます。さらに10億(one billion)、100億(10 billion)などとなります。しかし、数字を注意深くかつ責任を持って使う方法、数字自体が確実に公正で正確なストーリーを語る方法については

2022-05-03 10:55:32
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

書かれていません。メディア各社が統計の正しい書き方についてのAPスタイルガイドのようなものに従い始めること、あるいはガイドの必要性を理解して自分たち自身のガイドを書いてくれることを期待します。本書は、メディアに統計リテラシーと責任を求めるキャンペーン活動の始まりなのです。

2022-05-03 10:59:02
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

ジャーナリストのほとんどは、数字の人というよりは圧倒的に言葉の人なのです。" データジャーナリスト " も存在してはいますが、彼らは専門家です。ほとんどのジャーナリストはSTEMではなく人文科学の出身者です。グッドハートの法則(測定値が目標になってしまう問題)を避けることは、政府や

2022-05-03 11:04:07
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

ビジネスのあらゆるレベルにおいて大きな課題です。合流点バイアスやシンプソンのパラドックスを見抜くことは科学者でも難しく、ジャーナリストがうまくできないからといって責めるのはフェアではありません。しかし、いちど指摘されれば、それがなぜ問題なのか、ほぼ誰でも分かるはずです。

2022-05-03 11:06:57
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

① 数字を文脈の中に置きましょう それは大きな数字ですか? と自分に問いましょう。分母は何でしょうか? 自分が思っているより多いか少ないかを理解するにはどんな数字が必要でしょうか?→9章

2022-05-03 11:18:29
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

② 相対リスクだけでなく絶対リスクも示しましょう  焦げたトーストを食べるとヘルニアのリスクが50%高くなると言われたら心配になります。しかし、ヘルニアがどのくらい多いのかをまず言ってくれなければ無意味です。読者に絶対リスクを知らせましょう。その最善の方法は、それが影響を及ぼすと

2022-05-03 11:22:43
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

思われる人数を使うことです。たとえば「1万人に2人が一生のうちにヘルニアになります。もし焦げたトーストを定期的に食べれば、1万人に3人になります」などと。  また、何かがどのくらい " 急成長 " しているかという記事には注意しましょう。→11章

2022-05-03 11:26:05
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

➂ 自分が記事に書いている研究が先行研究全体の公正な代表かどうかを確認しましょう  赤ワインが健康に良いことを示す新しい研究について記事にするときは、多数の先行研究があり、個々の研究は全体像の一部分にすぎないという文脈の下で示すべきです。

2022-05-03 11:33:24
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

同じ分野でその研究に携わって【いない】同じ分野の専門家に電話をして、その問題に関するコンセンサスを洗いざらい話してもらうのはよいアイデアです。→14章

2022-05-03 11:35:31
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

④ 研究のサンプルサイズを示しましょう…小さければ用心しましょう  小規模の研究が常に悪いわけではありませんが、誤った結果になる可能性が高く、記事にする際は注意しましょう。目安としては、研究の参加者が100人未満なら用心することをお勧めします。ただ、より小規模でも非常に頑健な研究も

2022-05-03 11:40:48
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

あるので、これは絶対に守らなければならないルールというわけではありません。関連して、アンケートや投票による調査はサンプルにバイアスがかかっていることが多いので注意してください。→3章

2022-05-03 11:42:45
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

⑤ 科学はp値ハッキングや出版バイアスなどと戦っているという問題を意識しましょう  もしある研究が、" 事前登録 " されていなければ、あるいはいっそのこと " 登録報告(RR)" でないのなら、科学者は、データをいったん集めてから、論文に書けるような何かが見つかるようにデータを見直したのかも

2022-05-03 11:47:50
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

しれません。逆に、もし結果が驚くべき(その分野の他の知見からは予想できないような)ものである場合、それは真実ではないからかもしれません。科学はときに驚きをもたらしますが、たいていはそれほどでもありません。→5章、15章

2022-05-03 11:50:43
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

⑥ 予測値を1つの数字として出さないでください。信頼区間を示して説明しましょう  あなたが「予算責任局(OBR)のモデルによれば来年の経済成長率は2.4%」と報道するとしたら、その95%信頼区間が -1.1%~+5.9%であることに言及しなければ、この数字の精度について誤った印象を与えたことになります。

2022-05-03 11:58:55
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

未来とは不確実なものなのです。予測がどのようにして作成され、なぜ不確かなのかについて説明するようにしましょう。→17章、18章

2022-05-03 12:00:53
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

⑦ 何かが何かの原因であると言ったりほのめかしたりしている場合は注意しましょう  2つが関連しているという事実は、一方が他方の原因であるという意味ではなく、何か他のことが起きている可能性があります。もしその研究がランダム化比較試験でないのなら、因果関係を示すのはずっと難しいのです。

2022-05-03 12:17:08
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

その研究では因果関係を示すことができない場合、「ビデオゲームが暴力の原因」とか「ユーチューブが過激主義の原因」と言うのは慎重にしましょう。→8章

2022-05-03 12:18:55
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

⑧ チェリーピッキング(いいとこ取り)やランダムなばらつきには用心しましょう  もし何かが2010年と2018年の間に50%上昇したことに気づいたら、グラフを2008年や2006年から始めたとしても同じくらい劇的な上昇が見られるかどうか、ちょっと確認してみましょう。

2022-05-03 12:22:49
花びんに水を☘🇺🇦💙💛 @chokusenhikaeme

数字は少々変動することはあり、たまたま低かった時点を取り上げれば、ランダムなばらつきをショッキングなストーリーのように見せることができます。殺人や自殺といった、相対的にまれな事象については特にこれが言えます。→16章

2022-05-03 12:25:20

コメント

コメントがまだありません。感想を最初に伝えてみませんか?