この画像を大きなサイズで見るニュースでよく見る統計データは、結果ありきで、意図をもった集計がなされている場合もある。
数字に騙されないためには、最低限「査読された論文であるか」、「サンプルサイズは十分か」、「誰から助成を受けているのか」を知るべきだ。
更に「統計の3つの原則」を知ることで、ニュースの数字に隠された真実を見つけることができるという。
1.本来のリスク「相対リスク」を考える
たとえば、「8年間におよぶ研究で、フライドポテト好きは死亡率が2倍」というニュースを挙げよう。
ポテトをつまみながら飲んでいたビールを思わず吹き出しそうになってしまうだろう。「嘘だろ!」って感じに。
『American Journal of Clinical Nutrition』に掲載された査読済み研究によれば、これは本当のことだ。
フライドポテトを多く食べれば死亡率が2倍になるらしい。
だが、いったいどのくらい食べるとなのだろうか? それから、そもそもその人の元々の死亡リスクはどのくらいなのか?
それによると、1週間以上あたりで3倍のフライドポテトを食べると、死亡リスクが2倍になるらしい。
ちなみにこの研究に参加した被験者は、平均年齢60歳の男性だ。
ポテトを食べなかった場合の死亡率は1%ある。すなわち60歳の男性が100人いたとしたら、ポテトを食べる食べないに関わらず、その翌年には99人に減っているだろうということだ。
その100人が全員、週に3倍以上のフライドポテトを食べたとすると死亡率は2倍。2%になる。よって翌年の生き残りは98人だ。
死亡率が2倍といっても100人中の1人が2人に増えただけなのだ。更に2倍になるには、今後の人生で全てにおいて、フライドポテトを3倍食べ続けねばならないことになる。
これは統計学でいう「相対リスク(相対危険度)」の話だ。
仮にある病気にかかる確率が10億人に1人だったとして、何らかの要因によってそれが4倍になったとする。すると10億人に4人が病気になる。だがほぼそんなことにはならないのだ。
したがって今度、リスクがどうだといった記事を見かけたら、まず「増減がある前の本来のリスクは?」と考えるべきだろう。
この画像を大きなサイズで見る2.相関関係は因果関係を含意しない
新しく赤ちゃんを授かろうとしている夫婦に、赤ちゃんが安心して眠れるベビーボックスセットが贈られたというニュースがあった。
このベビーボックスは、1930年代末に睡眠中の乳幼児の突然死を防ごうとフィンランドで始められた制度だ。
フィンランドの乳幼児の死亡率は、これが広まるようになってから急激に低下。今では同国は世界有数の赤ちゃんが死なない国である。よってベビーボックスには、乳幼児の死亡率を大きく改善したという手柄が与えられている。
だが本当にベビーボックスによるものなのか?ほかにも何か変化はなかったのだろうか?
実はあったのだ。それは妊婦健診だ。
ベビーボックスを手にするための条件として、妊婦は妊娠して最初の4ヶ月の間に検診を受けねばならなかった。
1944年、フィンランドでは、妊婦の31パーセントが妊婦教育を受けた。1945年、それは86パーセントに急増。乳幼児の死亡率が改善したのは、ベビーボックスではなく、むしろこの教育と早期の健診のためだった。
これは「相関関係は因果関係を含意しない」ことを示す古典的な事例だ。ベビーボックスと死亡率の改善には相関があるが、片方が片方の原因になっているわけではない。
しかし、このちょっとした事実によって、ベビーボックスの人気に歯止めがかかることはなかった。フィンランド生まれのこの贈り物はアメリカでも大流行し、新しくお母さんになる人への人気のギフトである。
だからもし、「寝る前にチーズを食べると、シーツに絡まって死ぬ」といった見出しを見つけたら、「ほかに何か原因になることがあるのでは?」と疑ってみよう。
この画像を大きなサイズで見る3.許容誤差によって結果が曖昧になる
アメリカ労働統計局が最近発表したデータは、8月から9月の失業率がの3.9%から3.7%に減少したことを示している。
もちろん、統計局はこの数字を得るために一人一人に仕事があるかどうか訊いて回ったわけではない。ほんの一握りの人たちに質問し、その結果を一般化して全国の状況を推定したのである。
それは優れた推定であるが、推定は推定だ。そのときに生じる誤差は、統計学でいう「信頼区間」というものによって定義される。
先ほどのデータは、アメリカ全土で失業者が27万人減少したということだが、そこには信頼区間によって定義される「許容誤差」というものがある。現実はこれを中心とした26.3万人の誤差の範囲があると考えられるのだ。
1つの数値をはっきり提示できればいいのだが、統計の結果はある範囲を表していると考えた方が正確だろう。
失業率の事例で言えば、最大で53.3万人減った可能性もあるし、最低では7000人しか減っていない可能性もあると統計学者は考える。
これらの推定値に関係する範囲のことを考えれば、それが確かな結論であるなどとはとても言えないのだ。
この画像を大きなサイズで見る信頼区間が混乱を与える格好の事例が投票の世論調査だ。
調査会社は、人口全体を代表すると考えられるサンプルを抽出し、サンプルとして選ばれた人に誰に投票するかと尋ねる。
そして、その結果から、投票日に有権者全体が誰に票を入れるだろうかと推定する。もし結果が接戦と出れば、誤差があるために誰が当選するのかほとんど分からないも同然だ。
だから関係者一人一人に質問できるはずがない規模の人口に関する数字を見たら、許容誤差について思い出そう。
References:Numbers in the news? Make sure you don’t fall for these 3 statistical tricks/ written by hiroching / edited by parumo
追記(2022/04/04)2018年11月7日の記事を編集して再送します。














統計よりひどい確率で彼女ができないんですけどどうしたらいいんでしょうか…
※1
統計を信じるんだ。
貴方は上で言う信頼区間の最悪を極めている可能性がある。
統計的に好意を持たれる行動を増やし、異性への攻撃回数を上げ、統計上の母数を増やすんだ。
そうすれば、統計の神の恩寵をもって、貴方に彼女ができるのはほぼ確実!
※16
つまり手当たり次第にナンパしろ、と・・・・・・
わりと真理
がんばれイッチ、でもセクハラだけはカンベンな!
>>1
たとえその確率が天文学的数字でも0にはならない。
例えば君が住宅街をたまたま朝歩いていて、たまたま曲がり角からパンをくわえて遅刻遅刻~!と言いながら走ってきた女の子にぶつかってそこから発展する恋も可能性としては0ではない。
自信を持つんだ。
>>36
自信を持つに値する人間は自信を持つに値する何かを持ってると思うんだ
>>60
たとえば?
…というか上の例え話を見てそういう返しをしてしまう時点でさあ…
>>1
分子のできない側にいるだけでは?
テレビ局が都合の良いように報道するもんね。
街頭アンケートがまさにそう
※2
該当インタビューなどは統計以前の問題。
ここに紹介されてるのは、「統計的に正しくて、査読論文として出版された論文の内容も鵜呑みにできない」ということ。
都合のいいインタビューだけ集めて流すなんてのは、世論操作以外のなにものでもない犯罪的行為。これがまかり通っている日本のTV、新聞は恐ろしい。
※2
ネットのアンケートも全く当てにならないしね。
正確に言うと統計学者は範囲ではなくて分布で考えるね。
良い記事だと思うけど普通の人にはなかなか伝わらないだろうなぁ。
※4
統計の世界は、日常の思考ではなかなかイメージするのが難しいのが難点。
>>4
この記事は専門家が読むに耐えうると思ったが
何が問題?信頼区間?
※46
例えがむちゃくちゃ下手で間違っている
専門家でなくても素人が笑えるレベル
例えば
>仮にある病気にかかる確率が10億人に1人だったとして、何らかの要因によってそれが4倍になったとする。すると10億人に4人が病気になる。だがほぼそんなことにはならないのだ。
何らかの要因によってそれが4倍になったら。10億人に4人が病気になるは当然で、ならないほうがおかしい
※54
そのすぐ上の部分読んだ?
ある条件を満たすことでリスク4倍になることがあったとしても、10億人の人がその条件を満たすことはまずないよねって話なんだけど
だからリスク4倍!とかセンセーショナルな数字に惑わされないように、ちゃんとリテラシー積もうねって記事だよ
※4
以前は平均値しか出されなかったけど、記事によっては中央値を出すようになってきたりしてるから、だんだん良くなると期待したいです。年収がどうとか、貯金額がどうとかとかの記事で平均値が現実とかけ離れていると批判を浴びたからではないかと思います。
いろんな切り口があって、他にも最頻値とかも出してる記事を見かけるようになりましたね。度数分布表かそのグラフとともに、各種指標を出してほしいものだと思います。正規分布していれば平均値と偏差でばっちりだけど、多くの場合はそうではないから、それらの切り口の数字を使うわけで、反対に切り口で自分に都合の良い値をとることも可能ですから、読み手はそれを前提に気を付けないといかんです。
たとえば、
”病院の滞在時間が長い人ほど死亡のリスクが高いので、長生きするには病院に行かない方がよい”
とかそういうのではなく、グラフに単位ついてないとか、n=いくつだよとか、個人的にはそっちのほうがモヤッとするんだよね
真実は揺るがないが、統計は融通がきく。
※7
揺るがないのは「事実」であって、「真実」は人によって変わるものだよ。
真実はいつも一つっていう決めセリフは耳障りをよくするために敢えてそう言ってるものなので、本来の言葉の使い方では事実の方が正しい。
※34 内容と関係ないけど、国語苦手でしょ?「耳障り」の意味を調べてね
※45
3年前のコメを煽るのもどうかと・・・
>>45
言葉ってのは生き物なので、時代によって意味が変わったりしますが、時空を超えて伝わるものではないですね
※34
最近読んだ漫画で全く同じ「真実は~」のくだり見たなー。
もしかしてあなたもミステリという勿れ読みました?
統計学はわかれば面白そうだな
統計って正しく使うとすごく便利なんだけど、現実には相手を騙すために使われる場合がほとんどなので、まずは疑ってかかるのが正解。
統計屋です。こういう記事、わかりやすくてイイネ!
大体のマスメディアや”煽り”商売は、こういった統計詐欺を使って
危機感を捏造するからねー
みんな冷静に数字見てねー
※10
そもそも統計なんて一般向けに出すときは騙そうとしてるか偏らせようとしているかのどっちかだし
数字を冷静に見ろというのはまさにその通りなんだけど、より一般向けにはそもそも出されてない数字を考えろって方が合ってる気がするわ
これは良い記事。両親に百回読ませたい。
100%がMAXの棒グラフで統計の最大値(20%とか)を画面端に持ってきて
20%と15%みたいな誤差レベルの差を大差に見せかけるやっすい手法すら
マスメディアのみならずネットニュースでまで使われてるの溜息しか出ない
またそれに踊らされるユーザーが一定数存在するっていうのがさあ…
TVの情報系(笑)番組に良くある手口だな
何かを食べ続けて此の結果が出ました!
食べる以外にやったことも全部検証しなきゃ断言出来ないでしょって何時も突っ込んでる
※13
殆どの人はある意味どうでもいいと思ってるというか
悪いものじゃないし身体にいいってなら試すかって程度
だから情報系番組で知るってCM程度の効果であって長続きしない
その手の情報ってネタとして使ったりするけどそれだけ
一時期寝てる間に人は虫を食ってるとか流れてたけどあれと同じかな
3つめをもっとわかりやすく
上ふたつは常識の範囲と思うけど許容誤差ってどういうもんなのか
※14
例えば45%の結果が出たとしても、いつでも45%の結果が出るとは限らない。
100回調査しても95回は(例えば)41%から49%の間に収まるよ、というのが95%信頼区間。
だからこの場合4%の許容誤差があるよ、この誤差の範囲内なら「より高い」とか「より低い」とか言っても意味ないよ、という話。
※14
例えば「30代」という分類に対して20代のアラサーを含めることね。
四捨五入すれば30歳になるし、体質や生活習慣も近い「だろう」という考え。
これが許容誤差だよ。
>>25
全然違う
ただのデータの捏造になってる
偏向報道するメディアでもそれやったらガチで謝罪になるよ
>>57
明らかな捏造でさえ謝罪のないマスコミもちらほら…
>>14
単なるバラツキを有意差とみるかだと思うよ
10億人に1人の病気が~のくだりがよくわからん
発生確率が4倍になったら発症者も4倍になるのは当然に想える
元々の確率がいくらだろうと、4倍は4倍では‥?
※15
「10億人に1人」のような極めて低い確率の場合は、数学的に4倍になったところで
感覚的には殆ど変わらないから意味がないということでは?
※15
それは正しいけど、だからってその確率で「大変だ、気をつけなきゃ!」て思うか?
100人に10人が100人に40人なった場合と天と地との差だろ?
そういうこと。
>>15
4倍というデータは確かに正しいがそれをもってさも影響が大きいかのように煽る輩に騙されないようにねってことでは
一次データ(編集されてない情報)の切り取りかた次第では一般的に読み取れることと真逆のメッセージを持たせることが可能だったりする
人間は都合のいい数字だけ利用するから大半の人にとってはどうでもいい事だね
統計上の数字が正しいか正しくないかなんて人が生きる上では実際何の関係も無いんだから
タバコの副流煙よりひじきを食べる方が圧倒的にガンになりやすいらしい(笑)
指の長さとホルモンの関係なんて常識じゃないの?
ttps://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q10198689995?__ysp=6YeR5rKiIOecn%2BWGrOaXpQ%3D%3D
金沢市民のように
一シーズンにおける真冬日
という謎指標を使う人もいる
しかもそれが
ゼロだった回数
を調べるとは
ベビーボックス・・・・カリン様の超聖水みたいなあれか・・・
ドラゴンボール(無印)の
政府発表で堂々とこれやられる国
ベビーボックスのくだりを読んで、
「連続殺人犯は過去1年間に朝食にパンを食べていた。パンを食べる人は危険だ」
みたいな話を思い出した。
統計数字だっていくらでも誘導できるし
統計学は結局、心理学と同じレベルの似非学問だよな…
相関関係と因果関係の話は、いわゆる優生学についての話のなかでよく見かける
優生学ってのは、例えばひとつの家系について調べて、アル中・犯罪者・難病の罹患者の数を数える。そうして、これらが際立って多い家系には「悪い因子」が遺伝しているってことだから、これを断絶することが国全体の利益につながるっていう
そんなことを真面目に唱えた、学問の顔した何かがかつて欧米や北欧、あと日本でも流行った時期があって
少し考えると地域とか環境とか教育とかその他諸々が考慮されてなくて、そりゃ家系との相関は認められるかもですけど因果関係の立証はどうなってんですか、って突っ込めるんだけど、突っ込みが少なすぎてナチスが人気を集めたりしちゃった
これと同じような論法をいまだに見かけることがあって、憂鬱になる
だまされそうになる自分にも憂鬱になる
提示された情報は事実かもしれないけど、提示された情報だけが事実じゃないってこと、覚えておきたいものです
統計って面白いよね
確率論と違っておおくの人の興味を引く魅力がある
まあそのせいでこういう落とし穴もあるんだろうけど
だいたい疑念は常に横においておくべきだよね
科学屋さんの言う事には、
「誤差範囲が書かれてないグラフは、信用してはいけない」
「スケールが書かれてない写真は、信用してはいけない」
と言う鉄則があるんだな。
自分の専門分野でもないと統計なんて正しく読み取れない
義務教育課程の授業をサボったり上の空で聞いていなければ、この程度のことは言われないでも解る頭が作られるはずなのだが。現実は残念なことに、サボってたか、オウム返しにしてテストの点数を稼いでただけのが大勢いるらしい。
統計学は数学ので最も身近な、生活に密接した分野と言っていいだろう
よくパーセント表示で論じることがあるが、サンプル数が母数に対してどれほどの数か?という視点は必ず持っておいた方がいい。割合データにすることで失われてしまう情報は案外大きなものだ。
サンプルの取り方ひとつで全く違った結果が出るしだいたい信用をしないなぁ、話半分って感じ
TVなんかのだとサンプルの取り方いい加減すぎて絶対に信用しないけどね。TVだと統計に限らず出てくるあらゆるデータが信じられないけど
言わずもがなタバコの副流煙も含むの害の研究は、すさまじく統計操作されてそう
こわいなー
※44
こいつみたいに信じたい数字だけ信じる、信じたくない数字は操作されてると思い込む、ってのもよくあるパターンだな
>>44
タバコ会社が操作してそうだよね。副流煙はそんなに危険ではない!って。
逆は企業が得をしないもんな。
こういうデータを我々に見せるのがメディアだからね。
きっと〇〇に違いない!
って思っている人にその妄想通りの数値をあげるのさ
新規に騙される人を狙っているんじゃなくて元々傾いている人を更に傾むけるためのモノ
テレビとかは疑うのにこの記事は表面上似たような考えだからとすぐに信じるのは既に術中に嵌まっている感じがする
増える事実が少なかろうが増えるという重要視するか、育児教育が改善の全てなのか誤差があろうが傾向はそうなってないかとか
結局誰かの意見を鵜呑みにするのは危険に思う
こいつの言うように査読済み論文を信じたところで論文書いた奴の匙加減で観点がアホみたいな方向からみてるものかもしれないから信じすぎるのも危険
コロナワクチンで用法を筋肉注射としているのに対し、静脈注射したら危険だったとかの用法用量守ってない論文を反ワクがたくさん出してきたのに似ている
何かの統計学本で因果関係と相関関係の説明にて、
「アイス売上が増加すると水難事故が増加する。アイス販売禁止!」
という例が分かりやすくて好き。
データはウソではない。相関間関係はある。
ただし因果関係無いから何も改善しない。
>>52
気温が高くなると
アイスを食べる
水遊びが増える
気温の上昇にアイスと水遊びは相関関係があるが、
アイスと水遊びに因果関係はない、って感じかな
>相関関係は因果関係を含意しない
インフレさせれば景気が良くなるとかだな
>「査読された論文であるか」、「サンプルサイズは十分か」、「誰から助成を受けているのか」を知るべきだ。
公文書が改竄されてる場合は何も信じればいいの?
1.国によって異なる条件結果を比較対象としている
2.前年比だけで表す
3.統計を取ったサンプル数が少ない
又は、ある地点のみのサンプルしかない
数字は曲者よ♪
「はじめての統計学」的な書籍にはだいたい書いてある (と思う)
平均値と最頻値は違う
年収の話
いくら本人が気をつけても、それができない人が多い社会では騙された結果に倣わされる。
統計データなんて補助的な根拠にしかならない。ちゃんと直接的なメカニズムを説明できる状態でないといけない。「メカニズムの中身がよく分からないけど一応統計を取ればこうなった」程度の根拠なんて参考程度未満。
騙されないために、とかいってるけど
ほにゃららをぺけぺけするためのnつ(n=任意の数)の法則
とかいう話を鵜呑みにしてる時点で騙されてるのと同じだと思うんだが。
水を飲んだことがある人の100%がやがて死に至るってやつですね
統計データを見るときの注意点どころか、
統計って概念自体がわかってない人もいるしな。
統計的な全体的傾向の話をしているときに、「俺は違うからその話は嘘!」とか言い出すやつ。
本来のリスクが「相対リスク」、という説明が良く分からなかった。リンク先を見ても、比率のような話になっていた。
相対リスクという用語を出すならば、その言葉の意味を、もっと分かりやすく噛み砕いた説明が欲しい。
この場合、相対リスクという用語や、本来のリスクという言葉を出すことで、余計にわかりにくくなっているように感じた。
もっと簡単に言うと良い。
「倍率や増減値でなく、実際の値も見よ」と。
3の許容誤差については、パーセンテージも一緒に書いてほしい。