『ふたたびの確率・統計【2】統計編』 を読んで
11月24日に統計検定の受験を控えているので、勉強のため、「ふたたびの確率・統計 統計編」を読みました。
数式の意味や、統計理論で何がわかるのかを丁寧に解説しているので、数式に苦手意識のある私でも理解しやすい内容でした。
丁寧に説明してあるだけに、500頁超の内容になってはいますが・・・。
その膨大な内容から、面白いと感じた部分を中心にまとめてみました。
統計の歴史
ジョン・グランド
ペスト禍に見舞われていたロンドンで、教会の資料を基にした死亡統計表を分析し、一見偶然とみえる人口現象に規律性のあることを明らかにしたそうです。
また、サンプルベースの調査により、正しいロンドンの人口を推計したそうです。
ナイチンゲール
軍病院の死亡理由は、負傷ではなく、改善可能な院内環境が原因で亡くなった人が圧倒的に多いことを調査により立証した。
歴史マンガではないので、多分に創作が入ってますが、藤田和日郎さんの黒博物館 ゴーストレディでも、ナイチンゲールが院内環境の改善を図ったことがつづられていますので、マンガ好きの方は読むとイメージがわくかもしれません。
なにより面白いマンガですし。
平均・中央値・最頻値
私の身の回り限定かもしれませんが、統計学の重要性を物知り顔で語る(おっと失礼)人は、平均値・中央値・最頻値の話が好きな気がします。
一般的に、母集団の代表値といえば「平均値」(母集団の合計 ÷ 母集団の数)ですが、例えば身長が180cmの人が15人、身長が160cmの人が10人いた場合、平均身長は172cmとなりますが、25人の中に172cmの人は一人もいません。
母集団に偏りがある場合、平均値は代表値とは言えなくなります。
一方、中央値(母集団を大小で順番に並べた場合の真ん中の数)は180cmになりますし、最頻値(一番多く登場する数)は180cmになりますが、中央値はデータ全体の変化や比較には向かないですし、最頻値は、どの値も1回しか出てこないような場合では役に立たないという特徴があります。
それぞれの特徴に応じて使い分ける必要があります。
その次が少年犯罪率でしょうか。
こちらは統計というよりは見せ方のトリックといった感じなので、詳細は割愛します。
箱ひげ図
データのばらつき具合をわかりやすく示した箱ひげ図というものがあります。
箱ひげ図を使えば、最大値、最小値と、「四分位数」*をわかりやすく図で示すことができます。
* 四分位数 データを小さい順に並べて、小さいものから順位を付けた時に、
全体の1/4の部分、全体の2/4=1/2の部分、全体の3/4の部分に該当する値のこと。
偏差値
学生時代に試験を受けると出て来た偏差値も、統計から導かれています。
偏差値とは、ある数値がサンプルの中でどれくらいの位置にいるかを表したものであり、平均値が50、標準偏差が10となるように標本変数を規格化しているそうです。
標本が正規分布している場合は、40から60の間に約68.3%、偏差値60以上(あるいは40以下)は、全体の15.866%、偏差値70以上(あるいは30以下)は、全体の2.275%、偏差値80以上(あるいは20以下)は、全体の0.13499%、偏差値90以上(あるいは10以下)は、全体の0.00315%、偏差値100以上(あるいは0以下)は、全体の0.00002%にあたるそうです。
偏差値70以上の成績の学生は2.275%…めちゃくちゃ選ばれし者ですね笑
疑似相関
実際には関係なくても、あたかも関係あるような関連性が見いだされることがあります。
これを疑似相関と言います。
XとYの間に相関関係があるときは、以下の①~⑤のパターンが考えられるそうです。
① X(原因)→ Y(結果)の関係がある
② Y(原因)→ X(結果)の関係がある
新聞を読む人の年収が高いという結果が得られた場合、新聞を読むと年収が高くなる!と考えるのは早計で、年収が高い人が話題作りなどの理由から新聞を読む必要性に駆られている可能性があります。
③ X と Y がともに共通の原因 Z の結果である(Z → X かつ Z → Y)
銀行が多い場所にはレストランが多いという結果が得られた場合、銀行の多い場所にレストランを出せば繁盛する!と考えるのは早計で、どちらもそれぞれ「人口」という共通の原因の結果ということが考えられます。
④ より複雑な関係がある
⑤ たまたま
③のパターンについては、「夕刻子どものおむつを買いに来た父親が、ついでにビールを買って帰る」事例のように、おむつとビールが一緒に売れる理由が、どちらも小さい子供をもつ男性が一人で買い物をしに来るときに買うものであることさえ理解していれば、有効な情報として使うことができます。
二項分布、ポワソン分布、正規分布
二項分布
「コインを投げたときに表が出るか裏が出るか」のように、何かを行ったときに起こる結果が2つしかない試行(ベルヌーイ試行)をn回行って、成功する回数 X が従う確率分布のこと。
なんのこっちゃと思うことでしょうが、二項分布の考え方に基づき、大相撲の八百長疑惑を投げかけた事例がありまして、負け越しか勝ち越しを決める7勝/8勝のところで二項分布からずれているのは、すでに8勝している力士が、7勝7敗の力士に「取引」を持ち掛けているのでは?ということが推測されるそうです。
大相撲のアノーマリー (2) (1/2):実践! Rで学ぶ統計解析の基礎(8) - @IT
ポワソン分布
母集団が大きく、発生確率が低い場合(例:工場で製品を生産するときの不良品の発生確率が0.1%)、計算が複雑な二項分布と、計算が楽なポワソン分布の結果が近似するそうです。
先ほどの工場の事例で不良品が2個出る確率は、
ポワソン分布の場合 P(X=2)=1/e × 1 / (2×1)=約18%
二項分布の場合 P(X=2)=1000C2・0.0012・(0.999)998 = 約18%
正規分布
正規分布(ガウス分布)とは,左右対称の連続型の確率分布だそうです。
例えば物理などの実験における測定の誤差,テストの点数などは(ほぼ)正規分布に従う(ことが多い)と考えられているそうです。
数学者のポアンカレは、毎日買っていた1kgの食パンが、本当に1kgかどうか知りたくて、パンの重さをはかったところ、950gを中心とした正規分布となったことから、パン屋が50gごかまして950gのパンを作っていたウソを見抜いたそうです。
(参考)正規分布表と、正規分布表の使い方
14-5. 標準正規分布表の使い方1 | 統計学の時間 | 統計WEB
以上になります、最後までお読みいただきありがとうございました。