ロジカルシンキングの知識・勉強

統計の基礎的手法 必要サンプル数とグラフ化する際の階級

統計を取るときにサンプルの取り方や、それをグラフにする方法で悩むことはないでしょうか?

実はサンプル数やグラフの仕方には理論的な数式があって、それを使うと簡単に問題解決できてしまいます。

この記事では、統計の基礎的手法であるサンプル数の取り方と統計データの階級の取り方を紹介していきます。

f:id:n_spirit:20181028235633p:plain

サンプルの取り方

ある集団の傾向を掴む場合、その集団の数があまりに膨大な場合、すべてを調査することは効率的ではありません。そこで、サンプルをいくつか抽出して、全体の傾向を考えることがあります。

ところが、10万人の集団のサンプルが10人では、サンプルとして数が少なすぎるというのが直感的にわかるかと思います。そこで、サンプルを何人とればいいのかは、次の式から考えます。

 n = N / [ (ε/μ(α))2 × {(N-1)/ρ(1-ρ)} + 1 ]
n : 必要サンプル数
μ(α) : 信頼度100-αのときの正規分布の値、信頼度が高いほど高くなる。
通常は信頼度95%の1.96か、信頼度99%の2.58を使います。
N : 調査したい母集団の大きさ
ε : 精度
ρ : 母比率(これは経験的に求めるか、最もnが大きくなる0.5を用います)

この式は、必要とする信頼度と精度によって、サンプル数が異なることを示します。精度0%を目指すならサンプル数は母集団と同じNになりますし、調査の信頼度を上げてもサンプル数は大きくなることがわかります。

例えば、10万人の町で、ある調査を実施する場合のサンプル数n を考えます。このとき、信頼度を95%とすると、μ(α)=1.96 となります。また、精度を上下3%くらいとし、ρ=0.5とします。

そうすると必要サンプル数は、次のようになります。

 n = 100000 / [(0.03/1.96)2 × {(99999)/0.25)} + 1 ]
  = 1056人

この式では、1056人のサンプル数であれば、上下3%の誤差範囲(この場合ρ=50%の前後)を、95%の確からしさで求めることができます。

ちなみに、同じ条件で母集団の数を変えた場合、サンプル数は次のようになります。

母集団 100人 1000人 1万人 10万人 100万人 1000万人
サンプル数 92人 516人 964人 1056人 1065人 1067人

階級の取り方

あるデータを、範囲ごとに区切って傾向を見たい場合に度数分布表を用います。そのときに、データの範囲と階級を考える必要があります。

例えば、次のようなデータがあるとします。

7 8 10 10 11 12 12 13 15 15 15 15 16 16 16 17 17 18
18 18 18 19 19 20 20 21 22 23 23 24 26 26 27 28 29 29
29 29 30 30 31 31 31 32 33 35 35 35 35 39

このデータを適切な範囲と階級にわけたいとします。直感的に5刻みでわけると次のようになります。

範囲 度数
5~10 4
11~15 8
16~20 13
21~25 5
26~30 10
31~35 9
36~40 1

ここで、粗くしすぎると全体感がぼやけてしまい、細かすぎると度数分布にする意味がないので、適切な範囲と階級で分ける必要があります。その適切な範囲と階級を求める公式としてスタージェスの公式があります。スタージェスの公式では、次のように範囲Cと階級Kを求めます。

C = (サンプル最大値-サンプル最小値)/(1+log2(サンプル数))
K = 1 + log2(サンプル数)

スタージェスの公式を上の例にあてはめると、C=4.82、K=6.64になり、直感で分けた範囲5と階級7で問題ないことが確認できます。