ロジカルシンキング

【5分でわかる】統計における適切なサンプリング数・度数分布表の階級数

 

こんにちは、セーシン(@n_spirit2004)です。

統計を取るときに、サンプリング数や、グラフの階級数で悩むことはないでしょうか?

実はサンプルの数や、グラフの仕方には理論的な数式があって、それを使うと簡単に問題解決できてしまうのです。

この記事では、統計の基礎的手法であるサンプリング数の取り方と、統計データの階級の取り方を紹介していきます。

 

最適なサンプリング数を決める数式

f:id:n_spirit:20181028235633p:plain

ある集団の傾向を掴むときに、その集団の数があまりに膨大だと、すべてを調査することは不可能です。

例えば、10万人の集団の傾向を掴むために、10万人全員を調査することはできません。

その場合、母集団の中からサンプルをいくつか抽出して、全体の傾向を分析する(サンプリング調査をする)のが一般的です。

しかし、10万人の集団に対して、サンプル数が10人ではサンプルとして数が少なすぎると直感的にわかるかとは思います。

では、何人程度がサンプルとして適当なのでしょうか?

実は、サンプリング調査において、サンプリング数を何人にすればよいかは、次の式からわかるのです。

n = N / [ (ε/μ(α))2 × {(N-1)/ρ(1-ρ)} + 1 ]

n : 必要サンプル数
μ(α) : 信頼度100-αのときの正規分布の値、信頼度が高いほど高くなる。
通常は信頼度95%の1.96か、信頼度99%の2.58を使います。
N : 調査したい母集団の大きさ
ε : 精度(誤差)
ρ : 母比率(これは経験的に求めるか、最もnが大きくなる0.5を用います)

この式は、必要とする信頼度と精度によって、サンプル数が異なることを示します。

精度の誤差0%を目指すならサンプル数は母集団と同じNになりますし、調査の信頼度を上げてもサンプル数は大きくなることがわかります。

例えば、10万人の町で、ある調査を実施する場合のサンプル数nを考えます。

このとき、信頼度を95%とすると、μ(α)=1.96 となります。

また、精度εを上下5%、ρ=0.5になります。

そうすると必要サンプル数は、次のようになります。

n = 100000 / [(0.05/1.96)2 × {(99999)/0.25)} + 1 ] = 383人

μ(α) : 信頼度95%で1.96
N : 調査したい母集団の大きさ 100,000人
ε : 精度(誤差) 5%
ρ : 母比率0.5

つまり、383人のサンプル数であれば、上下5%の誤差範囲で、95%の確からしさで、母集団の調査をできるということです。

ちなみに、同じ条件で母集団の数を変えた場合、サンプル数は次のようになります。

母集団 100人 1000人 1万人 10万人 100万人 1000万人
サンプル数 80人 278人 370人 383人 384人 384人

条件
μ(α) : 信頼度95%で1.96
ε : 精度(誤差) 5%
ρ : 母比率0.5

ここから、誤差を5%、95%の確からしさで調査をする場合、1万人以上の母集団に関しては、400人程度確認しておけば十分だわかります。

では、条件を変えて、誤差3%とした場合はどうなるでしょうか。

母集団 100人 1000人 1万人 10万人 100万人 1000万人
サンプル数 92人 516人 964人 1056人 1065人 1067人

条件
μ(α) : 信頼度95%で1.96
ε : 精度(誤差) 3%
ρ : 母比率0.5

誤差3%で考えるなら、1,000人強のアンケートをとっておけば十分に母集団の傾向を分析できるというわけです。

例えば、東京都の人口は約927万人ですが、東京都を母集団として誤差3%程度で傾向分析しようと思うなら2,000人ほどサンプリングすれば、十分だということです。

 

度数分布表における最適な数値範囲と階級の数

あるデータを、範囲ごとに区切って傾向を見たい場合には、度数分布表(ヒストグラム)を用います。

度数分布表とは、以下のように、ある範囲の数字が、どのくらいの数存在しているのかを示したグラフです。

この度数分布表を作るときに、考えるべきことがデータの範囲と階級、つまり数字をいくつで区切るか?ということです。

例えば、次のようなデータを度数分布表にすることを考えます。

7 8 10 10 11 12 12 13 15 15 15 15 16 16 16 17 17 18
18 18 18 19 19 20 20 21 22 23 23 24 26 26 27 28 29 29
29 29 30 30 31 31 31 32 33 35 35 35 35 39

このデータを適切な範囲と階級に分けるとき、どのようにすればよいでしょうか。

例えば、直感的に5刻みで分けると次のように7つの階級に分けられます。(ちなみに、5刻みにしたのが、上記のグラフです)

範囲 度数
5~10 4
11~15 8
16~20 13
21~25 5
26~30 10
31~35 9
36~40 1

ここで、階級数を粗くしすぎると全体感がぼやけてしまいますし、細かすぎると度数分布にする意味がなくなってしまうので、適切な範囲と階級で分ける必要があります。

そこで適切な範囲と階級を求める公式であるスタージェスの公式を使います。

スタージェスの公式を使うことで、次のように最適な範囲Cと階級Kを求められます。

範囲C = (サンプル最大値-サンプル最小値)/(1+log2(サンプル数))
階級K = 1 + log2(サンプル数)

先ほどの例で、スタージェスの公式を使うと範囲Cと階級Kは以下のようになります。

範囲C = 4.82
階級K = 6.64

つまり、範囲は4~5で刻み、階級は6~7にするのがよいということです。

スタージェスの公式を使うことで、大雑把に分けた範囲5と階級7で問題ないことが確認できました。

このように、スタージェスの公式を使うことで、度数分布表の範囲と階級を明確にできるのです。

 

まとめ

以上、アンケートなどで使うサンプリング数の決め方と、度数分布表における数値範囲と階級数の決め方でした。

  • 統計に必要となるサンプル数は数、式によって決めることができる。
  • 信頼度95%、誤差3%を許容した場合、1,000人強のサンプルがあれば、母集団1000万人の統計としても有効に機能する。(誤差5%まで許容すれば400人でも問題ない)
  • 度数分布表で数字の範囲と階級数を決める際には、スタージェスの公式が使える。

 

仕事に役立つ知識や能力を

オンライン講座で
プレゼンなどのビジネススキルを
1講座単位で学べます!

\15万講座から選べる/

おすすめ講座10選を見る>>