ロジカルシンキング

【3分でわかる】統計で必要なサンプル数と階級数の決め方

 

こんにちは、セーシン(@n_spirit2004)です。

統計を取るときに、サンプルの取り方やグラフにする方法で悩むことはないでしょうか?

実はサンプル数やグラフの仕方には理論的な数式があって、それを使うと簡単に問題解決できてしまいます。

この記事では、統計の基礎的手法であるサンプル数の取り方と統計データの階級の取り方を紹介していきます。

 

サンプルの数の決め方

f:id:n_spirit:20181028235633p:plain

ある集団の傾向を掴む場合、その集団の数があまりに膨大な場合、すべてを調査することは効率的ではありません。

そこで、サンプルをいくつか抽出して、全体の傾向を考えることがあります。

10万人の集団に対して、サンプル数が10人ではサンプルとして数が少なすぎると直感的にわかるかとは思いますが、では何人程度がサンプルとして適当なのでしょうか。

実は、サンプルを何人とればいいのかは、次の式からわかります。

n = N / [ (ε/μ(α))2 × {(N-1)/ρ(1-ρ)} + 1 ]
n : 必要サンプル数
μ(α) : 信頼度100-αのときの正規分布の値、信頼度が高いほど高くなる。
通常は信頼度95%の1.96か、信頼度99%の2.58を使います。
N : 調査したい母集団の大きさ
ε : 精度(誤差)
ρ : 母比率(これは経験的に求めるか、最もnが大きくなる0.5を用います)

この式は、必要とする信頼度と精度によって、サンプル数が異なることを示します。

精度の誤差0%を目指すならサンプル数は母集団と同じNになりますし、調査の信頼度を上げてもサンプル数は大きくなることがわかります。

例えば、10万人の町で、ある調査を実施する場合のサンプル数nを考えます。

このとき、信頼度を95%とすると、μ(α)=1.96 となります。また、精度を上下3%くらいとし、ρ=0.5とします。

そうすると必要サンプル数は、次のようになります。

n = 100000 / [(0.03/1.96)2 × {(99999)/0.25)} + 1 ] = 1056人

つまり、1,056人のサンプル数であれば、上下3%の誤差範囲(この場合ρ=50%の前後)を、95%の確からしさで求めることができるということです。

ちなみに、同じ条件で母集団の数を変えた場合、サンプル数は次のようになります。

母集団 100人 1000人 1万人 10万人 100万人 1000万人
サンプル数 92人 516人 964人 1056人 1065人 1067人

これを見るとわかるように1万人でも1000万人でも、1,000人強のサンプルをとれば大差ない精度で結果が得られることがわかります。

例えば、人口約927万人の東京であっても、2,000人ほどサンプリングして統計データをとれば、十分に信頼できるデータとして使えるということです。

 

階級の取り方

あるデータを、範囲ごとに区切って傾向を見たい場合に度数分布表を用います。

そのときに、データの範囲と階級を考える必要があります。

例えば、次のようなデータがあるとします。

7 8 10 10 11 12 12 13 15 15 15 15 16 16 16 17 17 18
18 18 18 19 19 20 20 21 22 23 23 24 26 26 27 28 29 29
29 29 30 30 31 31 31 32 33 35 35 35 35 39

このデータを適切な範囲と階級にわけたいとします。直感的に5刻みでわけると次のようになります。

範囲 度数
5~10 4
11~15 8
16~20 13
21~25 5
26~30 10
31~35 9
36~40 1

ここで、粗くしすぎると全体感がぼやけてしまいますし、細かすぎると度数分布にする意味がなくなってしまうので、適切な範囲と階級で分ける必要があります。

その適切な範囲と階級を求める公式としてスタージェスの公式があります。

スタージェスの公式では、次のように範囲Cと階級Kを求めます。

C = (サンプル最大値-サンプル最小値)/(1+log2(サンプル数))
K = 1 + log2(サンプル数)

スタージェスの公式を上の例にあてはめると、C=4.82、K=6.64になり、直感で分けた範囲5と階級7で問題ないことが確認できます。

 

まとめ

以上、統計サンプル数の決め方と、ヒストグラムにおける階級数の決め方でした。

  • 統計に必要となるサンプル数は数式によって決めることができる。
  • 信頼度95%、誤差3%を許容した場合、1,000人強のサンプルがあれば、母集団1000万人の統計としても有効に機能する。
  • ヒストグラムで数字の範囲と階級数を決める際にはスタージェスの公式が有効である。

以下の記事で、統計で使える相関係数の求め方と、回帰分析のやり方について解説しています。

【5分でわかる】相関係数・回帰分析とは【意味・目安・エクセルでの求め方】 こんにちは、セーシン(@n_spirit2004)です。 2つ以上の変数の相関関係を調べるための指標として相関係数と回帰分...

 

ABOUT ME
アバター
セーシン
40代でサラリーマンを辞めて独立、現在は国内外からコンサルや顧問などの業務を受託するフリーランスです。20代から書き溜めた学び(ビジネスの基礎知識や経験談)をこのブログにまとめています。 ツイッターアカウントはこちら
おすすめ記事