アンケート調査したいんだけど、アンケートってどの位取れば良いの?統計用語を用いて簡単に説明させていただきます

2019年6月21日Message(皆様に伝えたいこと)アンケート, 統計

 

調査員

アンケート調査にご協力お願いしますーー

 

さき

・・・

 

ゆうき
どうしたの、さきちゃん?

 

さき
今そこでアンケート調査をやっていたんですけど、、、

 

ゆうき
うんうん

 

さき
そもそもアンケートって何枚取れば良いんですか?

 

ゆうき
そういえばそうだよねーー。アンケートって何枚取れば良いんだろうね~~

 

というわけで今回は「アンケートは何枚取れば良いのか?」について調査してきました!!

 

アンケートの枚数を求める前に・・・

 

ゆうき
ふぅーー。とりあえず、調べてきたよ。

 

さき
それで結局何枚取れば良いんですか?

 

ゆうき

結論から言うと、アンケートの枚数は

・標本誤差を何%に抑えるか?

・信頼係数を何%にするか?

で決まるよーー!!

 

さき
標本誤差?信頼係数?

 

ゆうき

そうなんだよーー。そこが今回の中で一番説明が面倒くさいところ。

それぞれの定義を確認してみるよ~~

 

標本誤差について

 

標本誤差の定義
標本誤差とは母集団のすべてを調査しないで、一部の標本を無作為抽出して調査した結果にともなう誤差である。つまり全数調査には存在せず、標本調査の持つ誤差である。 ※日経リサーチより引用

 

ゆうき
上だけ見ても分からないから、まずは標本って何なのか説明するよ~~

 

ゆうき
標本っていうのは、ある集団の値を推測するために用いるために使うものなんだ~

 

さき
全く意味が分かりません。

 

ゆうき
例えば、さきちゃんは”日本全体の学生の睡眠時間の平均を知りたい”と思ったら、全国に回って一々聞いたりする?

 

さき
そんなの無理に決まっているじゃないですか!

 

ゆうき
そうだよね〜〜。普通はどうする?

 

さき
、、、普通は近くの学校に行ってアンケート調査しますよ。

 

ゆうき
普通はそうだよね。ただ今回の例もそうだけど、偏りがあっちゃいけないんだ〜〜

 

さき
偏り?

 

ゆうき

要は全部の睡眠時間の平均を聞いているのに、北海道の学生30人に聞いてそれを全国平均にしてしまうとかさ、、、

地域によって気候生活習慣は異なってくるから、それを配慮していないから全国平均のデータとはならない。

だから、都道府県ごとの学生のデータが必要になってくるよね。まぁ今ではそういう情報は統計局っていうホームページへ行けばデータが開示されているから楽なんだけどねぇ〜

 

さき
”ゆうきさん”の話しをまとめると、標本というのは大きいデータを集めるのは現実的に無理だから、ある程度のデータを集めて、大きいデータを予測してみるってことですかね?

 

ゆうき
そういうこと。つまり標本は大きいデータを推測するために集めたデータってことなんだ〜〜

 

さき
なるほど〜〜

 

ゆうき
それで標本誤差の話にもどるんだけど、これは専門的に説明するとややこしくなるから、今回は標本内での誤差ということで覚えてもらえればオッケー!!

 

さき
つまり、、、?

 

ゆうき

標本のデータ精度の高さが標本誤差って覚えておいて!!仮に標本(集めたデータ)が100あったとして標本誤差が5%とするなら、5つのデータは間違えたものとしてカウントしてね~~

 

さき
なるほど!!

 

信頼係数について

 

信頼係数の定義
統計学において母集団の母数を推定するに当たり、その無作為抽出標本に従属して定められる区間に母数の値が属する確率。信頼度。 ※大辞林 第三版より引用

 

ゆうき
これは言葉の通りデータの信用度を表す統計用語と思ってもらって構わないよ〜〜

 

さき
データの信用度?

 

ゆうき
例えば集めてきたデータの信頼係数が50%としたら、さきちゃんはそれを使って人に説明したり、参考資料としたりする?

 

さき

、、、半分しか合っていないようなデータですよね?

そんなもの参考になるわけがありません!!

 

ゆうき
そうだよね。だからデータの信用度は大事!!

 

さき
じゃあ、信頼係数は100%で無ければいけないのですか?

 

ゆうき
世の中に100%信用できるデータがそんなにポンポン作れると思う?

 

さき
、、、思いません。

 

ゆうき

だから100%の信用できるデータは作らなくて良いんだよ。

統計学では、基本的に信頼係数は95%、つまり100人にアンケートを取って5人のズレは許容範囲内で収まるから、信頼できるデータとして参考にできるね。

 

さき
必ず95%以上でないとダメなんですか?

 

ゆうき

それは調べるものによって違いはあるよ。

簡単なアンケート調査をするなら、90%以上の信頼係数があれば充分だし、製品の不良品を検査するなら、97%以上の信頼係数が無いと商品として販売できない。

こんな感じで信頼係数の違いは発生するんだ~~

 

さき
なるほど、そうなんですね。

 

ゆうき

標準誤差信頼係数はこれで大体わかったかな?

もし「全然分からない」「もっと詳しく知りたい」という方は、今回参考にさせていただいた本を下に載せておくので、そちらの方で確認してみてください!!

 



調査に必要なアンケートの枚数を求めてみる

公式

 

ゆうき
まずは公式を確認してみよう!!

 

さき
はい!!

 

ゆうき
求め方の式は下の通りだね~~

※スマホの方は式をスクロールして見てね~~
※信頼係数95%で求める場合(精度は高め)

$$1.96\times\sqrt{\frac{標本比率\times(1-標本比率)}{調査に必要なデータの個数}}=標本誤差$$

 

※信頼係数90%で求める場合(精度はある程度高め)

$$1.64\times\sqrt{\frac{標本比率\times(1-標本比率)}{調査に必要なデータの個数}}=標本誤差$$

 

ゆうき

標本比率の説明をしていなかったけど、今回はそこまで関係ないかなぁ~~

式を見れば分かると思うんだけど、標本誤差が最も大きくなると思われる場合の標本比率はいくらだと思う?

 

さき

、、、この場合は分子が大きくなるほど、標準誤差が大きくなるので、標本比率は50%

つまり0.5×0.5が一番標準誤差を大きくすると思います。

 

ゆうき

正解😀😀

だから、標本比率は最悪のずれ(標準誤差が大きいこと)を想定して、基本的には50%で良いと思うよ~~

 

さき
後、信頼係数の%によって、1.961.64に変わっていますが、これは何ですか?

 

ゆうき

う~~んとね、、、そこもあんまり覚えなくて良いよ。

本来は統計学において重要なところになるけど、今回はあんまり混乱させたくないから、精度が高い場合(90%,95%)の式だけ説明したんだ。

もし詳しく知りたい方は先ほどの参考資料を見てね~~

 

 

実際に求めてみた

 

ゆうき
じゃあ実際に求めてみますよ~~

 

<例題>
さきちゃんは自分で作ったお菓子のおいしさのアンケート調査を取りたいと考えています。信頼係数95%の精度でデータを集めたいとして、標本誤差は7%以内に抑えたいと考えています。さきちゃんは何人からアンケート調査の回答を得れば良いですか?(ちなみに標準誤差が最大になることを想定して標本比率は50%でお願いします。)

 

ゆうき
解答は下に載せておきます

 

答え
約208人

<計算過程>※スマホの方はスクロールしてみてね

$$1.96\times\sqrt{\frac{0.5\times(1-0.5)}{調査に必要なデータの個数}}=0.07$$

 

$$\sqrt{\frac{0.5\times(1-0.5)}{調査に必要なデータの個数}}=0.0357…$$

 

$$\frac{0.5\times(1-0.5)}{調査に必要なデータの個数}=(0.0357…)^2$$

 

$$\frac{0.25}{調査に必要なデータの個数}=0.0012…$$

 

$$\frac{0.25}{0.0012…}=調査に必要なデータの個数$$

 

$$調査に必要なデータの個数=208.33$$

 

ゆうき
どうだったかな?

 

まとめ

今日の記事のまとめです。

チェック アンケートで必要な枚数は精度とどの程度の誤差を許容して良いのかで決まる
チェック 公式に当てはめて実際に求めてみる

 

では、また次の記事でお会いしましょう!!

スポンサーリンク