統計について私の理解している範囲で語ります🤫
ほんの少しだけ昔の仕事に関わる&長くなるのでふせです
博報堂の調査についての📦を頂いたので、私のわかる範囲で、こんな風に理解して読んでるよーということをまとめておきます
まず、統計学って最小限のサンプルで傾向を掴みましょうみたいな感じで用いることが多いです
私は専門で勉強していたわけではないので、そんなに詳しくはないですが、少しだけ仕事で使ったことがあります
ある企業で仕事をしていたのですが、実験をパソコン上でシミュレーションする仕事をしていました
その結果のバラツキを考慮しなければならず、そのために統計を少しだけかじりました
サンプル数を幾つにしたかは記憶が定かでは無いですが、バラつかせる項目が増えればサンプル数は増やす必要があるのかなと思います
私はその時たぶん100ケースのシミュレーションをして、その結果をグラフ化し、正規分布していることを把握した上で、その分布の範囲を確認した記憶です
それだけでは分かりづらいので、簡単に例題を出してみようと思います
10人の子が50mを走ったとします
この時、10人の子が全員同じ年齢だったとしたら、平均値はかなり近寄ってきます
では、これが100人になったらどうか?
先程の10人がもしかしたら学年のTOPクラスの足の速さ10人だと、平均値はかなり早くなりますが、100人になると、かなり平均値に近いタイムが増えてきます
では1000人になったら?
MAXとMINは突出しているので変化がありますが、平均値は100人の時と大きく変わらないのではないかな?と感じます
さらに、それが10000人になっても100000万人になっても、ある一定の人数からは平均値がほぼ変わらなくなってくることは容易に想像が着きます
この「ある一定の人数」が統計学ではサンプルサイズというようです
https://bellcurve.jp/statistics/glossary/1876.html
この数値を導き出すには、小難しい計算式があるようですが、例えばこのページで例題に出されている視聴率の街頭アンケートでは、554人と出ています
https://bellcurve.jp/statistics/course/9129.html
ちなみに正規分布というのは、先程の100人、1000人、10000人と人数を増やしても、平均値の人数が多くなるという現象のことを(簡単に言うと)示していて、グラフなんかを見るととてもわかりやすいと思います
https://ja.m.wikipedia.org/wiki/正規分布
さて、今回のコンテンツビジネスラボは以下のような条件でデータを取得しています
・ 調査方法:インターネット調査
・ 調査地区/対象者:全国 15~69 歳の男女 (全国 7 エリアを性年代別人口構成比で割付)
・ 有効回収サンプル数:5000 サンプル
※短時間回答者・下位 5%サンプルカット
※人口構成比に合わせウェイトバック集計
※2019 年調査以降:PC or スマートフォン インターネット利用者
有効回収サンプル数が5000ということで、まず短時間回答者・下位5%カットという点で、(この点は全体の中で回答時間が短い5%をカットした?ということなのか?分かりかねますが)正規分布のうち突出する可能性のある要素を排除したと考えられます
先程提示したURLでも出てきた信頼区間を95%としたときの5%を「回答時間の短さ」で判断したのかな?と私は理解しました
(予想ですが、回答を決め打ちで来て、何かのコンテンツの数値を大きくあげたいと考える人がとる行動として、回答時間が極端に短くなる=悩まず答えている と判断したのかな?と思います)
https://bellcurve.jp/statistics/glossary/2007.html
次に対象者が15〜69歳の男女で、さらに全国7ヶ所の男女比、年齢比、人口構成を考慮している点で、ある程度の性差、年齢差、地域差も加味したサンプルの算出方法なのだと感じました
それがウェイトバック集計というもののようですね
https://www.asmarq.co.jp/column/glossary/word0077/
さらに有効回答数5000であれば、先の視聴率の算出に使うサンプルサイズで554人と出ていますから、それの約10倍の人数を使い、ウェイトバック集計をすることで、全国の男女比、年齢差、地域差を加味して統計を得るのに十分なサンプル数のように私は感じました
まぁ、小難しいことを並べましたが、回答がインターネットのため、ネットに明るくない人達がサンプルに入っているのか?とか、回答者がどのように選ばれているのか?とか多少分からない点はありますが、それでも充分信頼に足るデータだと思います
博報堂は日本の1、2を争う広告業界の会社ですし、そこが出資した会社と共同で行う市場調査であれば、私なんかよりずーーっと頭のいい専門家が導き出した数字を元に、その道のプロの人達が集めたデータをこねくり回しているんだと思うし、会社名をハッキリと提示して長期間(7年以上続いています)世間に出しているデータですので、会社の信用のためにも決して間違った傾向を出しているとは思わないです
できるだけ私のわかる範囲でまとめましたが、この辺りを考えつつ、提示されたデータを信用した上で、私なりに感じたことをブログにまとめるつもりです👍