第5回 統計的推定
関西大学総合情報学部
2024-10-24
すぐに実習できるように準備しておきましょう。
inference_data.csv
)をダウンロードしておいてください。Data
フォルダーを作成し、そこにアップロードしましょう。.R
)、またはQuartoファイル(.qmd
)の保存先はData
フォルダーでなく、プロジェクトフォルダーです。問い | 母集団 |
---|---|
岸田内閣の支持率は? | 有権者全体 |
女性に人気のある大臣は誰か | 女性有権者全体 |
若者に人気のある政党は何か | 若者有権者全体 |
高槻市長の支持率は? | 高槻市における有権者全体 |
標本(sample): 母集団から抜き出された一部のこと
一般的に母数はギリシャ文字、統計量はラテン文字で表記
母数 | 統計量 |
---|---|
母平均(\(\mu\)) | 標本平均(\(\bar{x}\)) |
母比率(\(\pi\)) | 標本比率(\(p\)) |
母分散(\(\sigma^2\)) | 標本分散(\(s^2\))・標本不偏分散(\(u^2\)) |
母標準偏差(\(\sigma\)) | 標本標準偏差(\(s\))・標本不偏分散の平方根(\(u\)) |
内閣支持率が30%の場合、母集団において約3千万人が内閣を支持する。
標本から母集団を推論するためには、母集団から適切な方法で標本を抽出する必要がある。
無作為抽出された標本の平均(標本平均)と母平均が一致するケースはほとんどあり得ず、ズレが存在する。
標本平均の場合、偏り(bias)も誤差(error)も母平均と標本平均とのズレを意味する。
標本から母集団を推論することが「統計的推定」の目的
超母集団(superpopulation)を想定
学生5人(母集団)から\(n\) = 2の標本を無作為抽出し、身長を測定(25通り)
var()
関数は\(n-1\)で割る標本不偏分散であるため、\(\frac{n-1}{n}\)をかけて母分散を算出する。標本ID | 組み合わせ | 標本平均 | 標本不偏分散 |
---|---|---|---|
1 | {A, A} | 151.00 | 0.00 |
2 | {A, B} | 160.00 | 162.00 |
3 | {A, C} | 167.00 | 512.00 |
4 | {A, D} | 155.50 | 40.50 |
5 | {A, E} | 161.00 | 200.00 |
6 | {B, A} | 160.00 | 162.00 |
7 | {B, B} | 169.00 | 0.00 |
8 | {B, C} | 176.00 | 98.00 |
9 | {B, D} | 164.50 | 40.50 |
10 | {B, E} | 170.00 | 2.00 |
11 | {C, A} | 167.00 | 512.00 |
12 | {C, B} | 176.00 | 98.00 |
13 | {C, C} | 183.00 | 0.00 |
14 | {C, D} | 171.50 | 264.50 |
15 | {C, E} | 177.00 | 72.00 |
16 | {D, A} | 155.50 | 40.50 |
17 | {D, B} | 164.50 | 40.50 |
18 | {D, C} | 171.50 | 264.50 |
19 | {D, D} | 160.00 | 0.00 |
20 | {D, E} | 165.50 | 60.50 |
21 | {E, A} | 161.00 | 200.00 |
22 | {E, B} | 170.00 | 2.00 |
23 | {E, C} | 177.00 | 72.00 |
24 | {E, D} | 165.50 | 60.50 |
25 | {E, E} | 171.00 | 0.00 |
平均 | 166.80 | 116.16 |
不偏性(unbiasedness): 実現し得る統計量の平均値が母数と一致
不偏推定量(unbiased estimator): 不偏性のある推定量
\(u\)は不偏推定量ではない!
標本不偏分散\(u^2\)は母分散の不偏推定量ではあるが、\(u\)は母標準偏差の不偏推定量ではない。したがって、\(u\)は混同を避けるために「標本不偏標準偏差」でなく、「標本不偏分散の平方根」と呼ばれる。母標準偏差の不偏推定量はもっと複雑な計算が必要。
成人男性1000人の身長データ(架空のデータ)
\(n = 10\)の標本を無作為抽出し、標本平均を計算することを500回繰り返す。
sample_mean <- c() # 空ベクトルの作成
sample001 <- sample(height_df$Height, 10)
sample002 <- sample(height_df$Height, 10)
sample003 <- sample(height_df$Height, 10)
...
sample500 <- sample(height_df$Height, 10)
sample_mean[1] <- mean(sample001)
sample_mean[2] <- mean(sample002)
sample_mean[3] <- mean(sample003)
...
sample_mean[500] <- mean(sample500)
\[ \mbox{SE}(x) = \mbox{SD}(\bar{x}) = \sqrt{\frac{\sigma^2}{n}} \]
サンプルサイズが大きいほど、標準誤差も小さくなる(標本平均の平均値はいずれも約170.1)。
2021年9月に行われた有権者調査から測定された日本維新の会に対する感情温度(0度 \(\sim\) 100度)
# A tibble: 2,746 × 4
ID Female Age Temp_Ishin
<dbl> <dbl> <dbl> <dbl>
1 1 0 44 NA
2 2 1 32 50
3 3 1 53 20
4 4 1 22 0
5 5 1 27 NA
6 6 1 28 NA
7 7 0 28 30
8 8 1 45 NA
9 9 1 33 50
10 10 0 30 NA
# ℹ 2,736 more rows
標本平均(\(\bar{x}\))の標準偏差(Standard Deviation; SD)は
\[ \mbox{SD}(\bar{x}) = \sqrt{\frac{\sigma^2}{n}} = \frac{\sigma}{\sqrt{n}} = \mbox{SE}(x) \]
sd()
関数)
sd()
関数は「標本不偏分散の平方根」の関数sd(ベクトル) * sqrt((標本サイズ - 1) / 標本サイズ)
で計算標準誤差を用い、標本平均を以下のように変形したものを\(T\)統計量と呼ぶ。
\[ T = \frac{\bar{x} - \mu}{\mbox{SE}(x)} \]
\(T\)が95%収まる範囲を調べるためには、\(t\)分布における下限と上限を計算する。
qt(p, df)
で計算可能。
df
の\(t\)分布において\(t = \bigcirc\bigcirc\)なら\(t < T\)の領域の面積がp
\(\times\) 100%となる、\(t\)の値を計算qt(0.025, df = 1997)
とqt(0.975, df = 1997)
で計算qt()
内で0.025、0.975の代わりに\(\alpha / 2\) と \(1 - (\alpha / 2)\)を使用t.test(ベクトル名, conf.level = 区間)
で推定
t.test()
の後ろに$conf.int
を付けると、信頼区間のみ出力conf.level
は0.95(既定値)50%信頼区間
# pop_vecを母集団とした場合、母平均は0.3
# n = 30の標本抽出を100回行う
sample1 <- sample(pop_vec, 30)
sample2 <- sample(pop_vec, 30)
sample3 <- sample(pop_vec, 30)
...
sample100 <- sample(pop_vec, 30)
# それぞれの標本から95%信頼区間を求める
t.test(sample1, conf.level = 0.95)
t.test(sample2, conf.level = 0.95)
t.test(sample3, conf.level = 0.95)
...
t.test(sample100, conf.level = 0.95)
今回の例
なぜ「95%」か