ミクロ政治データ分析実習

第6回 変数の尺度とデータセットの入手

(そん)  財泫(じぇひょん)

関西大学総合情報学部

2024-05-16

授業を始める前に

  • 分析単位仮説のような概念が登場するが、これらについては後期の「マクロ政治データ分析実習」の前半(リサーチデザイン)で解説する。
  • 本日の内容は前期の内容とあまり関係のない内容だが、後期の授業は自分でデータセットを構築/入手して、独自の問いに対する分析行う(= 期末レポート)必要があるため、非常に重要。

データの形

データの形

データの構造は基本的に「四角形

ID 都道府県 自民得票率 財政力指数 高齢者比 第一次産業従事者比率
1 北海道 32.820 0.435 29.190 6.995
2 青森県 40.440 0.341 30.214 12.029
3 岩手県 34.900 0.352 30.489 10.644
4 宮城県 36.680 0.614 25.860 4.362
5 秋田県 43.460 0.309 33.942 9.621
6 山形県 42.490 0.351 30.901 9.194
7 福島県 33.820 0.533 28.779 6.483
8 茨城県 40.640 0.637 27.103 5.640
9 栃木県 38.780 0.640 26.342 5.516
10 群馬県 42.060 0.625 28.081 4.963
11 埼玉県 32.300 0.766 25.177 1.592
12 千葉県 37.790 0.778 26.166 2.786
13 東京都 34.370 1.101 23.171 0.387
14 神奈川県 34.920 0.908 24.209 0.834
15 新潟県 43.660 0.451 29.994 5.760
16 富山県 44.160 0.467 30.822 3.266
17 石川県 48.090 0.485 28.070 3.019
18 福井県 45.290 0.394 28.890 3.714
19 山梨県 37.360 0.396 28.734 7.183
20 長野県 35.270 0.496 30.391 9.057
21 岐阜県 39.710 0.534 28.530 3.086
22 静岡県 37.470 0.720 28.200 3.802
23 愛知県 34.320 0.921 24.216 2.072
24 三重県 33.670 0.585 28.321 3.578
25 滋賀県 37.850 0.550 24.423 2.645
26 京都府 31.180 0.584 27.781 2.052
27 大阪府 22.120 0.765 26.473 0.505
28 兵庫県 31.710 0.634 27.292 1.968
29 奈良県 33.510 0.421 28.809 2.625
30 和歌山県 39.610 0.327 30.978 8.757
31 鳥取県 41.620 0.266 29.865 8.782
32 島根県 48.240 0.252 32.707 7.758
33 岡山県 37.870 0.518 28.890 4.574
34 広島県 39.930 0.602 27.778 3.091
35 山口県 46.750 0.440 32.202 4.808
36 徳島県 38.440 0.329 31.142 8.191
37 香川県 44.070 0.476 30.152 5.263
38 愛媛県 43.570 0.425 30.812 7.343
39 高知県 37.010 0.258 32.994 11.417
40 福岡県 36.520 0.634 26.092 2.779
41 佐賀県 43.530 0.341 27.791 8.442
42 長崎県 41.700 0.326 29.758 7.422
43 熊本県 46.540 0.399 28.912 9.589
44 大分県 39.440 0.371 30.695 6.678
45 宮崎県 40.110 0.333 29.595 10.790
46 鹿児島県 45.970 0.333 29.568 9.319
47 沖縄県 27.820 0.332 19.760 4.510

行と列

  • 行:ケース
    • 人、クラス、都道府県、国、年など
    • 分析単位に注意すること
  • 列:変数
    • 性別、年齢、人口、成績など
  • 一行目は変数名を表し、ヘッダー(header)とも呼ばれる。

分析単位

分析単位

各行(ケース)は分析単位を表すこと

  • 仮説:高齢ほど政党Xに投票する
  • 分析単位は「人」\(\Rightarrow\)「一人 = 一行」
    • 同じ人が2行以上登場することはない。
ID 年齢 政党Xへの投票有無
1 41 1
2 28 0
3 47 1
4 34 0
5 46 0
6 49 1
7 26 1
8 53 0
9 50 0
10 60 0
  • 仮説:高齢者が多い都道府県ほど政党Xの得票率が高い
  • 分析単位は「都道府県」\(\Rightarrow\)「一都道府県 = 一行」
    • 同じ都道府県が2行以上登場することはない。
ID 都道府県 政党Xの得票率 高齢者比
1 北海道 32.82 29.19036
2 青森県 40.44 30.21411
3 岩手県 34.90 30.48886
4 宮城県 36.68 25.85974
5 秋田県 43.46 33.94153
6 山形県 42.49 30.90099
7 福島県 33.82 28.77917
8 茨城県 40.64 27.10318
9 栃木県 38.78 26.34192
10 群馬県 42.06 28.08067
  • 仮説:所得が高いほど、人間開発指数も高い。
  • 分析単位は「年」\(\Rightarrow\)「一年 = 一行」
    • 同じ年が2行以上登場することはない。
ID 一人当たりPPP-GDP 人間開発指数
1 2013 $39,436.81 0.909
2 2014 $39,604.12 0.910
3 2015 $40,959.27 0.913
4 2016 $40,640.54 0.914
5 2017 $41,408.95 0.916
6 2018 $42,714.55 0.917
7 2019 $43,350.97 0.918
8 2020 $42,226.32 0.917
9 2021 $45,416.04 0.920
10 2022 $49,210.59 0.290
  • 同じ対象に対し、複数回観察を行う「パネルデータ」というものもある。
  • 分析単位は「人・国・都道府県 \(\times\) 時間」
ID 一人当たりPPP-GDP 人間開発指数
1 China 2020 $17,099.01 0.781
2 China 2021 $19,387.47 0.785
3 China 2022 $21,385.60 0.788
4 Japan 2020 $42,226.32 0.917
5 Japan 2021 $45,416.04 0.920
6 Japan 2022 $49,210.59 0.920
7 Korea 2020 $44,725.86 0.922
8 Korea 2021 $48,853.03 0.926
9 Korea 2022 $53,759.58 0.929

尺度

変数の尺度

多くの場合、間隔尺度と比率尺度の区別は行わない

  • 離散変数 (Discrete variable)
    • 名目尺度 (Nomial scale)
    • 順序尺度 (Ordinal scale)
  • 連続変数 (Continuous variable)
    • 間隔尺度 (Interval scale)
    • 比率尺度 (Ratio scale)

名目尺度

「範疇尺度」、「名義尺度」とも

  • 例) 男性は0、女性は1
  • 例) 北海道 = 1、青森 = 2、…、鹿児島 = 46、沖縄 = 47

数字は各項目を.kenten[識別]するものであり、数字として意味を持たない

  • 沖縄 - 北海道 = 鹿児島?
  • 男性 = 1、女性 = 0でも問題ない


できること

  • 度数 (Frequency): 女性は何人? 大阪出身は何人?
  • 最頻値 (Mode): 最も多い出身地はどこ?

順序尺度

「大小」に関する情報のみを持つ

  • 例) 1位、2位、3位、···
  • 例)とても幸せ、どちらかといえば幸せ、···、とても不幸
  • 1位と2位の差 \(\neq\) 2位と3位の差
  • 幸せの基準は人それぞれ


できること

  • 名目尺度でできること
  • 順位 (Order, Rank): 1 位 > 2 位 > 3 位
  • 中央値 (Median): 真ん中は何か

間隔尺度

わりと少ない尺度

  • 例として「気温」
  • 「0」の意味はない
    • 0 \(^\circ\)C は「温度がない」ではない
    • 0 \(^\circ\)C = 32 \(^\circ\)F
  • 掛け算ができない
    • 2 \(^\circ\)Cは1 \(^\circ\)Cより2倍暑い?


できること

  • 順序尺度でできること
  • 足し算引き算
  • 平均値 (Average): 平均気温
  • 差の比較: 30度 − 20度 = 10度 − 0度

比率尺度

最も一般的な変数

  • 「0」の意味あり
    • 0円=お金がない
    • 0 Km/s. = 動かない


できること

  • 間隔尺度でできること
  • 掛け算割り算: 1 万円 × 2 = 2 万円

尺度の比較

尺度によって使える統計量・手法が異なる


名目 順序 間隔 連続
順位(大小関係) \(\bigcirc\) \(\bigcirc\) \(\bigcirc\)
度数(頻度) \(\bigcirc\) \(\bigcirc\) \(\bigcirc\) \(\bigcirc\)
最頻値 \(\bigcirc\) \(\bigcirc\) \(\bigcirc\) \(\bigcirc\)
中央値 \(\bigcirc\) \(\bigcirc\) \(\bigcirc\)
平均値 \(\bigcirc\) \(\bigcirc\)
差の比較 \(\bigcirc\) \(\bigcirc\)
足し算と引き算 \(\bigcirc\) \(\bigcirc\)
掛け算と割り算 \(\bigcirc\)
0の有無 \(\bigcirc\)

変数と尺度

\(\bigcirc\bigcirc\) 尺度で測定された変数 \(\rightarrow\) \(\bigcirc\bigcirc\) 変数

  • 同じ対象でも用いる尺度は複数あり得る

  • 例) 年収

    • 順序: ∼200万円、201万円∼400万円、401万円∼
    • 比率: 178万円, 308万円, 968万円, 1兆300円, ···
  • 例) 年齢

    • 順序: 20代未満, 20代, 30代, 40代, 50代, 60代以上
    • 比率: 88歳, 37歳, 11歳, 130歳, ···

尺度の変換

情報量の多さは

  • 比率 > 間隔 > 順序 > 名目
  • 情報量の多い尺度は下位の尺度へ変換が可能
    • 例) 358万円 (比率) \(\rightarrow\) 「300万円以上、400万円未満」 (順序)
    • その逆は不可能
    • 例) 「300万円以上、400万円未満」 \(\rightarrow\) 301万? 358万? 399万?

データセットの構築

データセット構築の手順

  1. 仮説を立てる。
    • データから仮説を立てる方法もあるが、現時点では非推奨
  2. 分析単位を明らかにする。
    • 個人? 自治体? 国?
  3. 必要な変数を特定する。
    • 入手可能な変数か。
    • 個人の投票先? 各政党の都道府県別得票率?
      • とりわけ「個人」が単位のデータ(世論調査データ等)は入手難易度が高い。
  4. 公開済みのデータが存在するか。
    • あればダウンロード
    • ない場合は世論調査の実施 or データセットの構築

データセット構築の2つの方法

  1. 分析単位が国、自治体、選挙区などの場合(集計データ
    • 既に構築されているデータをダウンロード
      • 非常に稀なケース; 自分の問いに答えるためのピッタリのデータはなかなか存在しない。
    • 自力で構築(政府統計などを結合)
  2. 分析単位が個人の場合(個票データ
    • データ・アーカイブから公開されている世論調査データを入手する。
    • 自分で世論調査を実施する。
      • 非常に高い(金銭的)コストを伴う。

集計データ:自力で構築する

公開されているデータの計算・結合


  • 信頼できる機関のデータを利用すること
    • 政府機関、企業、研究所など「データのミスについて責任の所在が明確な機関」

個票データ:公開データの利用

個票データ:自力で構築する

分析単位が「人」であり、公開されているデータがない場合

  • 世論調査を実施
  • 一般的に高額(数万〜数百万円)
  • 世論調査を行う前に社会調査法の知識は必須
    • 調査倫理
    • 調査設計の方法
    • サンプリング
      • SNSでアンケートを拡散して収集したデータは「日本人の意識」、「若者の行動」と解釈できない。

実習

実習内容


データ・アーカイブの利用:SSJDAの例

仮説: 高校時代に主権者教育を受けた若年層ほど2016年参院選で投票する傾向がある。

  • 分析単位: 個人 (若年層) \(\rightarrow\) 世論調査データが必要
  • 必要な変数
    • 高校時代に主権者教育を受けたか否か
    • 2016年参院選で投票したかどうか

手順

  1. SSJDAへアクセス (https://csrda.iss.u-tokyo.ac.jp/)
  2. キーワードで検索(例: 「若年 選挙」)
    • 明るい選挙推進協会の「新有権者等若年層の参院選投票後の意識調査,2016」など
  3. 調査票を確認し、必要な変数が含まれているかを確認
    • Q9とQ17など
  4. 教員(ゼミ教員や授業担当者)と相談する
    • 学部生は教員経由でしか入手できない \(\rightarrow\) 教員による代理申請
    • 大学院生は指導教員の事前承認の下で入手可能

調査ホームページの利用:WVSの例

仮説: 日本において高学歴、かつ平等より自由を重視するのほど民主主義を重視する

  • 分析単位: 個人 \(\rightarrow\) 世論調査データが必要
  • 必要な変数
    • 学歴、平等と自由のどちらを重視するか
    • 民主主義の重視程度

手順

  1. WVSのHPへアクセス(https://www.worldvaluessurvey.org/
  2. Data and Documentation \(\rightarrow\) Data Download \(\rightarrow\) Wave 7 (2017-2020)
  3. Japan 2019を選択
  4. Questionnaire(質問票; 日本語)とCodebook(コードブック; 英語)を確認
    • 質問票: F10a (Q275)、問37 (Q149)、問70 (Q250)
    • カッコ内はコードブック上の番号(データの変数名はコードブック基準)
    • 質問票とコードブックの設問番号は一致しないため注意が必要
  5. Excel形式のデータをダウンロード (WVS Wave 7 Japan Excel v2.0)

データ構築の例

仮説: 2023年7月の参院選において財政力指数が低く、高齢者の比率が高い都道府県ほど、投票率が高い

  • 分析単位:都道府県
  • 必要な変数
    • 都道府県ごとの財政力指数(googleで「財政力指数」)
    • 都道府県ごとの65歳以上人口比(e-statで「国勢調査」)
        1. 都道府県ごとの人口、(2) 65歳以上人口が必要
    • 都道府県ごとの2023年参院選における投票率(googleで「総務省 選挙結果」)

手順

  1. 各データの公表先からデータをダウンロード
  2. 必要な変数のみを抜粋
  3. 表計算ソフト (Excel, Numbers, LibreOffice Calc)などを利用し、一つのデータとして統合
    • 必要に応じて計算も行う。

完成したデータ

ID Pref Finance Above65 Turnout
1 北海道 0.44595 32.26170 53.97137
2 青森県 0.34205 33.69179 49.48735
3 岩手県 0.35856 33.81424 55.37885
4 宮城県 0.59731 28.43901 48.79890
5 秋田県 0.31066 37.60177 55.55781
6 山形県 0.36209 33.98365 61.85932
7 福島県 0.52158 31.82748 53.39401
8 茨城県 0.63115 30.30695 47.21866
9 栃木県 0.61976 29.56807 46.98227
10 群馬県 0.61177 30.88517 48.49059
11 埼玉県 0.74351 27.33047 50.24647
12 千葉県 0.75112 28.02414 50.00762
13 東京都 1.07301 23.29183 56.54098
14 神奈川県 0.85330 25.86952 54.49929
15 新潟県 0.45700 32.97734 55.30748
16 富山県 0.46248 32.92857 51.36568
17 石川県 0.49718 30.17642 46.40330
18 福井県 0.40511 31.06232 55.31287
19 山梨県 0.38432 31.14433 56.22731
20 長野県 0.50787 32.28879 57.70064
21 岐阜県 0.53634 31.11373 53.58751
22 静岡県 0.69278 30.66518 52.96779
23 愛知県 0.88545 25.83282 52.17229
24 三重県 0.58573 30.58887 52.78095
25 滋賀県 0.54836 26.71561 54.58415
26 京都府 0.56803 29.47203 50.90311
27 大阪府 0.75219 27.65828 52.44176
28 兵庫県 0.62258 29.32041 51.61156
29 奈良県 0.41700 31.72145 55.90187
30 和歌山県 0.32297 33.42466 52.41777
31 鳥取県 0.27259 32.47166 48.92498
32 島根県 0.25379 34.66566 56.36724
33 岡山県 0.51083 30.67966 47.22801
34 広島県 0.59332 29.79257 46.79144
35 山口県 0.43531 34.84154 47.59254
36 徳島県 0.31217 34.34980 45.71976
37 香川県 0.46068 32.14574 49.22103
38 愛媛県 0.42493 33.43253 48.80868
39 高知県 0.26105 35.61885 47.36278
40 福岡県 0.62808 28.21122 48.76012
41 佐賀県 0.34218 30.85767 51.11522
42 長崎県 0.33484 33.16014 48.71595
43 熊本県 0.40305 31.66006 49.12638
44 大分県 0.37501 33.53593 52.98119
45 宮崎県 0.34168 32.85051 47.51680
46 鹿児島県 0.33756 32.70230 48.62981
47 沖縄県 0.36177 22.70253 50.53120

可視化は第12回講義以降で解説

線形回帰分析は後期の「マクロ政治データ分析実習」で解説


Call:
lm(formula = Turnout ~ Finance + Above65, data = df)

Residuals:
   Min     1Q Median     3Q    Max 
-5.673 -2.663  0.015  2.597 10.376 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  46.0475    10.3292   4.458 5.64e-05 ***
Finance       2.7695     4.6641   0.594    0.556    
Above65       0.1305     0.2718   0.480    0.634    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.673 on 44 degrees of freedom
Multiple R-squared:  0.007994,  Adjusted R-squared:  -0.0371 
F-statistic: 0.1773 on 2 and 44 DF,  p-value: 0.8381

課題

課題

  • 2024年5月20日(月)〜
    • JDCat分析ツールのメインサーバーが復旧する予定
    • 新サーバーに移行する際、既存のデータは全て破棄されるため、残しておきたいコードがあれば、予めダウンロードしてバックアップしておくこと。
  • 次回(5月23日)までもう一度R/RStudioの導入・設定を行う。
    • サポートページの「Rの使い方」からRの導入RStudioの設定を見ながら導入・設定を済ませること。
    • 次回の授業でRの導入・設定の時間は設けないため、必ずやっておくこと。