ミクロ政治データ分析実習

13/ 可視化（2）

宋(そん) 財泫(じぇひょん)

関西大学総合情報学部

授業開始前に

すぐに実習できるように準備しておきましょう。

JDCat分析ツールを起動しておいてください。
本日授業用のプロジェクトを開いてください。
LMSから実習用データをダウンロードしておいてください。
- データハンドリング（1）、（2）と同じデータです。
ダウンロードしてデータをプロジェクト・フォルダーにアップロードしてください。
実習用コードを入力するスクリプトファイル、またはQuartoファイルを開き、以下のコードを入力&実行してください。

library(tidyverse)

# countries.csvのアップロード先に応じて、パスを適宜修正すること
df <- read_csv("Data/countries.csv")

トラブルが生じた場合、速やかにTAを呼んでください。
時間に余裕があれば、スライド内のコードも書いておきましょう。

代表的な5種類のグラフ

5 Named Graphs (5NG)

棒グラフ (bar plot)
- geom_col() or geom_bar()
ヒストグラム (histogram)
- geom_histogram()
箱ひげ図 (box plot / box-and-whisker plot)
- geom_box()
散布図 (scatter plot)
- geom_point()
折れ線グラフ (line plot)
- geom_line()

グラフ作成の手順

作成したいグラフを決める
作成したいグラフの完成図を想像する or 描いてみる
グラフ上の要素（点、線、面）が持つ情報を考える
3の情報が一つの変数（列）と対応するような整然データを作成する
{ggplot2}で作図
図のカスタマイズ
図の保存

棒グラフ

棒グラフの必須要素

棒グラフを作成する際に必要な最低限の情報

x: 棒の横軸上の位置 (大陸)
y: 棒の高さ (人間開発指数の平均値)

y: 棒の縦軸上の位置 (大陸)
x: 棒の長さ (人間開発指数の平均値)

データの用意

第9回講義のデータ（countries.csv）を使用

{dplyr}を使用し、大陸（Continent）ごとの人間開発指数（HDI_2018）の平均値を計算し、df2という名で格納

library(tidyverse)
df <- read_csv("Data/countries.csv")

df2 <- df |>
   group_by(Continent) |>
   summarise(HDI = mean(HDI_2018, na.rm = TRUE))

df2

# A tibble: 5 × 2
  Continent   HDI
  <chr>     <dbl>
1 Africa    0.553
2 America   0.742
3 Asia      0.723
4 Europe    0.861
5 Oceania   0.782

とりあえず作図してみよう

使用する幾何オブジェクト：geom_col()
マッピング要素（幾何オブジェクト内にaes()）
- 棒の横軸上の位置は大陸（Continent）を意味する
- 棒の高さは人間開発指数の平均値（HDI）を意味する

コード

bar_plot1 <- df2 |>
  ggplot() +
  geom_col(aes(x = Continent, y = HDI))

結果

bar_plot1

日本語の使用（1）

Step1: df2のContinent列を日本語にリコーディング

df2 <- df2 |>
   mutate(Continent_J = recode(Continent,
                               "Asia"    = "アジア",
                               "Africa"  = "アフリカ",
                               "America" = "アメリカ",
                               "Europe"  = "ヨーロッパ",
                               .default  = "オセアニア"))

df2

# A tibble: 5 × 3
  Continent   HDI Continent_J
  <chr>     <dbl> <chr>      
1 Africa    0.553 アフリカ   
2 America   0.742 アメリカ   
3 Asia      0.723 アジア     
4 Europe    0.861 ヨーロッパ 
5 Oceania   0.782 オセアニア

日本語の使用（2）

Step2: 図のラベルを修正（labs()）

df2 |>
   ggplot() +
   geom_col(aes(x = Continent_J, y = HDI)) +
   labs(x = "大陸", y = "人間開発指数の平均値")

棒の並び替え

アルファベット順に並べ替えたい場合

コード
結果

Continet_J列をfactor化し、アフリカ、アメリカ、アジア、ヨーロッパ、オセアニア順とする

df2 |>
   mutate(Continent_J = factor(Continent_J, 
                               levels = c("アフリカ", "アメリカ", "アジア", 
                                          "ヨーロッパ", "オセアニア"))) |> 
   ggplot() +
   geom_col(aes(x = Continent_J, y = HDI)) +
   labs(x = "大陸", y = "人間開発指数の平均値") +
   theme_bw() # Black and Whiteテーマも使ってみよう

便利な関数: `fct_inorder()`

{forcats}のfct_inorder()関数（{forcats}は{tidyverse}の一部）

factor化を行い、各要素順番を表で登場した順番とする

# df2の中身
df2

# A tibble: 5 × 3
  Continent   HDI Continent_J
  <chr>     <dbl> <chr>      
1 Africa    0.553 アフリカ   
2 America   0.742 アメリカ   
3 Asia      0.723 アジア     
4 Europe    0.861 ヨーロッパ 
5 Oceania   0.782 オセアニア

df2 |>
   mutate(Continent_J = fct_inorder(Continent_J)) |>
   ggplot() +
   geom_col(aes(x = Continent_J, y = HDI)) +
   labs(x = "大陸", y = "人間開発指数の平均値")

次元の追加

ケース数の棒グラフ

各政治体制に属する国家数を計算

df3 <- df |>
   drop_na(Polity_Type) |>
   mutate(Polity_Type = factor(Polity_Type,
                               levels = c("Autocracy", "Closed Anocracy",
                                          "Open Anocracy", "Democracy",
                                          "Full Democracy"))) |>
   group_by(Polity_Type) |>
   summarise(N = n())

df3

# A tibble: 5 × 2
  Polity_Type         N
  <fct>           <int>
1 Autocracy          19
2 Closed Anocracy    23
3 Open Anocracy      20
4 Democracy          65
5 Full Democracy     31

作図

df3 |>
   ggplot() +
   geom_col(aes(x = Polity_Type, y = N))

棒が持つ情報

政治体制のタイプ (x = Polity_Type)
国家数 (y = N)

例) さらに大陸の情報を持たせ、色分けしたい

大陸の列が必要

df4 <- df |>
   drop_na(Polity_Type) |>
   mutate(Polity_Type = factor(Polity_Type,
                               levels = c("Autocracy", "Closed Anocracy",
                                          "Open Anocracy", "Democracy",
                                          "Full Democracy"))) |>
   group_by(Polity_Type, Continent) |>
   summarise(N       = n(),
             .groups = "drop")

データ

df4

# A tibble: 20 × 3
   Polity_Type     Continent     N
   <fct>           <chr>     <int>
 1 Autocracy       Africa        3
 2 Autocracy       Asia         14
 3 Autocracy       Europe        2
 4 Closed Anocracy Africa       14
 5 Closed Anocracy America       2
 6 Closed Anocracy Asia          6
 7 Closed Anocracy Europe        1
 8 Open Anocracy   Africa       12
 9 Open Anocracy   America       4
10 Open Anocracy   Europe        2
11 Open Anocracy   Oceania       2
12 Democracy       Africa       18
13 Democracy       America      16
14 Democracy       Asia         15
15 Democracy       Europe       16
16 Full Democracy  Africa        1
17 Full Democracy  America       5
18 Full Democracy  Asia          3
19 Full Democracy  Europe       20
20 Full Democracy  Oceania       2

次元の追加

aes()内にfill = Continentを追加

df4 |>
  ggplot() +
  geom_col(aes(x = Polity_Type, y = N, fill = Continent))

棒の位置をずらす

geom_col()内にposition = "dodge"を指定（aes()の外）

df4 |>
  ggplot() +
  geom_col(aes(x = Polity_Type, y = N, fill = Continent), 
           position = "dodge")

凡例の位置調整

theme()内にlegend.position = "bottom"を指定

デフォルトは"right"（"top"は上段; "none"は削除）

コード
結果

df4 |>
  ggplot() +
  geom_col(aes(x = Polity_Type, y = N, fill = Continent),
           position = "dodge") +
  theme(legend.position = "bottom")

もう一つの方法：マッピングの交換

前ページの場合、「ある政治体制内の大陸の分布」を知ることに特化
「ある大陸内の政治体制の分布」を見るには? \(\rightarrow\) xとfillを交換

コード
結果

df4 |>
  ggplot() +
  geom_col(aes(x = Continent, y = N, fill = Polity_Type),
           position = "dodge") +
  labs(x = "Continent", y = "Number of Countries", fill = "Polity Type")

もう一つの方法：ファセット分割

色分けを出来る限り抑えたい
facet_wrap(~ 分割の基準となる変数名)

コード
結果

bar_plot2 <- df4 |>
  ggplot() +
  geom_col(aes(x = Polity_Type, y = N)) +
  facet_wrap(~ Continent, ncol = 5) # ncol/nrowで列/行数の指定が可能

bar_plot2

値ラベルの回転

値ラベルが長すぎる場合、ラベルを回転することで重複を避ける

覚える必要はなく、必要に応じてググる（theme()レイヤーはかなり複雑）

コード
結果

# 以下のように図オブジェクトに直接「+」でレイヤーを追加することもできる。
bar_plot3 <- bar_plot2 +
   theme_minimal() + # テーマを変えてみよう
   theme(axis.text.x = element_text(angle = 35, vjust = 1, hjust = 1)) # 35度回転

bar_plot3

マッピング交換でも解決可能

xとyを交換しても良い

コード
結果

bar_plot4 <- df4 |>
  ggplot() +
  geom_col(aes(x = N, y = Polity_Type)) +
  labs(x = "Number of Countries", y = "Poltiy Type") +
  facet_wrap(~ Continent, ncol = 5) + # 5列のファセット分割
  theme_minimal(base_size = 12)       # フォントサイズの調整も可能

bar_plot4

ヒストグラム

一つの変数の分布を確認する方法

変数が離散変数の場合：棒グラフ
- 性別、国、都道府県など、数値が意味を持たないか変数
- 順位など取りうる値が有限
変数が連続変数の場合：ヒストグラム、箱ひげ図
- 気温、成績、所得、身長、体重、人間開発指数、…
- 取りうる値が無限個

ヒストグラムの棒が持つ情報

棒の横軸上の位置と高さ

{ggplot2}の場合、ヒストグラムを出力する変数をxにマッピングするだけで、自動的にヒストグラムを生成

ヒストグラムの作成

geom_histogram()を使用: マッピングはxのみ

df |>
  ggplot() +
  geom_histogram(aes(x = HDI_2018)) # HDI_2018のヒストグラム

棒の数を調整する

geom_histogram()内、aes()の外にbins引数を指定

df |>
  ggplot() +
  geom_histogram(aes(x = HDI_2018), bins = 10) # 棒を10本にする

棒の幅を調整する

geom_histogram()内、aes()の外にbinwidth引数を指定

df |>
  ggplot() +
  geom_histogram(aes(x = HDI_2018), binwidth = 0.05) # 棒の幅を0.05にする

棒の枠線を入れる

geom_histogram()内、aes()の外にcolor引数を指定

hist_plot1 <- df |>
  ggplot() +
  geom_histogram(aes(x = HDI_2018), binwidth = 0.05, color = "white") +
  labs(x = "Human Development Index (2018)", y = "Number of Countries")
hist_plot1

横軸のスケール調整

scale_x_continuous()を使用 (xをyに変えると縦軸修正)

breaks引数: 目盛りの位置 / labels引数: 目盛りのラベル

コード
結果

hist_plot2 <- hist_plot1 +
   scale_x_continuous(breaks = seq(0.4, 1.0, by = 0.1),
                      labels = seq(0.4, 1.0, by = 0.1))

hist_plot2

次元の追加（ファセット分割）

大陸ごとのHDI_2018のヒストグラム: ファセット分割を使用

hist_plot1 +
   facet_wrap(~Continent, ncol = 6)

次元の追加 (色分け)

position = "identity"とalpha = 0.5で可能であるが、非推奨

alpha = 1の場合、棒が不透明であるため、0.5程度に調整

コード
結果

df |>
   mutate(OECD = if_else(OECD == 1, "OECD Members", "Others")) |>
   ggplot() +
   geom_histogram(aes(x = HDI_2018, fill = OECD), position = "identity",
                  binwidth = 0.05, color = "white", alpha = 0.5)

文字化け & 図の保存

ベクトルとビットマップ

ベクトル画像を推奨するが、使用するワードソフトによってはPDFの図の埋め込みができない場合もある。

本講義では高解像度の.png形式の保存方法について解説する。

ベクトル画像

.pdf、.svgなど
- 推奨はPDF形式
拡大しても図が綺麗なまま
複雑な図であれば、ファイルのサイズが大きくなる

ビットマップ画像

.png、.bmp、.jpg（= .jpeg）など
- 推奨はPNG形式
拡大すると図がカクカクする
- 高い解像度（DPI）にすると、拡大しても綺麗だが、ファイルサイズに注意
図が複雑でも、ファイルサイズが比較的安定

図の保存

bar_plot3を保存する例

ggsave()関数を利用
作業フォルダー内のFigsフォルダにFigure1.pngという名で保存
- 予めFigsフォルダーを作成しておくこと
図のサイズは幅6インチ、高さ3インチ
保存形式はPNG形式 & 解像度は400
- 画面表示のみなら最低150、印刷目的なら最低300
{ragg}パッケージをインストールしておく（文字化け防止）

ggsave(filename = "Figs/Figure1.png", # 保存先とファイル名
       plot     = bar_plot3,          # 保存する図のオブジェクト名
       width    = 6,                  # 図の幅 (インチ)
       height   = 3,                  # 図の高さ (インチ)
       dpi      = 400,                # 解像度
       device   = ragg::agg_png)      # 文字化け防止

文字化けが生じる場合

JDCat分析ツールを使用する場合、文字化けは生じない

theme_*()レイヤーを追加し、base_family = "日本語フォント"を指定
theme_gray()：{ggplot2}の基本テーマ
- 他にもtheme_bw()、theme_minimal()など
macOSの場合、"HiraginoSans-W3"、Windowsの場合、"Yu Gothic"を指定

df2 |>
   ggplot() +
   geom_col(aes(x = Continent_J, y = HDI)) +
   labs(x = "大陸", y = "人間開発指数の平均値") +
   theme_gray(base_family = "HiraginoSans-W3")

ミクロ政治データ分析実習

授業開始前に

代表的な5種類のグラフ

5 Named Graphs (5NG)

グラフ作成の手順

棒グラフ

棒グラフの必須要素

データの用意

とりあえず作図してみよう

コード

結果

日本語の使用（1）

日本語の使用（2）

棒の並び替え

便利な関数: fct_inorder()

次元の追加

ケース数の棒グラフ

作図

棒が持つ情報

データ

次元の追加

棒の位置をずらす

凡例の位置調整

もう一つの方法：マッピングの交換

もう一つの方法：ファセット分割

値ラベルの回転

マッピング交換でも解決可能

ヒストグラム

一つの変数の分布を確認する方法

ヒストグラムの棒が持つ情報

ヒストグラムの作成

棒の数を調整する

棒の幅を調整する

棒の枠線を入れる

横軸のスケール調整

次元の追加（ファセット分割）

次元の追加 (色分け)

文字化け & 図の保存

ベクトルとビットマップ

ベクトル画像

ビットマップ画像

図の保存

文字化けが生じる場合

便利な関数: `fct_inorder()`