回帰不連続デザイン
関西大学総合情報学部
2024-08-30
Regression Discontinuity Design
\[ T_i = \begin{cases} 0 & \text{ if } & \text{Population} < 3500, \\ 1 & \text{ if } & \text{Population} \geq 3500. \end{cases} \]
比例代表制と多数代表制の投票率の比較
比例代表制と多数代表制の投票率の比較(架空データ)
比例代表制と多数代表制の投票率の比較
比例代表制と多数代表制の投票率の比較 (架空データ)
比例代表制と多数代表制の投票率の比較 (架空データ)
(1) | (2) | |
---|---|---|
切片 | 59.650 | 59.939 |
(0.478) | (0.453) | |
人口 | -0.001 | -0.002 |
(0.000) | (0.000) | |
人口3500以上ダミー | 6.561 | |
(0.831) | ||
Num.Obs. | 500 | 500 |
R2 | 0.338 | 0.411 |
R2 Adj. | 0.336 | 0.409 |
RMSE | 5.27 | 4.97 |
異なる割当メカニズムを想定した2つのRDD
Moscoe and Barninnghausen (2015)
(非)線形回帰分析による推定
\[\widehat{\mbox{Turnout}} = \beta_0 + \beta_1 \mbox{Population} + \rho \mathbf{I}(\mbox{Population} \geq 3500)\]
\[\widehat{\mbox{Turnout}} = \beta_0 + \beta_1 \mbox{Population} + \rho \mathbf{I}(\mbox{Population} \geq 3500)\]
rdd_data2.csv
)\[\widehat{\mbox{Turnout}} = \beta_0 + \rho \mathbf{I}(\mbox{X} \geq 0) + \beta_1 \mbox{X}\]
\[\widehat{\mbox{Turnout}} = \beta_0 + \rho \mathbf{I}(\mbox{X} \geq 0) + \beta_1 X + \beta_2 X^2\]
\[\widehat{\mbox{Turnout}} = \beta_0 + \rho \mathbf{I}(\mbox{X} \geq 0) + \beta_1 X + \beta_2 X^2 + \beta_3 X^3\]
\[\widehat{\mbox{Turnout}} = \beta_0 + \rho \mathbf{I}(\mbox{X} \geq 0) + \beta_1 X + \beta_2 X^2 + \beta_3 X^3 + \beta_4 X^4\]
\[\widehat{\mbox{Turnout}} = \beta_0 + \rho \mathbf{I}(\mbox{X} \geq 0) + \beta_1 X + \beta_2 X^2 + \dots + \beta_5 X^5\]
\[\widehat{\mbox{Turnout}} = \beta_0 + \rho \mathbf{I}(\mbox{X} \geq 0) + \beta_1 X + \beta_2 X^2 + \dots + \beta_6 X^6\]
\[\widehat{\mbox{Turnout}} = \beta_0 + \rho \mathbf{I}(\mbox{X} \geq 0) + \beta_1 X + \beta_2 X^2 + \dots + \beta_7 X^7\]
\[\widehat{\mbox{Turnout}} = \beta_0 + \rho \mathbf{I}(\mbox{X} \geq 0) + \beta_1 X + \beta_2 X^2 + \dots + \beta_8 X^8\]
\[\widehat{\mbox{Turnout}} = \beta_0 + \rho \mathbf{I}(\mbox{X} \geq 0) + \beta_1 X + \beta_2 X^2 + \dots + \beta_9 X^9\]
\[\widehat{\mbox{Turnout}} = \beta_0 + \rho \mathbf{I}(\mbox{X} \geq 0) + \beta_1 X + \beta_2 X^2 + \dots + \beta_{10} X^{10}\]
\[\hat{Y} = \beta_0 + \beta_1 X + \rho \mathbf{I}(X \geq 3) + \gamma X \cdot \mathbf{I}(X \geq 3).\]
rdd_data3.csv
)交差項なし | 交差項あり | |
---|---|---|
\(\beta_0\) | 3.981 | 3.028 |
(0.701) | (0.665) | |
\(\beta_1\) | 1.273 | 1.029 |
(0.123) | (0.121) | |
\(\rho\) | 11.730 | 0.699 |
(1.519) | (2.305) | |
\(\gamma\) | 2.158 | |
(0.358) | ||
Num.Obs. | 200 | 200 |
R2 Adj. | 0.824 | 0.851 |
F | 467.822 | 379.750 |
RMSE | 5.76 | 5.29 |
rdd_data3.csv
)強制変数を閾値で中心化 (centering) する
\[\hat{Y} = \beta_0 + \beta_1 X + \rho \mathbf{I}(X \geq 3) + \gamma X \cdot \mathbf{I}(X \geq 3).\]
強制変数を閾値で中心化 (centering) する
\[\begin{align}\hat{Y} & = \beta_0 + \beta_1 X^c + \rho \mathbf{I}(X^c \geq 0) + \gamma X \cdot \mathbf{I}(X^c \geq 0), \\ X^c & = X - c.\end{align}\]
\[\hat{Y} = \beta_0 + \beta_1 X + \rho \mathbf{I}(X \geq 3) + \gamma X \cdot \mathbf{I}(X \geq 3).\]
\[\hat{Y} = \beta_0 + \beta_1 X^c + \rho \mathbf{I}(X^c \geq 0) + \gamma X \cdot \mathbf{I}(X^c \geq 0).\]
強制変数と応答変数間の関数 (functional form) が正しく設定できるか
閾値(\(c\))から\(h\)以上離れているケースは分析から除外
推定方法
\(−h \leq X^c \leq h\)範囲内のデータのみ使用
rdd_data2.csv
)\(h = 5\) の場合
rdd_data2.csv
)\(h = 3\) の場合
rdd_data2.csv
)\(h = 1\) の場合
rdd_data2.csv
)バンド幅の調整による因果効果の推定値の変化
rdd_data1.csv
)参考) 選挙制度と投票率の例 (真の因果効果は 5)
パラメトリック推定に比べてバイアスが大きい場合も
rdd_data2.csv
のように \(c\) 周辺で変化が大きい場合、局所平均は向いていないより前提を緩めた推定法
rdd_data2.csv
)\(h = 3\) の場合
バンド幅内データを対象にした線形回帰分析 (Hahn et al. 2001, Poter 2003, Imbens and Lemieux 2008)
ノンパラメトリック推定の場合、バンド幅の設定が大事
簡単に計算可能な最適バンド幅の一つ (Imbens and Kalyanaraman 2009)
\[h_{\text{opt}} = C_K \cdot \Bigg(\frac{2 \hat{\sigma}^2(c) / \hat{f}(c)}{\big(m_{+}^{(2)}(c) - m_{-}^{(2)}(c)\big)^2 + (\hat{r}_{+} + \hat{r}_{-})}\Bigg)^{\frac{1}{5}} \cdot N^{-\frac{1}{5}}\]
カーネル選択は推定値に大きな影響を与えない (Lee and Lemieux 2010)
kernel | BW | LATE | Half BW | Double BW |
---|---|---|---|---|
triangular | 3.860 | 25.527 | 30.865 | 6.479 |
rectangular | 6.068 | 10.566 | 24.551 | -40.634 |
epanechnikov | 3.593 | 24.570 | 30.955 | 7.702 |
quartic | 4.103 | 25.317 | 30.860 | 7.323 |
triweight | 4.560 | 25.478 | 31.020 | 7.443 |
tricube | 4.141 | 25.001 | 30.834 | 7.697 |
gaussian | 1.413 | 25.878 | 31.318 | 6.687 |
cosine | 3.659 | 24.640 | 30.891 | 7.395 |
講師が作成した架空データ
rdd_data1.csv
: スライド5ページ
rdd_data2.csv
: スライド15ページ
rdd_data3.csv
: スライド29ページ
実習用データ
rdd_data4.dta
Call:
RDestimate(formula = vote ~ margin, data = rdrobust_RDsenate)
Type:
sharp
Estimates:
Bandwidth Observations Estimate Std. Error z value Pr(>|z|)
LATE 7.550 347 9.645 2.115 4.559 5.135e-06
Half-BW 3.775 186 12.664 2.803 4.517 6.258e-06
Double-BW 15.100 610 7.477 1.561 4.789 1.678e-06
LATE ***
Half-BW ***
Double-BW ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
F-statistics:
F Num. DoF Denom. DoF p
LATE 23.66 3 343 1.226e-13
Half-BW 17.05 3 182 1.674e-09
Double-BW 51.45 3 606 0.000e+00
詳細は以下の論文を参照
変数の説明
vm1
: \(t\) 期選挙における自民党候補者のvote margin
F_ldpv_smd
: \(t+1\) 期選挙における自民党候補者の得票率ldp_LCF
: \(t-1\)から\(t+1\)期まで選挙区割が変化せず、自民党候補者がいる選挙区ダミー全ケースの散布図
区間ごとの平均値の散布図 (点が多い時に便利)
現職効果は見られない
バンド幅を動かしても推定値は大きく変化しない
多項式回帰でも推定値は大きく変化しない (バンド幅は固定)
強制変数の密度が閾値周辺において連続しているか否かを確認
DCdensity()
、または{rddensity}のrddensity()
で検定可能[1] 0.3002424
Manipulation testing using local polynomial density estimation.
Number of obs = 1266
Model = unrestricted
Kernel = triangular
BW method = estimated
VCE method = jackknife
c = 0 Left of c Right of c
Number of obs 479 787
Eff. Number of obs 259 289
Order est. (p) 2 2
Order bias (q) 3 3
BW est. (h) 6.112 6.078
Method T P > |T|
Robust -0.818 0.4134
P-values of binomial tests (H0: p=0.5).
Window Length / 2 <c >=c P>|T|
0.448 20 24 0.6516
0.896 41 41 1.0000
1.343 65 59 0.6536
1.791 89 79 0.4876
2.239 108 98 0.5307
2.687 129 116 0.4434
3.134 151 135 0.3751
3.582 168 163 0.8260
4.030 188 185 0.9175
4.478 200 204 0.8814