宋ゼミの到達目標

更新日

2024年11月22日

 宋ゼミでは(1)リサーチデザイン、(2)当該分野に関する知識、(3)分析ツール、(4)データ収集、(5)統計学と分析手法に関する知識を身に付けることを目的とします。これら5つのスキルについて背景知識があるに越したことはありませんが、必須ではありません。そもそもこれらのスキルを既に身につけているのであれば、わざわざ宋ゼミに来る必要はないでしょう。以下の内容は前提知識ではなく、これから2年間身につけていくスキル、つまり到達目標です。

1. リサーチデザイン

 何か明らかにしたい問い(リサーチ・クエスチョン)が見つかったら、その問いに答えるためのプロセスを考える必要があり、これがリサーチデザインです。リサーチデザインがしっかりしていれば、研究として最低限の質は保障されます。一方、斬新なテーマ、または問いであってもリサーチデザインがしっかりしていなければ、研究として成り立ちません。自然科学もそうですが、社会科学も今日はリサーチデザインの雛形といったものが決まっております。論文の章立てとしては問題意識、理論・仮説、データ、分析手法およびモデル、分析結果、結論といった順となっており、実際に研究を進めていく際もこの順番に従うことになります。

 社会科学では問いに対する暫定的な答えを用意し、この暫定的な答えの真偽を判定することになります。この暫定的な答えが仮説と呼ばれるものであり、これは印象論や想像でなく、これまでの先行研究や自明な公理の積み重ねで導出されるものです。そのためには問い関する先行研究を読む必要があります。

 リサーチデザインは授業として教わることもできますが、個人の経験が重要です。様々な論文、本を読みながらリサーチデザインを習得して頂きます。優れたリサーチデザインの研究は参考の対象となりますし、そうでない研究でも反面教師として利用することができます。むしろ、リサーチデザインが優れていない研究が見つかればラッキーです。なぜなら、そのリサーチデザインを自分で改良することで一つの立派な研究になるからです。

 本ゼミではリサーチデザインに関する教科書の輪読に加え、いくつかの論文/書籍を読みながらリサーチデザインの感覚を身につけます。これはグループワークおよび卒業論文においても最も重要な内容です。

2. 当該分野に関する知識(ドメイン知識)

 社会現象を分析するためには、その現象に関する知識が必要です。たとえば、「若者の投票率はなぜ低いか」という問いに取り組むのであれば、政治学や政治心理学などの知識が必要です。関西大学総合情報学部には様々な分野に関する科目が開設されております。政治学だと、「政治学」、「政治過程論」、「公共政策論」、「パブリック・アドミニストレーション論」、「ミクロ政治分析」、「マクロ政治分析」などがあります。自分が関心のある分野の授業にも積極的に挑戦してみてください。むろん、これらの分野に関する教科書で独学するのも良いでしょう。総合情報学部は幅広し分野をカバーしますが、全てをカバーしているわけではありません。また政治学の話ですが、総合情報学部では政治理論、政治哲学、国際政治に関する講義は設けられておりません。しかし、これらの分野にも優れた教科書は多数公刊されていますし、一人でも十分学習できます。

3. 分析ツール

 本ゼミでは共同作業における共通言語としてRを使います。これはRがベストな統計ソフト/言語だからではありません。むしろ、Rはプログラミング言語としてはあまり良くないという意見が多いですし、宋もそう思っています。しかし、共同作業において共通言語は必要です。皆が使う統計ソフトがバラバラだったら、共同作業は非常に難しいでしょう。

 ならば、なぜRでしょうか。1つ目の理由は無料で誰でも使えるからです。世の中には大変便利な商用ソフトで溢れています。しかし、共同作業のメンバー全員がそのソフトを持っているとも限りませんし、これらのソフトウェアは安くても数万円、高ければ百万円以上となります。「自分は買える」は「他人も買える」ではありません。2つ目の理由は世の中に存在するほぼ全ての分析ができるからです。世の中には様々な統計手法がありますが、ほとんどの分析がRでできます。最近は新しい手法を発表したら、それを実装したRパッケージも一緒に公開するケースが多いです。3つ目の理由は学習資料が最も豊富だからです。本だけでなく、ウェブ記事やチュートリアルも非常に充実しており、独学にも向いています。Rの使い方に関しては3回生以上科目の「ミクロ政治データ分析実習」などがあります。

 データサイエンス業界ではRとPythonが2大言語であり、最近はJuliaも注目されています。どれも無償で使えるため、こちらを使っても構いません。ただし、共同作業の場合、メンバー全員がその言語を使う必要があります。また、卒業論文のような個人研究の場合、SPSSStataSASなどの有償ソフトウェアの使用を認めます。

 分析ツールの学習は原則、独学となります。ゼミ生の要望がある場合、希望者を対象にサブゼミとして講習会を開くことはできます。また、Rを使用する授業として「ミクロ政治データ分析実習」と「マクロ政治データ分析実習」があります。ゼミ内では主にリサーチデザイン、文献講読、グループワークを中心に行う予定です。

4. データ収集

 データ分析を掲げている以上、データは不可欠です。データを集める前に、私たちは分析の単位を決める必要があります。たとえば、「都市部の有権者は投票率が低い」という仮説があるとします。この場合、分析の単位は個人です。つまり、データの各行は一人一人の個人を表す必要があります。そして、世論調査を行い、回答者が暮らしている地域の規模、そして直近の選挙に投票したか否かを尋ね、データを集める必要があります。この場合、社会調査法の知識が必要となります。しかし、世論調査を行うには非常に大きなコストが必要であり、個人で行うことは困難です(できないという意味ではありません。数万円でできたりもします。)。場合によっては既に他の研究者、機関が行った世論調査データを使うこともあります。このように既に公表されているデータを用いた分析を「2次分析」と言います。ただし、注意すべき点は「集計データ」でなく、「個票データ」を使う必要があるということです。日本の場合、個人データの公開は非常に消極的であるため、注意が必要です。

 世論調査ができず、公開されているデータもない場合は分析の単位を変えることが考えられます。仮説を「都市部はその他の地域より投票率が低い」に変えると、分析の単位は市区町村、または選挙区になります。このようなデータはネット上で手軽に入手することができます。各市区町村の選管ホームページなどを周りながらデータを集めたり、情報公開請求をするなどが必要ですが、金銭的なコストはほぼ発生しません。ただし、このように個々人のデータを集計したデータ、つまり集計したデータを使用すると生態学的誤謬が生じる可能性がある点には注意が必要です。

5. 統計学と分析手法

 言うまでもありませんが、データ分析を行うためには統計学および分析手法に関する知識が必要です。近年のデータサイエンスのブームの影響もあってデータ分析に関する書籍が数百冊以上出版されており、優れたインターネット記事も多く公開されています。また、総合情報学部にはこれに関連する授業が充実しており、学習環境としては最適です。データ分析のためのソフトウェアを使えば、分析は数秒で終わります。たとえば、Rで回帰分析を行うコードは1行で済みます。チュートリアル本や記事が溢れているため、これらのスキルを身につけることは難しくありません。実際、社会科学におけるデータ分析のプロセスにおいて、分析そのものは全体の1〜2割程度に過ぎず、残りの8〜9割はリサーチデザイン、先行研究のレビュー、データ収集、データの前処理、データ/結果の可視化といった作業です。ただし、これが「データ分析は全体のプロセスにおいてあまり重要ではない」ことを意味しません。ほとんどはパソコンが瞬時にやってくれるという意味です。あくまでも費やす時間として短いだけです。

 重要なのは「なぜこの分析を使うのか」、「この分析手法は自分の問いに答えるために適切な手法か」、「分析結果をどう解釈するか」、「分析結果は自分の問いに答えているのだろうか」など、パソコンがやってくれる作業以外のことですし、そのためには確率、線形代数、統計的仮説検定、可視化などの知識が必要です。これらの知識は授業、教科書、参考書、ネット記事などから身につける必要があり、非常に長い道のりです。たとえば、「若者と高齢者の間に投票率の差があるか」といった単純な問いに答えるための母平均の差の検定(t検定)を行うこと自体は1行で済みますが、その結果を正しく解釈するためにはt検定の仕組み、その仕組を理解するためには統計的仮説検定、統計的仮説検定を理解するためには中心極限定理と大数の(弱)法則、また、これらをりかいするためには確率の知識が必要です。これらの知識については近年、分析ツールの使い方を学びながら同時並行的に学習できるような資料もたくさん出ております。教科書の相性は人それぞれですので、ぜひ図書館や本屋などでいくつかの教科書に接してみてください。むろん、宋も積極的にサポートします。