トップ 差分 一覧 ソース 検索 ヘルプ RSS ログイン

Rと競馬データで学ぶ統計学 目次

キーワード

はじめに

この一連の記事は、オープンソースの統計解析ソフト「R」を使い、競馬に関するさまざまなデータを分析することを通じて、一般的な統計学、データマイニングの手法について学習することを目的とするものです。

当座の目標として、筆者がR Advent Calendar 2016の21日目に「Rで有馬記念を当てましょう」というタイトルでエントリーしているので、そこまでに、(主に競馬に関する)前提知識の啓蒙と領域の盛り上げを目指して記事を執筆していきます。

なお、筆者は競馬に関するデータ分析的アプローチをウマナリティクス(Uma + Analytics)と命名して、(別に何の得もないですが)普及に努めています。もともと競馬ファンで、データ分析に興味を持った方、逆にデータサイエンス分野の方で競馬という未知のデータソースに興味をお持ちの方、ぜひ本コンテンツや今後開催予定のイベントなどで、競馬の魅力、ウマナリティクスの楽しさを感じていただければ幸いです。

目次

第1回 データソースとしての競馬の魅力
競馬におけるデータとは、データの収集方法などを概説する
第2回 Rの基礎と競馬データの読み込み
Rの基本的な操作、ファイルからのデータ読み込み、競馬データに対する前処理などを概説する
第3回 基本統計関数を適用する
平均や中央値、標準偏差など競馬データに基本的な統計関数を適用し、統計学に関する理解を深める
第4回 パッケージを活用する
dplyrパッケージをはじめ、競馬データを処理するうえで便利なパッケージを紹介する
第5回 Rで競馬データを可視化する(未公開)
ggplot2を中心に競馬データを可視化する方法について紹介する
第6回 Rで競馬のジンクスを検証する(未公開)
相関、統計的検定などで競馬にまつわるジンクスを検証する
第7回 Rで競馬を予測する(1)(未公開)
Rで線形回帰、ロジスティック回帰、決定木、ランダムフォレストなどを使って競馬の成績を予測するモデルを作成する
第8回 Rで競馬を予測する(2)(未公開)
Rでディープラーニングなど、より高度な手法を使って競馬の成績を予測するモデルを作成する(未定)
番外編 R Advent Calendar 2016「Rで有馬記念を当てましょう」
R Advent Calendar 2016の参加記事
補足 中央競馬(JRA)と地方競馬(NAR)
日本における競馬の主催団体と構造についての補足