トップ 差分 一覧 ソース 検索 ヘルプ PDF RSS ログイン

Rと競馬データで学ぶ統計学 第1回 データソースとしての競馬の魅力

キーワード

この記事はRと競馬データで学ぶ統計学シリーズの一部です。


はじめに

この「Rと競馬データで学ぶ統計学」シリーズ(シリーズにしようと思っていますが)は、競馬(中央・地方問わず; 後述)において発生、取得可能なデータをR言語で解析し、予想などに生かすためのコンテンツです。

ひとまずは、R Advent Calendar 2016の21日目、「Rで有馬記念を当てましょう」を区切りに、いくつかの記事を書いていこうと思っています。

なお、この第1回ではRの話はいっさい出てきません。ただの競馬の話です。

そもそも、競馬とは

馬が走るアレです。まじめで、合理的な判断をくだせるエンジニア・データサイエンティストのみなさんには縁遠い、タバコと酒にまみれて野次の飛び交う、うさんくさいアレです。


また、控除率などを考慮して、効率の悪い投資先と捉える方もいるかもしれません。

しかし、競馬は私の生きがいであり、人生の大切な一部です。

まぁ、ちょっと盛ってしまいましたが、20年来の趣味です。競馬の魅力を語りだすと際限がないので、競馬についての簡単なサマリを、以前作成したので、ご参照ください。



データ分析周辺にいる方にとっても、大変興味深いデータソースであり、即座に結果が評価できる、金銭的な利益も得られるという意味で、魅力的な題材ではないかと思っています。

 補足:中央競馬(JRA)と地方競馬(NAR)

語りだすと大変長くなるので、別の記事にしました。競馬に興味を持たれた方はぜひご覧ください。

競馬データとは

はじめに、一般的に競馬をする(馬券を買う)際によく見ることになる競馬新聞の「馬柱(うまばしら、ばちゅう)」の例を示します。[1]

出典:日刊競馬で振り返るメモリアルホース 2008年天皇賞秋(リンク先にPDFあり)

荒尾競馬場(廃止)の予想紙


これは、わずか2分前後の1つのレースについての情報です[2]。この中には、これまでの勝利数や持ちタイムなど定量的なデータもあれば、血統や陣営のコメント、予想家の印(◎:本命、〇:対抗、▲:単穴、△:連下など)などの定性的なデータもあります。さらに、騎乗する騎手の成績や、過去のデータから右回り左回りの得意不得意(を新聞が判定した結果)なども記載されています。素データとそこから合成された特徴量がごちゃまぜになって、馬柱に詰め込まれています。また、これらのデータからさらに「スピード指数」などの独自の指標を作り出して、予想の根拠とする人も多数います。[3]

加えて、レース直前に馬が周回するパドックでは、1時間前に計測した馬体重や、“気配”あるいは“気合乗り”といったデータも生成されます。これらのデータは、競馬新聞が印刷される時点では入手できませんし、場合によっては“気配”などはテレビ越しでは伝わらず、現地で馬を見ないとわからないこともあるかもしれません。[4]


これらのデータを組み合わせて取捨選択し、競馬ファンは馬券の買い目を決めています。[5]そして、中央競馬では最大3つの競馬場で1日に12レースずつが行われますので、時間に追われながらスピーディーに意思決定することも求められます。[6]

どうです、競馬ファンってデータサイエンティストじゃないですか?(唐突)言ってみれば、競馬ファンは、土日(あるいは平日も)のかなりの時間を、データの収集、加工、(脳内)予測モデルの適用、結果の確認、モデルの修正というデータサイエンスのプロセスに費やしているわけです。そして、予測の結果はフトコロ具合というかたちでダイレクトに返ってきます。こういう表現をすると、競馬場で怒号をあげているオッサンたちも、なんだか知的に見えてきませんか。見えませんね。

さて、ダラダラと本題の前で立ち止まってしまいましたが、ここで馬柱に載っている、一般的な競馬データとその特徴を整理しましょう。なお、以下の説明は、基本的に筆者が収集しているデータにおけるものです。他の人はまた少し異なる形式でデータを収集、整理しているかもしれません。

データ名特徴
開催日レースが行われる日付
競馬場中央競馬の場合、全10場(札幌、函館、福島、新潟、中山、東京、中京、京都、阪神、小倉)のいずれか
レース番号一般的に第1レースから第12レースまで開催されるので、そのいずれか
レース名レースによりさまざま。グレードレース(GI、GII、GIII)では「第〇回日本ダービー」など、回次が含まれることもある
コース芝、ダート、障害(ジャンプ)のいずれか
周回競馬場により、内周りと外周りがある。また、障害競走の場合さらにバリエーションがある
距離レースによりさまざま。中央競馬(平地)では1000mから3600mまで
馬場状態走路が乾燥している順に良馬場(りょうばば)、稍重馬場(ややおもばば)、重馬場、不良馬場の4種類
賞金レースによりさまざま。1着から5着の馬に支払われる。[7]ジャパンカップ、有馬記念の両GIは、1着賞金3億円
頭数とうすう。中央競馬では、5頭以上の出走申し込みがないとレースが不成立になる。また、フルゲート(上限)は最大18頭だが、コース形態などにより変化する[8]
着順1着から出走頭数ぶん
枠番競馬では複数頭の馬をまとめた「枠」という単位がある。出走頭数が少ない場合は、ほぼ枠=馬番だが、頭数が9頭を超えると、外から順に馬番9番と8番をまとめた8枠、7番と6番をまとめた7枠、というかたちで枠でくくられる。出走頭数が17頭の場合は8枠が3頭、18頭の場合は7枠と8枠が3頭ずつになる[9]この枠によって、騎手が着用する帽子の色が決まっている。[10]
馬番うまばん。馬1頭1頭に割り当てられた番号で、この順番に内側からゲートに入る[11]
馬名ばめい。日本では、中央・地方問わず「カタカナ2文字以上、9文字以内かつ、アルファベット表記で18文字以内」と定められている[12]
性別競馬では、牡(牡馬; ぼば)と牝(牝馬; ひんば)に加え、去勢した牡馬である騸馬(せんば)が存在する[13]
年齢2歳からデビュー可能で、上限はない[14]
騎手競馬学校を卒業して騎手免許を取得したJRA騎手(プロパー)に加え、地方競馬や外国から試験を受けて移籍した騎手、3か月程度の短期免許で来日する外国人騎手が騎乗する[15]
タイム距離、馬場状態、レース展開によりさまざま。日本では、10分の1秒単位で計測される。また、多くの競馬データでは「分.秒.10分の1秒」と表記される(1.57.2で1分57秒2)ので、分析の際には変換が必要
着差馬どうしの差を、差が小さい順に「同着、ハナ、アタマ、クビ、1/2馬身、3/4馬身、1馬身、1 1/2馬身...」と表記する。11馬身以上の差はまとめて「大差」とされる。1馬身でおよそ0.2秒、6馬身で1秒の差があるとされる。また、ハナ、アタマの差は、タイムの計測制度(10分の1秒)よりも小さいため、同タイムでも先着、後着がある。データとしては、2頭の間の差しか示しておらず、順序尺度でもないので、扱い辛い[16]
通過順レースの中間地点(基本的には各コーナー)における位置取り。例えば後方から徐々に進出した馬なら「13-13-6-2」といったようになる。これも、(現在のデータ取得法では)極めて扱い辛い[17]
上り3Fあがり3はろん。レースのラスト600mの走破タイム。FはFurlong(ハロン)で、200m。基本的には追い込み馬のほうが速く、逃げ馬は遅い傾向にある
斤量きんりょう。レースにおいて馬が背負う、騎手の体重や馬具(鞍、ヘルメット、ムチなど)込みの重量。負担重量とも。概ね、50kgから60kgの範囲でレースや馬のレベルに応じて決定される。[18]体重と馬具で不足している場合は、重りを身に着けて出走する。逆に、指定の重量より軽い場合は失格になる場合がある。[19]当然、重い斤量を背負うと、成績が落ちる傾向にあるが、そもそも斤量が重い馬は、そのレースにおいて能力が高いと見込まれる馬なので、力の違いで勝ってしまうこともある
馬体重ばたいじゅう。馬の体重。中央競馬では2kg単位で計測される(地方競馬では1kg単位)。個体差が大きいため、他の馬と比べて何かを論じることは難しいが、同じ馬の馬体重の推移を見ることで、体調を把握できる[20]
増減馬体重の前走からの増減。前走が重すぎて、今回絞ってのマイナスというケースも、前走で減りすぎていて、今回体重が戻ってのプラスもあるので、前走の評価やパドックでの気配を通じて、ポジティブな事象かどうかを評価することになる
人気出走馬の人気順。順序尺度なので、1番人気と2番人気の間の差と、2番人気と3番人気の間の差は等間隔ではない
オッズ100円賭けた馬券が当たった際の払戻金の倍率。オッズが算出される時点で、JRAの取り分(控除率)は引かれている[21][22]
ブリンカー馬の集中力を高めるために装着する、馬具の一種。競馬では他にもさまざまな馬具が使用されるが、ブリンカーのみ、装着した馬についてその旨を明らかにする義務がある。競馬新聞などでは「B」(Blinkersから)と表記されることが多い
調教師競走馬を管理する「厩舎」の代表者。当然、いい馬を多く扱い、成績のよい調教師もいれば、そうでない調教師もいる。また、(偶然の範囲内かもしれないが)短距離に強い厩舎、長距離に強い厩舎などがあり、予想時のファクターとなる[23]
調教コメント競馬新聞の記者が、各馬の調教(トレーニング)の様子を観察し付けるコメント。新聞ごとに、記者ごとにコメントはある程度パターン化しているが、集計、分析は難しい(あと、そもそもアテにならない)
調教評価(筆者が収集しているデータでは)調教の手応えをAからDおよびnan(評価なし)の5段階で評価したもの

競馬データを取得する方法

さて、上記のように、競馬に関する定量、定性データがさまざまにあります。それらを使って、自分でも競馬予測がしたい、と思ったらどのようにしてデータを入手すればよいでしょうか。ここからは、競馬データの収集方法をいくつか紹介します。

なお、筆者は有料サービスを利用していないので、以下に紹介するサービスの中には、概要は理解していても実情を知らないものもありますのでご了承ください。「金払ったのにデータがショボい、使い辛い」とか言われても知りません。

また、日本では中央競馬(JRA)と地方競馬(NAR)で開催主体、データの提供元が異なるため、収集方法も異なります。以下では、中央競馬と地方競馬それぞれについてデータ収集の方法を紹介します。

中央競馬(JRA)のデータを収集するには

中央競馬は、開催規模が大きいこともあり、JRA公式サイトをはじめ、各種スポーツメディアなどでデータが公開されています。ただし、Web上に(人間向けに)公開されているデータは、伝統的に、上掲の馬柱のデザインを踏襲した構造になっています。[24]一方で、「データ派馬券師」のために、90年代からJRAオフィシャルあるいはその二次販売という形で、競馬データベースが構築、提供されています。

そのため、中央競馬のデータを収集するには、以下の2つの方法のいずれかを採用することになります。

  • データベースサービスを契約し、データをダウンロードする
  • 人間向けのWebページをスクレイピングし、必要なデータを取り出す

 中央競馬のデータベースサービスを利用する

中央競馬のデータベースサービスとして広く使われているものに、以下の3つがあります。

JRA-VAN

JRA-VANはJRA(子会社のJRAシステムサービス)が提供する中央競馬のデータベースサービスです。1992年以来、「公式」データをネットワーク[25]経由で提供しています。JRA-VANでは複数のサービスが提供されていますが、特にJRA-VAN NEXT、TARGET frontier JV、DataLab.の3つのサービスがデータ収集に関連しています。

JRAが公式に提供しているので、最も正確で、最もリアルタイム性の高いデータと言えます。[26]

  • JRA-VAN NEXT:JRA-VANが提供する競馬情報ツールです。1986年以降のJRAレース・競走馬データをもとにした、独自の人工知能による「データマイニング予測」の結果を参照できます。
  • TARGET frontier JV:JRA-VANが提供する競馬情報データ分析ソフトです。なお、利用には下記DataLab.サービスを契約する必要があります。TARGETは、競馬に特化した集計分析機能が充実しており、独自の観点でデータを切り取り、出走馬の評価ができます。どことなく20世紀の面影(笑)を残すインタフェースですが、プロ、アマチュア問わず「過去〇年の傾向から□□の条件に当てはまる馬の勝率は△%…」という論説の根拠は、ほとんどがTARGETで分析した結果です。
  • DataLab.:上記2つのサービスが内部で利用している、競馬データに直接アクセスできるデータベースサービスです。データをダウンロードしてRやPythonなどで分析したり、その他JRA-VAN上などで公開されているサードパーティ製のソフトウェアに読み込ませるために必要なサービスです。データへのアクセスには、JV-LINKという独自ライブラリを組み込む必要があります。現在でも、C#、C++、Delphi7、VB6、VB.Netにしか対応しておらず、Windows / Macで利用できます。なお、データ(JVData)の形式は(まさかの)固定長電文形式です。データを使いこなすには50ページに及ぶ仕様書(PDF)を読み解く必要があります。リアルタイムオッズおよび時系列でのオッズ変動が取得できるのはJVDataのみです。
    • なお、直接JVDataを取得、パースしなくてもよいように、JV-Downloader EXなどのダウンローダーを公開してくれている方もいます。

JRDB

JRA-VANに次いで広く使われていると思われるサービスとして、JRDBがあります。もともとは、電子競馬新聞(Archive.orgの1999年のスナップショット)を提供するサービスとしてNIFTY-Serve時代から存在しています。

JRDBでは、1999年1月から現在までの全レースのデータを配信しています。データ形式はこちらも固定長です。

JRA-VANとの違いは、以下のような点です。

  1. データ形式がlzh圧縮のテキストファイルなので、ダウンロード、取り込みがしやすい
  2. プロ(専門家?まぁ、それを自称する人)による馬体診断、パドックの気配などの定性データが含まれる

サイトのどこにどんな情報があるのかわかり辛い[27]ですが、会員専用ページ内にデータのダウンロードページなどがあるのでしょう。

噂(笑)では、あのディープラーニングを活用した競馬人工知能も、JRDBのデータを使っているとか。[28]

競馬道OnLine

週刊競馬ブック、競馬ブック(新聞)、競馬四季報などを販売する株式会社ケイバブックが提供するデータベースサービスです。提供データには、血統データや関係者コメントなども含まれます。

詳細はデータ仕様書をご覧ください。ページ上部のドロップダウンリストから各データのフォーマットが参照できます。

 Webサイトからスクレイピングする


注意:Webスクレイピングでは、プログラムの設定により短時間に大量のアクセスを発生させてアクセス先に多大な迷惑をかける可能性があります。プログラムの作成、実行の際には、アクセスごとに一定の待ち時間を挟むなど、サーバに負荷をかけないような配慮をしましょう。

競馬データを収集するもうひとつの方法として、さまざまな競馬・スポーツメディアで公開されている人間向けのデータをスクレイピングして、手元で自分のデータ分析環境に都合のよい形式に加工するというものがあります。スクレイピングのためのプログラムを作成する手間だけで、おおむね有料サービスと同等のデータを収集できます。

ここでは、プログラムの詳細を解説することはせず、スクレイピング先として適切[29]と思われるサイトを紹介します。

Yahoo! スポーツナビ - 競馬

Yahoo! スポーツナビ - 競馬は、Yahoo! ジャパンのスポーツメディア「スポーツナビ」内のコンテンツです。出馬表や成績などのレース情報や、競走馬・騎手・調教師データベースなどが提供されています。データは、JRA-VANと同じく1986年から現在までの全競走について提供されています。ただし、スポーツナビ上の成績データは、毎週月曜日の昼頃に更新されるため、開催日(主に土・日)はレース結果などは部分的にしか掲載されません。また、当日のオッズも掲載されません(確定オッズは翌週月曜の更新で掲載されます)。馬体重と増減は、定刻(レース1時間前)前後に掲載されます。

このような特性から、過去データの蓄積用途で利用するとよいかもしれません。筆者は、スポーツナビ(とnetkeiba.com)からデータ収集するスクリプトを作成し、使用しています。


netkeiba.com

netkeiba.comは、競馬総合メディアとして、競馬ファンに広く愛用されています。レース情報やデータベースだけでなく、馬1頭ずつの掲示板、現役騎手や著名人のコラムなど、幅広いコンテンツを提供しています。

netkeiba.comのレース情報は、1986年以降の全レースと、一部の大レースについてはそれ以前のデータも参照できます。また、馬体重やオッズは開催当日に随時更新されます。なお、オッズはJRA公式のものに比べると、1〜2分程度タイムラグがあるようです。また、デイリースポーツ社(競馬新聞「馬三郎」)と提携した調教評価、コメントが掲載されているという特徴があります。


netkeiba.comのWebサイトは、出馬表やレースに関する情報がよく整理されたHTMLで記述されており、プログラムでパースしやすい内容になっています。ただし、レース当日の出馬表(http://race.netkeiba.com/?pid=race_old&id=cレース番号)と、過去の出馬表(http://db.netkeiba.com/race/レース番号/)は異なるURLで管理されているため、プログラム作成の際には注意が必要です。

なお、競馬の解析をガチでやったら回収率が100%を超えた件で一躍有名になったstockedgeさんが、netkeiba.comからデータを収集し、SQLite3データベースに格納するところまでやってくれる、netkeiba-scraperを公開しています。

また、あまり活用例は多くない[30]ようですが、上述のようにnetkeiba.comでは、競走馬1頭1頭について掲示板が設けられているので、書き込みをスクレイピングして、テキストマイニング的なアプローチで分析することも可能でしょう。この領域では、一部ボカしてありますが、どう考えてもnetkeiba.comの掲示板の話としか思えないデータが無いけどデータサイエンスごっこしたくて、Ruby+Capybaraでスクレイピングしてみた話という事例があります。

JBIS-Search

JBIS-Searchは、日本軽種馬協会が運営している競走馬(軽種馬)の血統管理を目的としたシステムです。2009年より、一般向けにもデータベースが公開されました。生産者(牧場)が使っているシステムだけあって、血統や牝系に関する情報が豊富に提供されています。

血統派[31]の人は、出走馬の父や母、さらにその祖先の特性を予想の際に考慮することがあります。

競走馬の血統表は、これも人間向けのレイアウトになっており、パースは困難ですが、データ量としてはJBIS-Searchが最も豊富でしょう。


また、血統表以外にも種牡馬や騎手成績のランキングが公開されており、それを分析した事例もあります(JBISの種牡馬データをクラスタリングしてみた。)。

地方競馬(NAR)のデータを収集するには

地方競馬についても、主催者(NAR)公式サイト[32]やnetkeiba.comなどで競走データが提供されています。また、地方競馬の馬券は民間事業者がネット発売しており、その事業者のサイトでもデータが提供されています。

なお、地方競馬については、公式なデータベースサービスは存在せず、唯一地方競馬DATAなるサービスが配信しているようです。

地方競馬についても、以下でスクレイピング先になり得るサイトを紹介します。

 netkeiba.com

中央競馬と同様、netkeiba.comは地方競馬の全レースをカバーしています。過去のデータも、大レースについては1990年代初頭から記録されているようです。

なお、地方競馬については、開催当日のURLは http://nar.netkeiba.com/?pid=race&id=cレース番号 と、中央競馬とはドメインが異なるので注意してください。過去レースについては、中央競馬と同じURLパターンになります。

 楽天競馬

地方競馬の馬券を発売する事業者の1つに楽天競馬があります。筆者も愛用しています!(強調)楽天競馬のレースデータは、HTMLがセマンティックに記述されており、パースしやすいです。

筆者は、楽天競馬(とnetkeiba.com)からデータ収集するスクリプトを作成して、使用しています。[33]


 オッズパーク

地方競馬の馬券を発売する事業者の1つにソフトバンクが運営するオッズパークがあります。オッズパークは、競馬だけでなく、競輪、オートレースも発売しています。

なお、オッズパークはいろいろな事情から、南関東地区(大井、川崎、船橋、浦和)のレースは取り扱っていません。そのため、スクレイピングの対象としてはデータが不完全ですが、それで事足りる場合は使ってみてもよいでしょう。


おわりに

さて、ものすごく長くRといっさい関係のないことを書いてきましたが、データを集めることが「Rと競馬データで学ぶ統計学」の第一歩です。次回以降、実際に上述のような手段で収集したデータを使って、統計学(データサイエンス)的なアプローチで、競馬データを分析していきます。

……と言いつつ、次回以降の目次案はまだ何も考えていないのですが。ただ、筆者自身が書いていてすごく楽しい[34]ので、気ままに書き連ねていこうと思います。

 参考:中央競馬の過去データダウンロード

競馬データというものに興味がわいたけども、とはいえこれから何年ぶんものデータをスクレイピングするのはしんどい、という方もいると思います。そこで、筆者が収集した2013年1月から2016年11月までの中央競馬の過去データを公開しています。次回以降、統計学の学習を進める際に使用しますので、必要な方はダウンロードしてください。


 参考:地方競馬の過去データダウンロード

競馬データというものに興味がわいたけども、とはいえこれから何年ぶんものデータをスクレイピングするのはしんどい、という方もいると思います。そこで、筆者が収集した2013年1月から2016年11月までの地方競馬の過去データを公開しています。次回以降、統計学の学習を進める際に使用しますので、必要な方はダウンロードしてください。



(競馬オタクがどうでもよいことを書き連ねた)注釈

  • [1]まぁ、見えませんが。
  • [2]一説には、日本の競馬新聞は世界で最も情報が圧縮されて詰め込まれた印刷物であるとも言われます。
  • [3]ある意味で、そのような自分だけの予想ロジックを作り上げることが、競馬ファンとしてキャリアを重ねることなのかもしれません。
  • [4]ここらへんは競馬ファンの間でも意見が分かれるところです。
  • [5]買い目も、必ずしも1着を当てるものではなく、「勝つとは思わないけど2着には入るだろう」といった判断のもと、ある馬を2着にして1着を幅広く買う、といった戦略もあります。馬も生き物なので、脚は速いけど、あまり勝つ意欲のない馬などもいたりするわけです(ホントか)。
  • [6]もちろん、「このレースはわからないから買わない」という意思決定もあります。
  • [7]というのがゲーム的な設定ですが、実際には8着(重賞では10着)までに賞金(出走奨励金など)が支払われます。
  • [8]コースがあまり広くない、スタート地点がコーナーに近く、外枠の馬が危険であるなどの理由です。
  • [9]大昔(1991年以前)は、枠番でしか連勝式馬券を買えませんでした(枠連)が、現在では馬番で買えます(馬連)。しかし、伝統的なものとして(そして帽子での視認性という観点でも)枠という概念も残っています。
  • [10]1枠:白、2枠:黒、3枠:赤、4枠:青、5枠:黄、6枠:緑、7枠:オレンジ、8枠:ピンク。なお、同枠に同じ馬主の所有馬(=勝負服が同じ)が入った場合、外側の馬番の騎手は枠色と白の「染め分け帽」を着用します。
  • [11]単純には、最短距離を走ることができる内枠が有利ですが、他の馬も同じように内側に寄せてくるため、進路が狭くなったり、多くの馬がコースの内側を走るため芝が剥げ、走り辛かったりと、それはそれで不利があったりします。レースでは、馬番とそれを踏まえた騎手の作戦を予測することが、馬券的中の重要なファクターになります。
  • [12]大昔は、ルールが厳密ではなかったので、旧仮名遣いや漢字の馬名、1文字の「ヤ」号などが実在しました。また、競走馬を引退して繁殖入りする際や、地方から中央に移籍(転入)する際にも改名が認められていました。さらに、1982年までは2歳(旧3歳)時に1回限り、改名が認められていました。あまり期待せずにテキトーな名前を付けたら、実はすごく強かった、となったら、カッコいい名前に変えたくなるのが馬主の心情でしょう。
  • [13]気性が荒く、活躍できないなどの理由で、去勢される場合があります。去勢することで、気性が落ち着く、体質が丈夫になるなどの効果があるとされています。
  • [14]競走馬の年齢は一般に、2歳:小中学生、3歳:高校・大学生、4歳以降:社会人という表現をされることがあります。個体差が大きいですが、基本的に6歳頃からは競走能力が衰えてくるとされます。しかし、近年ではケアの技術などが向上したことで、8歳、9歳の馬が大レースを勝つケースも増えてきています。なお、現在のところ、ホッカイドウ競馬で16歳のクラベストダンサーが出走したのが、最高齢出走の記録です。人間に直すと、50代から60代でしょうか。なお、2000年以前は馬の年齢を数え年で表記していましたが、2001年に国際的に広く使われる満年齢表記に改めました。そのため、2000年にJRA賞最優秀(旧)3歳牝馬賞を受賞したテイエムオーシャン号は翌年も活躍し、2001年にも最優秀(新)3歳牝馬賞を受賞するという、二度とない記録を手にすることになりました。
  • [15]なお、筆者が収集しているデータでは、若手騎手に付与される減量特典をあらわす印(☆、△、▲)を付与していません。
  • [16]接戦となり着差が明確でない場合、写真判定が行われます。写真判定の精度は、1cm程度とされています。
  • [17]一定以上の距離のレースでは、4地点の通過順が記録されますが、短距離では2地点のみだったり、そもそも新潟直線1000mでは通過順は記録されません。フォーマットがコース、距離ごとにバラバラなので扱い辛いデータです。なお、実際に馬券を買う際には、逃げてバテて下がっていった様子や、後方から直線一気で追い込んだ様子などがわかるため、各馬のレースぶりを簡潔に要約したデータとして有用です。
  • [18]馬によって斤量の異なるハンデ戦があります。また、障害レースでは、軽すぎるとスピードが出て危険なため、意図的に60kg以上の重い斤量が指定されます。しかし、重い斤量は競走馬にとって負担となり、場合によっては生命にかかわるケガの原因となることもあります。
  • [19]昔、レース直後にトイレに駆け込んで事なきを得た某騎手が、その後の検量で数百g足りず、ペナルティを受けたそうな(笑)。
  • [20]ゲームほど明確ではないですが、やはり馬にもベスト体重があります。それより軽くても重くても、本来の能力を発揮できないことが多いでしょう。ただし、馬も成長するので、プラス体重が絞り切れなかった結果なのか、成長分なのかなど、判断する必要があります。
  • [21]このようなオッズの算出方式をパリミュチュエル方式と言います。
  • [22]ごく稀にしか起きないことですが、誰も買っていない=オッズが存在しない馬が勝った場合、「特払い」として、全馬券購入者に70%から80%の割合で購入金額が返還されます。
  • [23]なお、現在では調教師および厩舎は必ず、関東(美浦)または関西(栗東)の拠点に所属しなければなりません。ここ20年ほどは、圧倒的に栗東の調教師の成績がよい(=西高東低)傾向が続いています。
  • [24]それで100年近くやっているので、革新的なデザインが入る余地はありません。ちなみに、日本で初めての競馬新聞は、1924年発刊の「中島高級競馬號」とされ、現在でも高知競馬場で販売されています。
  • [25]昔は、FAXとかキャプテンシステム(笑)でも提供していたそうです。
  • [26]まぁ、他のサービスも基本的にJRA-VANからの二次販売だと思われるので、データの間違いはまずないですが。
  • [27]大丈夫、それなりに長い競馬ファンでも、何がどこにあるのかさっぱりわかりません。
  • [28]オフィシャルに書いているので、伏せる必要も何もないですが。
  • [29]スクレイピングする側の勝手な決めつけです。各サイト管理者の方からすると迷惑かもしれませんが、どうぞ適切な間隔をあけたアクセスについてはご容赦いただければと存じます。
  • [30]ぶっちゃけそれなりに強い馬については、ほぼ炎上しているので、予想に役立つ情報は得られないと思っています。
  • [31]ダービースタリオンやウイニングポストなどの競馬ゲームからリアル競馬に興味を持った人はその割合が多いように思います。筆者もそうですが。「ナスルーラのクロスは気性難」とか言ってたり(笑)。
  • [32]NARの他、南関東地区については、http://www.nankankeiba.com/ で独自にデータを提供しています。
  • [33]これは、筆者が素人なりに試行錯誤して、結果的に2つのサイトからデータを収集してマージしているだけで、ちゃんと設計すれば1つのサイトへのアクセスだけで済みそうですが。
  • [34]嫌でも伝わるでしょう?