JRDB とは??
データを重視した競馬予想は今ではかなり一般的になってきており、様々な媒体がサブスクリプション型で予想に活用できるデータを提供しています。
中でも有名なのが、JRA-VAN データラボ ではないでしょうか??
しかし、JRA-VAN データラボで提供されるデータは、専用のソフトを経由しなければ利用できません。(例えば TARGET など)
そうなると、自分で考えたアルゴリズムでデータ分析をしたいといった場合や、プログラムを利用してデータの取得を自動化したい場合などにとても不便なんですよね。
そこで上記のような目的に最も適したデータソースとなり得るのが JRDB です。
JRDB では予想に活用できるデータをテキストファイル形式で配信しています。
データの取得も Web 上に公開されたダウンロードページから行えるため、スクリプト等で自動化することが容易です。
JRDB データの課題
しかし、JRDB より取得できるデータはそのままだとちょっと使いにくいです。
筆者が主に感じたことは、
- テキストファイルの文字コードが CP932 であり、Linux 系の OS で扱いにくいこと。
- 固定長テキストファイルであり、プログラムで扱うには適切な前処理が必要なこと。
なので、今回ファイルのダウンロードをするスクリプトと併せて、ファイルを文字コード UTF-8 の CSV 形式に変換するスクリプトを作成しました。
JRDB データダウンロードツール
JRDB のデータのダウンロードを CLI 上で行えるツールを提供しています。
具体的な使用方法ですが、環境変数に JRDB のアカウント情報を設定して、スクリプトを実行する。これだけです。
JRDB のデータは Web 上に lzh 形式で圧縮されたテキストファイルとして配置されています。
このスクリプトでは、以下を実行します。
- ダウンロードリンクから圧縮されたファイルをダウンロード。
- ダウンロードしたファイルを解凍して指定のディレクトリにテキストファイルを配置。
ダウンロードされたテキストファイルは文字コードが CP932 であるため、筆者の環境では文字化けしてしまってうまく表示できていませんが、問題なくファイルがダウンロードされています。
JRDB データ の変換ツール
先に述べたように以下の理由から JRDB のデータはそのままだと少し使いにくいです。
- テキストファイルの文字コードが CP932 であり、Linux 系の OS で扱いにくいこと。
- 固定長テキストファイルであり、プログラムで扱うには適切な前処理が必要なこと。
なので、文字コード UTF-8 の CSV 形式に変換するツールも用意しました。
こちらも使い方はコマンドラインからスクリプトを実行するだけです。
JRDB-data/downloader と併せて使うことで、ダウンロードから CSV ファイルの作成までを CLI 上で完結することが可能です。
なので、これらのスクリプトを定期実行されるバッチなどに組み込むことで、JRDB データの収集 & 変換を自動化することが可能です。
(おまけ) 一括ダウンロード & 変換ツール
JRDB では開催日ごとに出走馬、レース情報、騎手情報…など分割してファイルが提供されています。
なので、これらを開催日単位で一括で取得 & 変換するスクリプトも提供しています。(現時点では一部ファイルのみ対応)
おわりに
データを重視した競馬予想は結構主流になっていますが、プロの予想家であってもまだまだ Excel 等を使ってアナログに解析している方が多い印象です。
将来的にはもっとデジタルを活用して、効率的に予想を行う予想家が増えていくのではないかと思っています。
今回紹介したツールが未来の予想家の方々の役に少しでもたてば嬉しいなと思っています。
コメント