🚀 前書き:なぜ自分でマスターデータを整備するのか?
「艇国DBのようなサイトでいいじゃないか?」という意見もあるかと思います。確かに直近データを参照するには非常に便利です。
しかし、今回行ったのは「そのレース開催時点での直近データを取得するための整備」です。
例えば、過去のレースを振り返りたいとき、その時点での選手の成績を正確に把握する必要があります。番組表だけでは得られない詳細データを、自分でカスタマイズできるようにマスターデータを整理しました。
データを整備することで、直感や経験に頼るのではなく、「根拠に基づいた舟券戦略」を立てることができます。データの質が上がれば、予想の精度も向上します。
📊 対象データ
整備したデータは以下の3種類です。それぞれ概要と特徴をまとめます。
- 取得元:公式サイト
- 期間:2020年以降
- 目的:過去のレース時点での正確なデータ参照と、柔軟なカスタマイズ分析。
🗂️ 1. レーサー基本情報
概要:
各レーサーの基本情報を整理しました。
身長や体重はレース時点で若干の変更があるため、今回は考慮していません。
また、支部の変更がある選手が4〜5名いましたが、誤差の範囲として最新の支部情報を採用しました。
正確性を重視するなら、複数時点のデータを保持し、状況に応じて分析するのがベストです。
データメタ情報:
- レコード数:1,711
主なカラムとサンプルデータ:
カラム名 | サンプルデータ |
---|---|
登番 | 2014 |
氏名 | 高 塚 清 一 |
支部 | 静岡 |
年号 | S |
生年月日 | 1947-03-07 |
性別 | 1(1:男, 2:女) |
🏁 2. レーサー別のレース戦績
概要:
選手ごとにレース結果データを整理しました。
レース日と登録番号をキーにすることで、直近3ヶ月、6ヶ月、1年のデータを柔軟に抽出できます。
選手の調子や傾向を把握するのに役立ちます。
データメタ情報:
- レコード数:995,580
主なカラムとサンプルデータ:
カラム名 | サンプルデータ |
---|---|
レース識別子 | 202103262301 |
レース日 | 2021/3/26 |
レース場 | 唐津 |
着順 | 01 |
登録番号 | 4324 |
モーター | 48 |
進入 | 1 |
ST | 0.14 |
🏆 3. レース別の結果
概要:
レースごとの詳細情報を整理しました。
出場選手や着順、払い戻し金、ST、展示タイムなど、レース分析に必要な情報を網羅しています。
データメタ情報:
- レコード数:165,766
主なカラムとサンプルデータ:
カラム名 | サンプルデータ |
---|---|
レース識別子 | 202103262301.0 |
タイトル | 第6回ライブキャッチ杯 |
3連単_組番 | 1-6-5 |
3連単_払戻金 | 7130.0 |
レース日 | 2021/3/26 |
レース場 | 唐津 |
天気 | 晴 |
風向 | 南西 |
風力 | 3 |
💡 まとめ:データ整備の重要性
これらのマスターデータを整備したことで、以下のようなデータ分析が可能になります:
- 特定選手の過去成績をレース開催日ごとに正確に確認。
- 直近3ヶ月、6ヶ月、1年の選手成績を柔軟に算出。
- レース結果や払い戻し金と合わせて、予想モデルの精度向上。
これにより、データに基づいた確かな舟券戦略が立てられるようになります。
🔮 今後の展望
データ整備が完了したことで、今後さらに以下の展望を考えています:
- 女子戦の色付け
女子戦を識別しやすくし、特有の傾向やデータ分析に役立てます。 - SG・PG1・G1などのグレード色付け
レースのグレードを色分けし、重要度やレベルの違いを一目で把握できるようにします。
これらの工夫で、データの視認性と分析の精度を向上させ、さらに深いレース分析を実現します。
💬 皆さんのご意見を募集中!
「こんなデータも追加した方がいい!」
「ここを深掘りしたら面白いかも!」
皆さんのアイデアやフィードバックをお待ちしています。
一緒にデータを掘り下げ、ボートレースをもっと楽しみましょう!🚤✨
平凡リーマンのお小遣い舟闘記 – へいぼー
コメント