본 연구에서는 경마 경기의 우승마 예측을 위해 한국 마사회에서 제공하는 경마 성적표, 경주마 정보, 기수와 조교사 정보를 사용하여 예측 모형을 제시하였다.
예측 모형은 순위를 기반으로 한 예측 모형과 기록을 기반으로 한 예측 모형을 적합하였고 각 예측 모형의 주요 변수를 살펴보았다. 최적 예측 모형의 정확도를 비교하기 위하여 단승식과 복승식, 삼복승식에 따른 예측률을 평가 지표로 사용하였다.
순위를 기반으로 한 예측 모형은 분류분석방법을 사용하여 모든 변수를 사용한 로지스틱 회귀모형과 AIC, BIC를 기준으로 단계별 변수선택법을 이용한 로지스틱 회귀모형, 랜덤 포레스트 모형의 총 4가지 예측 모형을 적합하였다.
그 결과, 단계별 변수선택법을 이용한 회귀 모형을 통해 마체중이 높을수록, 기수와 말의 우승 비율이 높을수록 우승마일 확률이 높아지는 것을 확인할 수 있었다. 또한, 거세마가 암말이나 수말보다 빠르며, 예상한 바와 같이 마번이 작은 안쪽에서 출발하는 것이 유리하다는 사실을 확인할 수 있었다.
랜덤 포레스트 예측 모형의 경우, 주어진 설명변수의 중요도를 통해 말과 기수의 과거 우승 비율이 순위 예측에 주요 역할을 하는 것을 알 수 있었다. 순위를 기반으로 한 각 예측 모형의 예측률을 비교해본 결과, BIC-로지스틱 모형과 랜덤 포레스트 모형을 최적 모형으로 선택하였다.
기록을 기반으로 한 예측 모형은 각 경주 거리별로 모형을 적합하였으며, 적합 시 단계별선택법과 랜덤 포레스트를 이용하였다. 단계별선택법을 이용한 선형회귀 모형에서는 군, 성별암, 부담중량 등의 변수가 기록 증가에 영향을 미치는 것을 알 수 있었다.
반면, 기록 단축에 영향을 미치는 유의한 설명변수로는 말 1, 2위 비율, 말 1년 출전 횟수 등의 변수가 선택되었다. 랜덤 포레스트를 이용한 예측 모형의 경우도 선형회귀모형과 비슷하게 말 1, 2위 비율, 군 등 말에 관한 정보가 주요변수로 선택되었다.
또한 기수 1, 2위 비율, 기수 1년 1위 등 기수의 과거 우승 경력이 기록에 영향을 미치는 것으로 나타났다. 그리고 주로 습도와 같이 경주 환경과 직접적으로 관련이 있는 설명변수도 경마 기록에 영향을 미치는 것을 알 수 있었다.
두 모형에 공통적으로 선택된 주요변수는 말 1, 2위 비율, 군 변수로 말에 관한 정보가 기록 예측에 중요한 역할을 하는 것을 알 수 있었다. 두 모형의 예측률를 비교한 결과, 근소한 차이로 선형회귀 모형이 랜덤 포레스트 모형보다 단승식과 삼복승식에서 더 나은 예측률을 보였다.
순위를 기반으로 한 예측 모형과 기록을 기반으로 한 예측 모형의 예측률을 비교해 보았을 때, 비슷한 예측률을 보인다는 것을 알 수 있었다. 또한 단승식과 복승식, 삼복승식의 배당률 정보를 이용하여 획득하게 되는 이윤금액을 살펴본 결과, 이윤 금액은 특정 경기의 배당률에 큰 영향을 받는 사실을 확인할 수 있었다.
본 연구에서 제시한 예측 모형들은 데이터마이닝 기법을 이용하여 통계적 분석에 근거한 모형으로, 우승마 예측에 있어 임의로 선택하는 경우보다 훨씬 높은 예측률을 보인다. 따라서 앞으로의 경마 경기에 대한 정보가 충분히 제공된다면 이러한 예측 모형들이 우승마 예측에 도움을 줄 수 있으리라 기대되는 바이다.