기록을 기반으로 한 모형은 원하는 마릿수의 우승마를 예측하기 위하여 거리에 따라 각각 회귀 모형을 적합한 후, 경기 별로 기록에 따른 순위를 부여하였다. 기록 모형에서도 순위에 기반한 예측 모형과 같이 배팅 방식에 따라 예측률을 계산하여 비교하였다.
회귀분석방법으로는 AIC 기준의 단계별 변수선택법을 이용한 선형 회귀와 랜덤 포레스트 방법을 이용하였다. BIC 기준의 단계별 변수선택법도 시행하였으나 AIC 기준의 단계별 변수선택법을 이용한 결과와 거의 동일하여 AIC 기준의 모형을 이용하기로 한다.
Table 3.5. The important variables of each random forest model
단계별 변수선택법을 사용하여 적합한 경주 거리별 예측 모형에서 유의수준 0.05하에서 선택된 변수는 Table 3.4와 같다. 결정계수 R2의 최솟값은 0.2108, 최댓값은 0.4979으로 나타났다.
선형 회귀에서 회귀계수의 부호가 음수이면 경주마의 기록 단축에 영향을 미치는 변수임을 의미한다. 먼저 회귀계수가 양수인 설명변수를 살펴보고자 한다. 군 변수는 모든 경주 거리별 모형에 포함되므로 중요한 변수이며, 그 값이 작을수록 좋은 경주마임을 확인할 수 있다.
성별암 변수에 의하면 1900m를 제외하고는 암말이 수말이나 거세마에 비해 기록이 느리다는 것을 알 수 있다. 부담중량은 대부분의 경우 회귀계수가 양수이나 2000m에서는 음수이다. 이는 연령, 성별, 최근 승군점수 등에 따라 능력이 좋은 말에게 높은 부담중량을 부여하는 경우도 있기 때문이다.
회귀계수가 음수인 설명변수는 말 1위 비율이 1900m 모형을 제외한 모든 예측 모형에 포함되었고, 말 2위 비율은 6개의 모형에, 말 1년 출전 횟수는 5개의 모형에 포함되어 주요변수라고 할 수 있다. 따라서 말의 1, 2위 비율이 높을수록, 최근 1년 출전횟수가 많을수록 기록이 좋아지는 것을 알 수 있다.
다음은 랜덤 포레스트에 대해서 살펴보고자 한다. 앞 절에서와 같이 랜덤 포레스트 모형에서의 각 거리별로 상위 10개의 주요변수를 살펴보았으며, 이는 Table 3.5와 같다. 결정계수 R2의 최솟값은 0.1563, 최댓값은 0.6570으로 나타났다.
설명변수 중 말 1위 비율은 거리별 주요변수에 모두 포함되었으며, 군과 기수 2위 비율은 하나의 거리모형을 제외하고는 모두 포함되었다. 그 외에 거리별 모형의 주요변수는 말 2위 비율, 기수 1위 비율, 증감, 주로 습도 변수 순으로 선택되었다.
이를 통해 말과 기수의 정보와 관련된 설명변수가 기록을 예측함에 있어 중요한 것을 알 수 있었다. 또한 경주로의 습도가 주요변수 이므로 말이 경주하는 환경이 기록에 영향을 미치는 것을 알 수 있다.
Table 3.6. Average prediction accuracy in test data
단계별선택법을 이용하여 적합한 예측 모형과 랜덤 포레스트를 이용하여 적합한 예측 모형에서 공통적으로 선택된 주요변수는 말 1위 비율과 말 2위 비율, 군이다. 따라서 기록을 기반으로 경주마의 순위를 예측하기 위해서는 말과 관련된 정보가 중요하게 작용한다는 사실을 확인할 수 있다.
각 거리 별 예측 모형에서 test data에서의 평균 예측률(표준편차)을 계산한 결과는 Table 3.6에서와 같다. 대부분 예측률은 1마리를 예측하는 경우가 가장 높고 2마리, 3마리 순으로 높다. 하지만 예외적으로 2000m의 경우에는 2마리를 예측하는 경우보다 3마리를 예측하는 경우의 예측률이 더 높게 나왔다.
이는 상위 3등의 기록 예측이 3-2-1순으로 예측되거나 2-3-1순으로 예측되어 1, 2위 2마리 예측에는 실패하였지만, 1, 2, 3위 3마리 예측은 정확히 하여 나타난 결과이다.
거리별 예측률을 각 경기 수에 따라 가중치 평균을 낸 결과, 모든 경우 가중치 평균 예측률이 랜덤 포레스트 모형보다 선형 회귀 모형에서 높게 나온 것을 알 수 있다. 랜덤 포레스트 모형의 최적 모형은 순위를 기반으로 한 모형에서와 같은 방식으로 하였다.