본 연구의 목적은 경주마에 대한 정보와 기수 정보, 조교사 정보를 가지고 우승마를 예측하는 것이다. 반응변수는 경주마의 순위와 기록 두 가지로 설정하였다.
자료 수집 시 다음과 같은 결측치가 발생하여 제거하였다. 먼저 경기 도중 실격이나 출전중지 등의 사유로 순위가 존재하지 않는 자료 308건과 조교정보가 존재하지 않는 자료 6건을 제거하였다.
다음으로 경주마의 등급이 정해지지 않은 말은 보통 비슷한 등급의 말로 경기가 구성되기 때문에 같은 경기에 출전하는 말의 등급의 최빈값으로 결측치를 대체하였다. 또한 1000m, 1300m, 1700m, 1800m에서 이상치가 존재하여 해당 자료를 제거한 후 분석하였다. 분석에 이용한 설명변수들은 다음과 같다.
♣ 거리
경주마는 벌어들인 상금에 따라 뛸 수 있는 경주가 구분되며, 각 마필의 거리별 적성을 감안하여 39개의 경주거리에 선택 출주할 수 있다. 운영거리는 1000m, 1100m, 1200m, 1300m, 1400m, 1700m, 1800m, 1900m, 2000m, 2300m 총 10가지가 있으며 각 경기에 해당하는 자료의 수와 경기의 수는 Table 2.1과 같다.
우리는 전체 자료를 이용하여 바로 순위를 예측하는 방법과 거리 별로 기록을 예측하는 회귀모형을 적합하여 순위를 예측하는 방법 두 가지를 모두 이용할 것이다.
♣ 주로상태, 주로습도
경주로 상태는 경주 결과에 변수로 작용한다고 할 수 있다. 말에 따라 경주로 상태에 민감하게 작용하는 말이 있어 주로 상태가 불량일 경우 평상시와는 경주성적이 많이 달라질 수 있고, 포화 상태의 경주로에서는 빠른 주파기록이 탄생하는 경우가 많다.
또한 Table 2.2와 같이 주로의 습도에 따라서 주로 상태가 결정되기 때문에 데이터 분석모형에는 주로 상태 변수를 제외하고 주로 습도 변수만을 포함시켰다.