♣ 공공데이터포털
본 연구에 사용된 자료는 2014년 1월 4일부터 2015년 5월 31일까지 서울경마공원에서 실시된 경마 경주 자료로, 한국 마사회(www.kra.co.kr)의 공공데이터포털을 이용하여 자료를 수집하였다.
총 18,062개의 자료 중 2014년 1월부터 2015년 4월까지의 16,821개의 자료(총 1,474개의 경기)를 train data로, 2015년 5월에 해당하는 1,241개의 자료(총 109개의 경기)를 test data로 설정하였다. 분석을 위하여 각 경주일마다의 경마 성적표와 경주마 정보, 기수 정보, 조교사 정보를 사용하였다.
Table 2.1. The number of games by distance
Table 2.2. A race track's condition according to humidity
먼저 경마 성적표를 통하여 경주 거리, 날씨, 주로 상태, 주로 습도, 경주마의 순위, 경주마 번호, 산지, 성별, 나이, 부담중량, 기수, 조교사, 마주, 마체중, 경주 기록 자료를 수집하였고 이에 해당하는 기수 정보와 조교사 정보, 경주마 정보를 수집하였다. 각 변수에 대한 자세한 설명은 다음 절에서 하고자 한다.