레저스포츠산업의 데이터마이닝 분석을 이용한 예측 모형 개발
- 경마 사례를 중심으로 -
데이터 홍수의 시대에 데이터 분석과 관리의 중요성이 높아지고 있으며 레저스포츠 산업에서도 수많은 데이터가 발생하고 그 양은 점점 늘어나고 있다. 농구, 축구, 야구 등 특정 레저 스포츠 산업에서는 데이터에 대한 분석이 이루어지고 있지만 그 외의 산업에서는 아직 분석 및 관리가 미흡한 상태이다.
본 연구에서는 레저스포츠 산업 중 경마산업에서 발생하는 경마경주 정보의 데이터마이닝을 통해 예측 모형을 개발함으로 데이터 분석과 관리의 중요성을 제시하고자 한다. 예측 모형을 개발하기 위해 사용된 자료는 2010년~2013년 7월까지의 서울경마경주에서 발생한 정보를 사용하였다.
총 3,772회의 경주 중 3,017회를 예측 모형을 개발하기 위한 Training data 로 설정하고 나머지 755회의 경주를 모형 검증을 위한 Test data로 설정하였다. 분석을 위한 주요 변수로는 경주결과인 기록의 데이터를 종속변수로 설정하고 경주마의 체중, 날씨, 주로상태, 경주마체중, 기수 체중, 승률 등 52개의 변수를 독립변수로 설정하였다.
분석을 위해 종속변수 정규화를 하였으며 다중선형회귀분석을 기본으로 단계적회귀분석 모형을 이용하여 경마경주의 예측모형을 분석하였고 분석된 모형을 실제 경주결과와 비교하여 검증하는 작업을 진행하였다. 본 검증 과정에 이해를 돕기 위해 성능지표값을 설정하였고 성능지표는 복승식 기준으로 1,2등 할 것이라고 예측한 말이 실제로 1,2등 하는 평균 말의 수를 의미한다.
결과로 경마경주는 경주마 군, 경주 거리, 날씨, 주로상태, 주로습도, 마번, 경주마 연령, 경주마 부담중량, 경주마 체중, 경주마 체중변화, 경주마의 1등 횟수, 경주마의 2등 횟수, 경주마의 3등 횟수, 경주마 승군점수, 감독의 전체 경주수, 감독의 3등 횟수, 감독의 1등 승률, 감독의 최근 1년 승률, 감독의 최근 1년 복승률, 기수의 1등 횟수, 기수의 승률, 기수의 복승률, 기수의 최근 1년 1등 횟수, 기수의 최근 1년 승률이 변수로 선택되었고 종속변수를 정규화하고 다중선형회귀분석으로 분석한 모형의 성능지표값이 0.7918로 나와 최적의 모형으로 가장 높은 예측력이 나타났다.