♣ 분석 자료 데이터 마이닝
국내 합법 사행산업은 기존에 있던 경마, 경륜, 복권, 카지노(외국인 대상)에서, 2000년 이후 내국인 카지노, 스포츠 토토, 경정, 온라인 복권 등으로 확대되어 왔다.
2014년 매출액을 기준으로 보면 경마가 38.4% (The National Gambling Control Commission, 2015)로 사행산업 중 가장 큰 비중을 차지하고 있다.
또한 2014년 국내 주요 스포츠 관람객 수를 살펴보면 야구는 675만명, 축구는 186만명 (Statistics Korea e-National indicators, 2015)으로 나타났고, 경주 스포츠인 경마는 1,529만명, 경륜은 529만명 (The National Gambling Control Commission, 2015)으로 관람 스포츠 중 경마의 관람객이 가장 많다.
과거에는 경마에 대한 부정적 인식이 강했으나 최근에는 경마가 놀이문화로서 자리 잡고 있는 추세이다.
그 예로 경마의 도박 중독률이 2012년 60.3%에서 2014년 49.1%로 2년 만에 11.2% 감소했으며 (The National Gambling Control Commission, 2014), 고액 배팅인 10만원권 구매 비율이 2004년 6.6%에서 현재 3.1%로 절반 이상 줄었고, 같은 기간 3천원 이하 소액 구매 비율이 20.4%에서 30.8%로 1.5배 늘었다는 연구 결과가 있다 (The Korea Racing Authority, 2014).
현재 한국 마사회에서는 해당 경기에 대한 출전표, 경주마, 기수, 조교 정보 등 다양한 데이터를 사전에 제공하고 있어 데이터에 접근이 용이하다. 그러나 관련 데이터로 통계적 예측 모형을 활용한 분석이 타 스포츠 종목에 비하여 이루어진 사례가 적다 (Yoo와 Park, 2000).
본 연구에서는 데이터 마이닝 기법을 이용하여 경마 순위 예측 모형을 제안하고자 한다. 현재 국내 경마 경기는 매주 이틀씩 서울, 부산, 제주에서 각각 개최되고 있으며, 이 중 매출액의 55%를 차지하고 있는 서울 지역 경기를 분석 대상으로 하였다.
분석에 이용한 데이터는 한국마사회 홈페이지 자료실에서 제공하는 2014년 1월부터 2015년 4월까지의 경마 성적표, 경주마, 기수, 조교사 정보를 이용하였다. 경마 순위 예측모형을 위하여 본 논문에서는 두 가지 모형을 고려하였다.
첫 번째는 경기 결과의 순위를 기반으로 한 모형으로, 다양한 분류분석방법을 이용하여 예측 모형을 적합하였다.
두 번째는 기록을 기반으로 한 모형으로, 우선 경기 기록을 예측한 후 기록에 따른 순위를 부여하는 방법을 이용하였다. 경마 특성상 배팅이 주목적이므로 우리는 배팅 방식에 따라 원하는 순위까지 예측하였을 때의 예측 정확성(예측률)을 계산하여 비교하고자 한다.
분석에는 선형 회귀 모형, 로지스틱 회귀 모형 (McCullagh와 Nelder, 1989; Hastie와 Pregibon, 1992), 랜덤 포레스트 모형 (Breiman, 2001)을 이용하였다. 분석은 R (R Development Core Team, 2010)을 이용하여 이루어졌으며, R에 내장된 다양한 함수와 패키지를 이용하여 주요변수를 선택하고 모형을 적합하였다.
본 논문의 순서는 다음과 같다. 2장에서는 자료 수집 방법과 분석에 사용된 변수에 대하여 설명하고, 3장에서는 분석 방법과 분석 결과를 비교하여 최적 예측 모형을 제시하고 최근 자료에 모형을 적용한 결과를 비교한다. 4장에서는 본 연구의 내용을 요약하고 결론을 내리고자 한다