2
NBA-Talk
Xp
MLB          
KBO          
Mania Community. Your Favorite.
KBO-Talk
야구 데이터 분석하는 학생입니다. 여러분들의 고견을 여쭙고싶습니다.
 
1
  535
2017-01-02 13:46:45
안녕하세요. 
저는 카이스트의 통계연구실에서 스포츠(야구) 데이터 분석하는 연구를 하고있는 대학원생입니다. 
항상 얕은 눈팅만 하다가 식견과 인사이트가 뛰어나신 여러분들의 의견을 여쭙고자 염치 불구하고 글을 올리게 되었습니다.
일단 네이버 문자중계를 통하여 실시간으로 kbo 경기데이터를 받아오는 시스템을 구축한 상태입니다.
선수들의 stat부터 주루상황등의 모든 경기상황을 문서화하여 받을수 있게 되엇는데 
이러한 데이터로 무슨 연구를 하여야할지 '문제 정의 단계'에서 많은 고민을 하고있습니다.

제가 현재 갖고있는 테크니컬한 지식은 한마디로 머신러닝입니다.
좀더 간단히 말씀드리면 인공지능(알파고 아시죠~?)을 연구하여 
데이터를 입력하였을때 컴퓨터로 하여금 이를 가지고 판단을 하게 하여 예측, 분류를 하게 하는 것이지요.
현재 야구분야에서는 많이 사용되지는 않았지만 Logistic regression 이라는 회귀분석 기법으로 승패를 예측하는 연구가 진행된적이 있습니다.

제가 관심을 갖고 보았던 논문은 다음과 같습니다
좌완투수 우완투수 각각이 좌타자 우타자를 만났을 때, strike out이 나올 확률, ground ball 이 나올 확률을 계산하고 투수쪽, 타자쪽에서 그 확률에 대한 기여도가 각각 몇인지를 분석하는 것입니다.

이와 비슷한 방식으로 특정 성향의 타자, 특정 성향의 투수를 각각 그룹화 하여 각 그룹에 대한 경기분석을 하고 싶습니다.
현재는 생각해본 주제로는 

1. 오버핸드로 던지는 투수 vs 사이드암 언더핸드로 던지는 투수에 대해 유난히 약한 팀이 있는지, 유난히 약한 배팅스타일이 있는지에 대한 분석

2. 천적관계의 두팀간의 경기 vs 라이벌관계의 두 팀간의 경기에서 홈런같은게 많이나오는지 스트라익아웃이 많이나오는지 - > 투수전일지 화력전일지에 대한 예측, 분석

3. 장타형 타자/ 단타형 타자에 각각 강한 피칭 스타일이 있는지에 대한 분석 (1번이랑 비슷) 

4. 볼배합이 좋은 변화구 잘던지는 투수, 직구스타일 투수 에 대해서 신인타자, 연륜있는 타자의 배팅이 얼마나 차이나는지에 대한 분석. (신인이 보통 직구보다는 변화구에 약하다고 하므로)

5. 클러치 타자, 일반타자가 구원투수 , 선발투수를 만났을때 각 케이스에 대한 분석, 예측

입니다. 혹시 이중에 interesting 한 주제라던가 제안해주실만한 새로운 주제가 있는지요.
비록 소정의 사례도 어려우나 여러분들의 도움을 받아 가치있는 연구를 진행해보고 싶습니다.
댓글 또는 쪽지주시면 정말 감사드리겠습니다.

새해복 많이받으세요 감사합니다!!
8
Comments
1
2017-01-02 16:14:52

저는 학부 4학년 때 R 배우면서
승리랑 세부스탯과의 상관도를 분석해서 발표 했습니다.
머니볼을 예로들고 출루율이 과연 좋은 스탯인가 승리를 부르는 스탯인가로 시작해서 장타율이 짱이라는 결론으로 끝났네요.

주제에 대한 이야기를 감히 드리긴 어렵지만 하시려면 kbo 보다는 mlb로 하세요. Kbo는 어매이징한 리그라서 원하는.괄목할 만한 결과물로 이어지기가 어렵더라구요. 분석을 하기에 굉장히 괴랄한 리그 입니다.

WR
1
2017-01-02 16:51:06

의견 감사합니다. 

일단 KBO 데이터를 받아왔기때문에 도메인을 KBO로 잡았는데 쉽지 않군요 ㅠㅠ 

1
2017-01-02 17:09:30

kbo는 스탯티즈나 kb리포트가 있긴 하지만 mlb의 세이버 메트릭스 만큼의 가공도를 기대하기 어렵습니다. 제가 알기로 각종 성적 도출에 쓰이는 계수를 kbo가 아니라 mlb기준 계수를 쓰기때문에 국내 리그 실정에 딱 맞다고 보기에도 무리가 있구요.
메이저리그쪽이 이와 관련된 담론이 많이 진행된 상황이고, 각종 서적(원서 포함)에서도 자료를 찾기가 수월하실테니 저도 보쉬님과 같은 의견으로, kbo로 하셨다니 어쩔 수 없지만 혹시 주제를 바꾸실수 있다면 바꾸는 것도 나쁘지 않지 않을까 생각합니다.

+주제와 관련해서는 5번 쪽이 전 좀 흥미로운데, 왜냐하면 야구에서의 '클러치'타자의 개념은 지금도 세이버 매트리션들 사이에서도 의견이 갈리는 주제이거든요. 야구에서 '클러치'라는 게 실존하느냐부터해서 기준을 어떻게 잡느냐 까지 굉장히 많은 주제가 나온 쪽이라 저는 정확히 5번 주제라고 하기는 힘들지만 '클러치'와 야구라는 주제가 가장 흥미롭게 다가옵니다.

WR
1
1
2017-01-02 17:19:32

앗 감사합니다. 

안그래도 클러치 히터가 존재하는 가에 대해서 연구실에서도 많이들 궁금해 해서  생각하고 있었던 주제인데.. 만약에 이걸 주제로 해서 흥미로운 결과가 나오면 꽤 좋은 contribution이 될것같습니다. 감사합니다
1
2017-01-03 08:49:53

모집단이 kbo가 되기에는 매년 경기수도 그렇고, 상대적인 수준차도 나는지라 쉽지 않은 집단이죠. 

이전 장명부의 30승이나 최동원의 한국시리즈 4승, 선동열과 박충식 같은 이전 고대시절의 '썰'같은 사건들은 통계화 시키기에는 전부 외부변수처럼 팅겨 나가게 됩니다.  그리고 하루에 많아야 4경기(지금은 5경기)는 기본의 통계화 시키기에 어려운 면모가 많습니다.

개인적으로 흥미로운 주제는 clutch라는 부분입니다. 평소에 삽질 하다가도 주자만 2루 이상에 나가면 귀신같이 때려대는 타자들이 분명히 있기는 한데, 그거에 대한 판단이나 기록은 철저하게 도제식 경험에 의존하고 있는게 현재죠. 요 부분이 데이터화 될 수 있다면, 연봉적 측면에서 확실한 판단이 가능할거라 봅니다.
WR
1
2017-01-04 09:15:27

좋은 의견 정말 감사합니다! 

1
2017-01-04 06:53:04
며칠전에 읽은 NMF의 clustering property가 생각나네요. 간단하게 저라면 투수나 타자들 Nonnegative Data matrix 토대로 Clustering 해보고 싶네요. 재미있을 것 같은....

WR
1
2017-01-04 09:17:19

앗 감사합니다! 처음보는 기법(?) 이네요!  혹시 페이퍼나 기사 라면 어떤것인지 알려주실수 있나요? 

 
17-11-16
 
208
1
글쓰기
검색 대상
띄어쓰기 시 조건