머신러닝으로 카지노 게임 이상 탐지하기 (Anomaly Detection in Casino Games)

by. Jongwon Lee | 58 Views (40 Uniq Views) | 8 months ago

#이상탐지 #머신러닝 #데이터분석

온라인 카지노 게임에서의 업데이트(예: 확률 조정, 보너스 조건 변경 등)는 유저의 플레이 방식과 수익률 분포에 미묘한 영향을 미침. 이러한 변화가 실제로 유저의 행동 데이터에 어떤 패턴 변화를 유발하는지를 포착하기 위해, 시뮬레이션 기반의 머신러닝 기법을 활용한 이상 탐지 프레임워크를 제안.

1. 연구 개요

연구 제목: Game Intelligent Analyst – Anomaly Detection in Casino Games using Machine Learning Algorithms
저자: Florian Merchie
소속: Université de Liège, GAMING1 협업
핵심 목표: 머신러닝을 활용해 카지노 게임의 업데이트 전후 플레이어 행동 시퀀스 분포 차이를 감지하고, 이를 기반으로 게임 규칙 변화나 버그를 자동으로 탐지하는 시스템 설계

2. 데이터 구조와 특성

본 연구는 온라인 카지노 시뮬레이터로 생성된 1,000만 건 이상의 게임 플레이 데이터를 사용합니다. 이 데이터는 각 GIP(Game Instance Player) 단위로 구성되어 있으며, 각 GIP는 수백~수천 회의 스핀을 포함합니다.

2.1 구조

gip_id: 하나의 GIP 인스턴스를 식별하는 고유 ID
time: 해당 GIP 내 상대 시간 (10스핀 단위)
win_ratio (Gratio): 획득 금액 / 배팅 금액. 10 단위로 반올림된 이산형 수익률

| index | gip_id | time | win_ratio       |
|-------|--------|------|-----------------|
| 0     | id_01  | 1    | Gratio(1,1)     |
| 1     | id_01  | 2    | Gratio(1,2)     |
| 2     | id_01  | 3    | Gratio(1,3)     |
| ...   | ...    | ...  | ...             |
| n     | id_01  | n    | Gratio(1,n)     |

Gratio(i, j)는 i번째 GIP 인스턴스의 j번째 시퀀스에서 측정된 win_ratio를 의미하며, 이는 좌표가 아닌 시계열 인덱스를 수식적으로 표현한 것입니다.

2.2 특징 요약

불규칙 길이의 시계열 데이터
각 GIP는 수백~천 단위의 10스핀 단위 win_ratio 시퀀스로 구성
일부 시퀀스에 노이즈 존재 (예: 랜덤성)
분류 목적: 해당 시퀀스가 업데이트 전(y=0)인지 후(y=1)인지

3. 머신러닝 기법 도입 배경

이상 탐지는 금융, 보안, 헬스케어 등 다양한 분야에서 오랫동안 연구되어 온 주제입니다. 초창기에는 단순 통계 기반의 방법들이 주를 이루었지만, 빅데이터 시대에 접어들면서 데이터의 차원이 증가하고 복잡도가 높아지면서 기존 방법만으로는 한계가 드러났습니다. 머신러닝은 이러한 고차원 데이터를 효과적으로 처리할 수 있는 확장성과 유연성을 갖추고 있어, 현대 이상 탐지 문제 해결에 적합한 도구로 부상하고 있습니다.

특히, 지도학습(Supervised Learning)은 다수의 변수들이 목표(label)에 미치는 영향을 학습할 수 있는 구조를 갖추고 있으며, 본 연구에서는 다양한 지도학습 알고리즘을 적용하여 업데이트 전후의 행동 패턴 차이를 분류하고자 했습니다.

4. 사용된 머신러닝 기법 및 비교 분석

이상 탐지를 위해 여러 머신러닝 기법이 실험되었으며, Extra Trees Classifier가 전체적으로 가장 우수한 성능과 해석력을 보였습니다.

4.1 사용된 알고리즘 요약

Extra Trees Classifier
- 앙상블 기반 결정 트리
- 확률 출력 가능 → density ratio 추정 및 시각화 용이
- 노드 분할 feature와 threshold를 무작위로 선택
- 해석 가능성과 속도에서 강점
Support Vector Machines (SVM)
- 고차원 분류에 유리하나 확률 출력이 어려움
RNN (Recurrent Neural Networks)
- 시계열에 강점 있으나 과적합 발생 및 해석 어려움
Naive Bayes (GaussianNB)
- 계산이 빠르나 이산형 데이터를 가우시안으로 근사하는 데 한계
Gradient Boosted Trees (XGBoost)
- 높은 성능이나 해석력이 떨어짐
Histogram 비교 기반 기준선 방법
- 모델 없이 시각화만으로 분포 차이 확인 가능하지만 일반화 성능 낮음

5. Extra Trees의 구조 및 장점

Extra Trees는 Random Forest와 유사하나 더 강한 무작위성을 가지는 앙상블 트리 기법입니다.

5.1 구조 요약

학습 데이터 전체 사용 (Bagging 미적용)
각 노드에서:
- 분할할 feature 무작위 선택
- 분할 기준 threshold도 무작위 선택

5.2 장점 요약

연속형/이산형/노이즈 있는 시계열 모두 robust
확률 출력 기반 → 분포 기반 시각화에 적합
과적합 방지 및 계산 효율 우수
실제 QA 자동화 적용 가능성 높음

관련 설명: Section 2.1.2
모델 시각화: Figure 2.5: Bagging illustration

6. 분류 목적 및 Figure 4.1 분석

모델은 각 GIP 시퀀스가 업데이트 전/후 중 어디에서 생성된 것인지 분류하는 데 사용됩니다. 이진 분류 문제로 설정되며, 레이블 y는 업데이트 전: 0, 업데이트 후: 1

6.1 Figure 4.1a 분석

x축: 모델이 예측한 P(y=1|x) 확률값 (해당 시퀀스가 업데이트 후일 확률)
y축: 해당 확률값에 대한 확률 밀도
빨간색 곡선: 업데이트 전 데이터에 대한 확률 분포
파란색 곡선: 업데이트 후 데이터에 대한 분포 → 두 분포가 명확히 구분됨 → 모델이 업데이트 감지를 잘 수행함을 의미

6.2 Figure 4.1b 분석

두 레이블 모두 실제로는 업데이트 전(y=0)에서 생성된 데이터임
단, y=0/1로 인위적으로 나눈 가짜 실험 구성
결과: 두 분포가 거의 일치 → 모델은 false positive 없이 안정적으로 작동함

이러한 실험은 모델이 진짜 업데이트를 잘 탐지하는지, 동시에 거짓 탐지(false alarm)를 하지 않는지를 시각적으로 확인하는 데 사용됩니다.

7. 결론 및 시사점

이 논문이 단순히 Extra Trees 모델의 성능만을 보여주는 데 그치지 않고 주목할 만한 점은, 머신러닝 모델의 확률 출력을 이용해 분포 기반 이상 탐지 지표를 수학적으로 정의하고 정량화했다는 것입니다. 예컨대 Figure 4.1에서는 모델이 출력한 확률값 s(x)에 기반해 density ratio의 분포를 계산하고, 이를 통해 실제로 업데이트가 감지되었을 때와 그렇지 않은 경우를 정밀하게 구분할 수 있음을 보였습니다. 이는 단순 정확도 지표를 넘어서, 모델의 출력을 기반으로 한 해석 가능한 이상 탐지 프레임워크 설계라는 점에서 학문적, 산업적 의미가 큽니다.

머신러닝 기반 이상 탐지 프레임워크는 게임 업데이트나 버그로 인한 행동 변화 감지에 매우 유용
특히 Extra Trees는 정확도, 시각화 가능성, 실시간 적용성 측면에서 강력한 도구
GIP 단위의 시계열 데이터를 이용해 변화 탐지가 가능하다는 점에서, 다양한 상업적 게임 QA/밸런싱/규칙 조정에도 활용 가능성 있음

논문링크: https://matheo.uliege.be/bitstream/2268.2/4651/7/master_thesis.pdf