강화학습으로 근태관리를 혁신하다 — Thompson Sampling 실전 적용기
네트워크 트래픽만으로 출퇴근을 자동 감지하는 AI 시스템에 Thompson Sampling 강화학습을 적용한 실전 경험을 공유합니다.
왜 강화학습인가?
기존 근태관리 시스템은 대부분 규칙 기반(Rule-based) 으로 동작합니다. "GPS가 사무실 반경 100m 안이면 출근", "앱에서 체크인 버튼을 누르면 출근" — 이런 방식입니다.
하지만 현실은 규칙으로 담기엔 너무 복잡합니다:
- 직원마다 출근 패턴이 다르다 (7시 출근 vs 10시 출근)
- 네트워크 사용 패턴도 다르다 (개발자 vs 영업직)
- 외부 미팅, 재택근무, 반차 등 변수가 많다
규칙을 아무리 정교하게 만들어도 모든 상황을 커버할 수 없다. 그래서 AI가 스스로 학습해야 한다.
Thompson Sampling이란?
Thompson Sampling은 다중 슬롯머신 문제(Multi-Armed Bandit) 를 풀기 위한 강화학습 알고리즘입니다.
쉽게 말하면:
- 여러 선택지 중 어떤 게 가장 좋은지 시도하면서 학습
- 확신이 없으면 다양하게 탐색(Exploration)
- 확신이 생기면 최선에 집중(Exploitation)
- 베이지안 확률로 불확실성까지 고려
WorkMonitor에서의 적용
WorkMonitor는 네트워크 트래픽 데이터에서 직원의 상태를 판정합니다:
- 출근: 네트워크 활동 시작
- 퇴근: 네트워크 활동 종료
- 외출/회의: 일시적 비활동
- 휴식: 짧은 비활동
각 판정에 Thompson Sampling을 적용하면:
- 초기에는 넓게 탐색 — 다양한 기준으로 판정하고 정답과 비교
- 데이터가 쌓이면 패턴 학습 — 직원 A는 보통 9시에 출근, 직원 B는 8시
- 1주일 후 자동 수렴 — 각 직원에 최적화된 판정 기준 형성
실제 성과
| 지표 | 규칙 기반 | Thompson Sampling |
|---|---|---|
| 1일차 정확도 | 60% | 55% |
| 3일차 정확도 | 60% | 72% |
| 7일차 정확도 | 60% | 85% |
| 30일차 정확도 | 60% | 92% |
규칙 기반은 처음부터 60%로 고정이지만, 강화학습은 시간이 지날수록 정확도가 올라갑니다.
프라이버시와 강화학습
여기서 중요한 점: Thompson Sampling은 집계된 패턴만 학습합니다.
- 직원이 어떤 사이트를 방문했는지 모름
- 어떤 파일을 열었는지 모름
- 네트워크에 트래픽이 있었는지/없었는지만 봄
감시가 아닌 보호. 이것이 WorkMonitor의 3단계 데이터 분리 아키텍처의 핵심입니다.
마무리
강화학습은 "완벽한 규칙을 만드는 것"이 아니라 "데이터에서 최적의 규칙을 스스로 찾게 하는 것"입니다.
근태관리처럼 패턴이 개인마다 다르고 시간에 따라 변하는 문제에는 강화학습이 이상적인 접근법입니다.
WorkMonitor에 대해 더 알고 싶으시면 문의하기를 통해 상담을 신청해주세요.