1.
포아송 분포란 "단위 시간 혹은 사건 당 적은 빈도로 발생하는 사건의 발생 확률을 추정"하는데 적합한 분포다. 쉬운 예시로 야구에서 홈런을 들 수 있다. 어떤 타자가 한 게임에 홈런을 1개 칠수도 2개 칠수도 있지만 2개 이상 치는 경우는 매우 드물다. 그리고, 1개를 칠 확률도 높지는 않다. 23년 KBO홈런왕이었던 노시환의 경우 경기당 평균 홈런 갯수가 0.236개 이다.(홈런왕이 이 정도니 다른 선수는 더 적다) 이렇게 노시환의 경기당 평균 홈런 갯수를 근거로 그가 어떤 게임에서 0개를 칠 확률, 1개를 칠 확률, 2개를 칠 확률 등을 구할 수 있는데 바로 포아송 분포로 구한다.
2.
위 공식이 바로 포아송 분포에서 보여주는 확률이다. 평균이 람다이다. (이 경우엔 람다 = 0.236개) 위 공식에 대해 설명하자면 사건이 k회 발생할 확률은 (e의 마이너스 람다승) 곱하기 (람다의 k승)을 해준 값에 k 팩토리얼 값으로 나누어주면 된다는 뜻이다.
하나의 예시를 들자면 사건(X)가 1회 발생할 확률은 (e^(-0.236) * (0.236)^1) / 1이 된다.
<노시환의 2023시즌 경기당 홈런 갯수의 기대확률, 즉 0개일 확률이 79%, 1개일 확률이 19%, 2개이상일 확률은 2.4%정도 된다>
3.
위 표에서는 노시환의 경기당 홈런 갯수를 포아송 분포에 따른 기대확률로 보여주고 있다.
4.
노시환은 2023년에 총 131경기를 치렀다. 포아송 분포에 따라 노시환이 홈런 0개를 친 게임 수와 1개를 친 게임 수, 2개를 친 게임 수등을 예측할 수 있고, 실제 노시환이 0개 1개 2개를 친 게임수와 비교할 수 있다.
<파란 색이 실제 게임수, 주황색이 포아송 분포에 의해 예측 된 게임수>
대체로 포아송 분포가 예측한 기대치와 실제 관측치가 유사함을 알 수 있다. 그리고 이러한 노시환의 경기별 홈런 갯수의 빈도가 포아송 분포를 따르는 지 검정하는 방법도 있다.
여기서 Oi는 관측빈도 Ei는 기대빈도를 의미한다. i가 0일 때부터 계산해보자. 만일에 노시환이 0개 홈런을 친 게임이 104게임이고 포아송 분포로 예측한 0개의 홈런을 친 게임이 101게임이라면 (104-101)^2 / 101로 계산이 된다. 마찬가지로 i가1일때와 2일 때 즉, 1개나 2개 홈런을 친 게임도 관측빈도와 기대빈도의 차이를 제곱하여 기대빈도로 나누어준다. 각각 구한값을 더하면 이 검정값은 카이제곱 분포를 따르게 되며 그 값은 0.511이 나온다. (자유도는 1이다)
✅ 카이제곱 검정 결과 (홈런 2개 이상을 하나의 범주로 묶음)
- 추정된 λ (평균 홈런 수): 약 0.237
- 카이제곱 통계량: 약 0.511
- p값: 약 0.775
위 경우에는 홈런을 3개이상 칠 확률은 거의 0에 가까우므로 게임당 홈런 갯수를 0,1,2개로만 제한했다. 즉 세개의 범주만이 존재한다. 카이제곱 검정량의 자유도는 (범주수-1) 이므로 2가 될 것 같은데 여기에 추가로 하나를 빼줘야 한다. 바로 모수를 1개 실제 데이터로 추정(노시환의 평균 홈런 갯수 0.236개)했으므로 (범주수-1-추정한 모수수) 이므로 자유도는 결국 3-1-1=1이 된다.
만일에 관측치가 아닌 이미 알려진 모수가 존재한다면 자유도가 1개 차감될 일은 없다. 실제로 위 데이터를 검정해보면 p 벨류가 0.5가 넘으므로 노시환의 경기당 홈런 갯수 분포는 포아송 분포를 잘 따른다고 볼 수 있다.
참고) 포아송 분포를 따르지 않는 경우
94년 이종범의 경우 총 124게임에 출전해 84개의 도루를 성공했다. 경기당 평균 도루 갯수가 0.677개로 이는 단위 사건 당 발생 빈도가 꽤 높다. 이런 경우에는 포아송 분포에 적용하기 힘들다. 즉 이종범의 경기당 도루 갯수의 빈도는 포아송 분포를 따르지 않을 가능성이 큰데 그 이유는 한 경기당 평균 도루 갯수가 0.677로 높아 단위 사건(게임) 당 발생빈도가 적다고 할 수 없기 때문이다.
-----------------------------------
✅ 포아송 분포가 적합한 조건 (사용 조건)
포아송 분포는 다음과 같은 경우에 잘 맞아:
1. 어떤 사건이 단위 시간(또는 공간)당 몇 번 일어나는가 | 예: 하루 동안 고객 몇 명 오는지, 1이닝에 홈런 몇 개 나오는지 |
2. 사건이 매우 드물게 발생한다 (희귀함) | 사건 발생 확률이 작음 |
3. 각 사건은 서로 독립적이다 | 어떤 사건이 발생했다고 해서 다른 사건에 영향 X |
4. 시간(또는 공간) 간격이 일정하다 | 측정 단위가 일정해야 함 |
5. 동일한 평균 발생률 λ을 가진다 | 단위당 평균 발생 횟수가 일정해야 함 |
📊 수학적으로 표현하면:
P(X=k)=e−λ⋅λkk!P(X = k) = \frac{e^{-\lambda} \cdot \lambda^k}{k!}
- λ\lambda: 단위 시간(또는 공간)당 평균 발생 횟수
- kk: 실제로 관측된 사건의 수
🎯 예시 (실제 사용되는 분야)
스포츠 | ⚾ 한 경기당 홈런 수, ⚽ 한 시간당 반칙 횟수 |
통신 | 📞 콜센터에 1분 동안 걸려오는 전화 수 |
의학 | 🧪 일정 시간 내 특정 병균 검출 횟수 |
자연현상 | 🌋 지진, 소행성 충돌 같은 드문 자연재해 발생 수 |
공학/산업 | 💥 한 시간 동안 기계 고장 수 |
웹서비스 | 💻 웹페이지에서 초당 방문자 수, 서버 오류 발생 수 |
❗ 자주 비교되는 분포
이항분포 | 고정된 시행 횟수(n), 각 시행에 사건이 일어날 확률 p가 있음 |
포아송분포 | 시행 횟수가 무한히 많고, p는 작고, 사건 수 k를 셈 |
→ 이항분포에서 n이 크고 p가 작으면 포아송 근사 가능 |
✨ 정리 한 줄 요약:
포아송 분포는 “드문 사건이 일정한 평균으로 독립적으로 발생”할 때,
그 횟수를 예측하는 데 가장 적합한 확률 모델이다.
'통계학' 카테고리의 다른 글
베타 분포 (0) | 2025.04.24 |
---|---|
감마분포 (0) | 2025.04.23 |
지수 분포(포아송 분포로 부터 유도) (0) | 2025.04.23 |
음이항분포 (0) | 2025.04.23 |
The Law of Total Variance (0) | 2025.04.23 |