본문 바로가기
통계학

포아송 분포

by 써머23 2025. 4. 19.
728x90

1.

포아송 분포란 "단위 시간 혹은 사건 당 적은 빈도로 발생하는 사건의 발생 확률을 추정"하는데 적합한 분포다. 쉬운 예시로 야구에서 홈런을 들 수 있다. 어떤 타자가 한 게임에 홈런을 1개 칠수도 2개 칠수도 있지만 2개 이상 치는 경우는 매우 드물다. 그리고, 1개를 칠 확률도 높지는 않다. 23년 KBO홈런왕이었던 노시환의 경우 경기당 평균 홈런 갯수가 0.236개 이다.(홈런왕이 이 정도니 다른 선수는 더 적다) 이렇게 노시환의 경기당 평균 홈런 갯수를 근거로 그가 어떤 게임에서 0개를 칠 확률, 1개를 칠 확률, 2개를 칠 확률 등을 구할 수 있는데 바로 포아송 분포로 구한다. 

 

 

 

2.

위 공식이 바로 포아송 분포에서 보여주는 확률이다. 평균이 람다이다. (이 경우엔 람다 = 0.236개) 위 공식에 대해 설명하자면 사건이 k회 발생할 확률은 (e의 마이너스 람다승) 곱하기 (람다의 k승)을 해준 값에 k 팩토리얼 값으로 나누어주면 된다는 뜻이다. 

하나의 예시를 들자면 사건(X)가 1회 발생할 확률은 (e^(-0.236) * (0.236)^1) / 1이 된다. 

 

 

 

<노시환의 2023시즌 경기당 홈런 갯수의 기대확률, 즉 0개일 확률이 79%, 1개일 확률이 19%, 2개이상일 확률은 2.4%정도 된다>

 

3.

위 표에서는  노시환의 경기당 홈런 갯수를 포아송 분포에 따른 기대확률로 보여주고 있다.  

 

 

4.

노시환은 2023년에 총 131경기를 치렀다. 포아송 분포에 따라 노시환이 홈런 0개를 친 게임 수와 1개를 친 게임 수, 2개를 친 게임 수등을 예측할 수 있고, 실제 노시환이 0개 1개 2개를 친 게임수와 비교할 수 있다. 

 <파란 색이 실제 게임수, 주황색이 포아송 분포에 의해 예측 된 게임수>

 

 

대체로 포아송 분포가 예측한 기대치와 실제 관측치가 유사함을 알 수 있다. 그리고 이러한 노시환의 경기별 홈런 갯수의 빈도가 포아송 분포를 따르는 지 검정하는 방법도 있다. 

 

 

여기서 Oi는 관측빈도 Ei는 기대빈도를 의미한다. i가 0일 때부터 계산해보자. 만일에 노시환이 0개 홈런을 친 게임이 104게임이고 포아송 분포로 예측한 0개의 홈런을 친 게임이 101게임이라면 (104-101)^2 / 101로 계산이 된다. 마찬가지로 i가1일때와 2일 때 즉, 1개나 2개 홈런을 친 게임도 관측빈도와 기대빈도의 차이를 제곱하여 기대빈도로 나누어준다. 각각 구한값을 더하면 이 검정값은 카이제곱 분포를 따르게 되며 그 값은 0.511이 나온다. (자유도는 1이다)

 

카이제곱 검정 결과 (홈런 2개 이상을 하나의 범주로 묶음)

  • 추정된 λ (평균 홈런 수): 약 0.237
  • 카이제곱 통계량: 약 0.511
  • p값: 약 0.775

 

위 경우에는 홈런을 3개이상 칠 확률은 거의 0에 가까우므로 게임당 홈런 갯수를 0,1,2개로만 제한했다. 즉 세개의 범주만이 존재한다. 카이제곱 검정량의 자유도는 (범주수-1) 이므로 2가 될 것 같은데 여기에 추가로 하나를 빼줘야 한다. 바로 모수를 1개 실제 데이터로 추정(노시환의 평균 홈런 갯수 0.236개)했으므로 (범주수-1-추정한 모수수) 이므로 자유도는 결국 3-1-1=1이 된다. 

 

만일에 관측치가 아닌 이미 알려진 모수가 존재한다면 자유도가 1개 차감될 일은 없다.  실제로 위 데이터를 검정해보면 p 벨류가 0.5가 넘으므로 노시환의 경기당 홈런 갯수 분포는 포아송 분포를 잘 따른다고 볼 수 있다. 

 

 

참고) 포아송 분포를 따르지 않는 경우

94년 이종범의 경우 총 124게임에 출전해 84개의 도루를 성공했다. 경기당 평균 도루 갯수가 0.677개로 이는 단위 사건 당 발생 빈도가 꽤 높다. 이런 경우에는 포아송 분포에 적용하기 힘들다. 즉 이종범의 경기당 도루 갯수의 빈도는 포아송 분포를 따르지 않을 가능성이 큰데 그 이유는 한 경기당 평균 도루 갯수가 0.677로 높아 단위 사건(게임) 당 발생빈도가 적다고 할 수 없기 때문이다. 

-----------------------------------

 

✅ 포아송 분포가 적합한 조건 (사용 조건)

포아송 분포는 다음과 같은 경우에 잘 맞아:

조건설명
1. 어떤 사건이 단위 시간(또는 공간)당 몇 번 일어나는가 예: 하루 동안 고객 몇 명 오는지, 1이닝에 홈런 몇 개 나오는지
2. 사건이 매우 드물게 발생한다 (희귀함) 사건 발생 확률이 작음
3. 각 사건은 서로 독립적이다 어떤 사건이 발생했다고 해서 다른 사건에 영향 X
4. 시간(또는 공간) 간격이 일정하다 측정 단위가 일정해야 함
5. 동일한 평균 발생률 λ을 가진다 단위당 평균 발생 횟수가 일정해야 함

📊 수학적으로 표현하면:

P(X=k)=e−λ⋅λkk!P(X = k) = \frac{e^{-\lambda} \cdot \lambda^k}{k!}

  • λ\lambda: 단위 시간(또는 공간)당 평균 발생 횟수
  • kk: 실제로 관측된 사건의 수

🎯 예시 (실제 사용되는 분야)

분야예시
스포츠 ⚾ 한 경기당 홈런 수, ⚽ 한 시간당 반칙 횟수
통신 📞 콜센터에 1분 동안 걸려오는 전화 수
의학 🧪 일정 시간 내 특정 병균 검출 횟수
자연현상 🌋 지진, 소행성 충돌 같은 드문 자연재해 발생 수
공학/산업 💥 한 시간 동안 기계 고장 수
웹서비스 💻 웹페이지에서 초당 방문자 수, 서버 오류 발생 수

❗ 자주 비교되는 분포

분포차이점
이항분포 고정된 시행 횟수(n), 각 시행에 사건이 일어날 확률 p가 있음
포아송분포 시행 횟수가 무한히 많고, p는 작고, 사건 수 k를 셈
→ 이항분포에서 n이 크고 p가 작으면 포아송 근사 가능  

✨ 정리 한 줄 요약:

포아송 분포는 “드문 사건이 일정한 평균으로 독립적으로 발생”할 때,
그 횟수를 예측하는 데 가장 적합한 확률 모델이다.

 

 

728x90

'통계학' 카테고리의 다른 글

베타 분포  (0) 2025.04.24
감마분포  (0) 2025.04.23
지수 분포(포아송 분포로 부터 유도)  (0) 2025.04.23
음이항분포  (0) 2025.04.23
The Law of Total Variance  (0) 2025.04.23