Mathematics/[Harvard] Statistics 110

Lecture 5: Conditioning Continued, Law of Total Probability

dotz0ver 2025. 7. 24. 03:35

  본 글은 Harvard Univ. Statistics 110: Probability 강의 "Lecture 5: 조건부 확률과 전확률정리 (Conditional Continued, Law of Total Probability)"를 바탕으로 정리한 내용입니다.

📌 강의 영상: YouTube

📄 강의 슬라이드: PDF 링크


전체 확률의 법칙 (Law of Total Probability)

표본공간 S에서 B의 확률을 구하고 싶다 할 때, 복잡한 B 사건을 작은 조각으로 나누어 각자의 확률을 구한 후 더하는 것이 좋다. 

이때 작은 조각이라는 것은 아래와 같이 \(A_1 ... A_n \) 로 분할(partition)한 것인데, 각각의 집합인 직사각형들이 서로소이고 모두의 합집합이 S가 됨을 말한다.

\[ P(B) = P(A_1 \cap B) + P(A_2 \cap B) + \dots + P(A_n \cap B) \] \[ = P(B \mid A_1) \cdot P(A_1) + P(B \mid A_2) \cdot P(A_2) + \dots + P(B \mid A_n) \cdot P(A_n) \]

 

조건부 확률은 어떠한 단서가 있을 때 이 단서를 기반으로 확률을 갱신할 수 있으며, 비조건부 확률이 필요하더라도 그 계산을 작은 조각들로 쪼개기 위해 필요하다.

 

예제 1: 52장 카드 중 임의로 2장을 뽑았을 때, 서로 다른 조건부 확률을 계산해 보자.

1. 하나의 카드가 A(Ace)라고 주어졌을 때, 두 카드 모두 A일 확률 = P(두 장 다 에이스 | 에이스를 뽑음)

\[ P(\text{두 장 다 A} \mid \text{적어도 한 장이 A}) = 
\frac{\binom{4}{2} / \binom{52}{2}}{1 - \binom{48}{2} / \binom{52}{2}} = \frac{1}{33} \]

조건부 확률의 정의에 따라, 분자는 "두 장 모두 에이스일 확률", 분모는 "한 장 이상이 에이스일 확률"이 된다. 이때 "한 장 이상이 에이스일 확률"은 전체 경우에서 "두 장 모두 에이스가 아닌 경우"를 뺀 것으로 계산한다.

 

2. 두 카드 모두 A인데, 이미 하나의 카드가 스페이드 A라고 주어졌을 때 확률 = P(두 장 다 에이스 | 스페이드 에이스를 뽑음)

\[ P(\text{두 장 모두 A} \mid \text{한 장은 스페이드 A}) = \frac{3}{51} \]

카드의 순서에 대한 언급은 없으므로, 두 장 중 하나가 스페이드 A인 것은 확정이다. 나머지 한 장이 또 다른 A인 확률을 계산해야 하는데, 남은 A는 3장(하트 A, 다이아 A, 클로버 A)이다. 이는 51장의 카드 중 하나이며 그중 3장이 A이므로 무작위로 선택될 때, symmetry에 의해 에이스일 확률은 3/51이다.

 

두 경우 모두 두 장의 카드가 모두 에이스일 확률을 묻지만, 주어진 조건이 다르기 때문에 확률이 달라진다. 하나는 단순히 ‘어느 한 장이 에이스’라는 막연한 정보만 주고, 다른 하나는 ‘스페이드 A’처럼 어떤 에이스인지까지 명확히 알려준다. 이처럼 조건이 구체적일수록 우리가 계산에 사용할 수 있는 정보가 많아지고, 가능성도 좁혀지기 때문에 확률이 더 높아진다.

 

예제 2: 인구의 1%가 걸리는 병이 있고, 이 병의 검사 결과가 '95%의 정확도를 갖고 있다'고 하자. 검사가 양성으로 나왔을 때, 실제로 이 병에 걸렸을 경우는?

  • D: 환자가 질병에 걸리는 사건
  • T: 검사 결과가 양성 반응을 나타낸 사건
  • P(D): 질병을 가진 인구 비율로, 0.01
  • 정확도 95%의 의미:
    • 민감도 (Sensitivity): \( P(T|D) \) = 0.95 (질병이 있을 때 양성일 확률)
    • 특이도 (Specificity): \( P(T^c|D^c) \) = 0.95 (질병이 없을 때 음성일 확률)
      • 따라서, \( P(T|D^c) \) = 1 - 0.95 = 0.05 (질병이 없는데도 양성인 확률)

환자가 검사 결과 양성일 때 실제로 질병이 있을 확률 P(D|T)를 구하는 것이 진짜 관심사이며, 이를 베이즈 정리를 통해 계산:

\[ P(D|T) = \frac{P(T|D)P(D)}{P(D)} = \frac{P(T|D)P(D)}{P(T|D)P(D) + P(T|D^c)P(D^c)} \]

 

결과, 양성일 때 실제 병에 걸렸을 확률은 약 16.1%에 불과하다. 즉, 검사가 틀리는 경우도 드물지만, 이 질병을 가지게 되는 경우도 드물다는 소리다. (실제 경우와 직관은 다르다)

즉, 베이즈 정리는 새로운 정보가 들어올 때마다 확률을 갱신해주며, 어떤 방식으로 계산하든 항상 같은 결론에 도달한다. 다만, 조건부 확률 해석의 실수는 주의해야 한다.

 

Biohazard (생물학적 위험요소)

조건부 확률을 잘못 해석하는 것을 말한다.

 

Biological hazard - Wikipedia

From Wikipedia, the free encyclopedia Biological material that poses serious risks to the health of living organisms The biohazard symbol A biological hazard, or biohazard, is a biological substance that poses a threat (or is a hazard) to the health of liv

en.wikipedia.org

 

1. 검사의 오류 (prosector's fallacy)

P(A|B)와 P(B|A)를 혼동하는 것.

 

Base rate fallacy - Wikipedia

From Wikipedia, the free encyclopedia Logic error due to ignoring the base rate A hospital receiving more vaccinated COVID-19 patients than unvaccinated ones might suggest that the vaccine is ineffective, but such an imbalance is to be expected within a hi

en.wikipedia.org

 

2. 사전확률(prior)과 사후확률(posterior)

P(A)와 P(A|B)를 혼동하는 것.

 

3. 독립(indep)과 조건부 독립(conditional indep)의 혼동

두 사건(A, B)이 C 사건의 조건 하에서 조건부 독립이라면:

\[ P(A \cap B \mid C) = P(A \mid C)P(B \mid C) \]

하지만 그냥 독립은:

\[ P(A \cap B) = P(A)P(B) \]

 

어떤 사건이 여러 원인 중 하나로 발생할 수 있는 상황에서는, 단순히 결과만 보고 원인을 추정하는 데 주의가 필요하다. 예를 들어 화재 경보가 울리는 상황에서, 그 원인이 반드시 불일 거라고 생각하면 P(불∣경보)=1이 되지만, 실제로는 전기 과열이나 오작동 같은 다른 원인도 있을 수 있다. 이처럼 여러 원인이 존재하는 경우, 원인을 특정하지 않은 채 조건부 확률을 계산하면 오해가 생기며, 조건부 독립이 성립하지 않을 수 있다.

또한, 사건 A와 B가 전체적으로 독립이라고 하더라도, 어떤 조건 C가 주어지면 그 조건 하에서는 A와 B 사이에 새로운 관계가 생길 수 있다. 즉, 독립이라고 해서 항상 조건부 독립이 성립하는 것은 아니다.