코딩하는 애옹😸

(AI Math 8강) 베이즈 통계학 본문

부스트캠프 AI Tech 3기/Study

(AI Math 8강) 베이즈 통계학

DevYe 2022. 1. 20. 00:53
728x90
반응형

베이즈 통계학

데이터가 새로 추가될 때 정보를 갱신하는 방식에 대한 방법론

조건부확률

  • $P(A|B)$ : 사건 B가 일어난 상황에서 사건 A가 발생할 확률

  • A라는 새로운 정보가 주어졌을 때 $P(B)$로부터 $P(B|A)$를 계산

예제

  • $D$ : 새로 관찰하는 데이터
  • $\theta$ : hypothesis , 모델링하는 이벤트, 모델에서 계산하고 싶어하는 parameter, 모수
  • 사후확률 : 데이터를 관찰했을 때 이 parameter가 성립할 확률, 데이터를 관찰한 이후에 측정한 확률
  • 사전확률 : 데이터가 주어지지 않은 상황에서 모델링을 하기 이전에 $\theta$에 대해 주어진 확률
  • 사전확률 > 데이터 관찰 > 사후확률
  • likelihood : 현재 주어진 상황/가정에서 이 데이터가 관찰될 확률
  • Evidence : 데이터 전체의 분포

 

COVID-99의 발병률이 10%로 알려져있다. COVID-99에 실제로 걸렸을 때 검진될 확률은 99%, 실제로 걸리지 않았을 때 오검진될 확률이 1%라고 할 때, 어떤 사람이 질병에 걸렸다고 검진결과가 나왔을 때 정말로 COVID-99에 감염되었을 확률은?

  • $P(\theta)$ : 0.1
  • $P(D|\theta)$ : 0.99
  • $P(D|~\theta)$ : 0.01
  • 주변분포 Marginal Distribution를 이용해서 $P(D)$ 구하기
    • $P(D|\theta)P(\theta)$ + $P(D|\sim\theta)P(\sim\theta)$ = 0.108
  • $P(\theta|D)$ = 0.1 * $\frac{0.99}{0.108}$ $\approx$ 0.916

  • 정밀도는 TP와 FP로 계산
    • FP가 작아지면 정밀도가 올라감

베이즈 정리를 통한 정보의 갱신

새로운 데이터가 들어왔을 때, 앞서 계산한 사후확률을 사전확률로 사용하여 갱신된 사후확률을 계산

  • 데이터를 새로 관찰할 때마다 $\theta$나 가설을 업데이트하는 형태로 모델링


조건부 확률로 인과관계(causality)를 추론할 때 주의를 갖고 사용해야 함

  • 조건부 확률만 갖고 인과관계를 추론하는 것은 불가능
  • 인과관계는 데이터 분포의 변화에 강건한 예측모형을 만들 때 필요
  • 인과관계를 알아내기 위해서 중첩요인(confounding factor)의 효과를 제거하고 원인에 해당하는 변수만의 인과관계를 계산해야 함
반응형

'부스트캠프 AI Tech 3기 > Study' 카테고리의 다른 글

(AI Math 10강) RNN  (0) 2022.01.21
(AI Math 9강) CNN  (0) 2022.01.21
(AI Math 7강) 통계학 맛보기  (0) 2022.01.20
(AI Math 6강) 확률론 맛보기  (0) 2022.01.18
(AI Math 5강) 딥러닝 학습방법 이해하기  (0) 2022.01.18
Comments