데이터eng 2015. 12. 30. 23:38

조건부확률로 부터 도출되는 bayes rule이다. 그래서 조건부확률과 약간의 확률함수들의 정리ㄱㅏ 필요하다.

결합확률의  product rule 에 의해서 아래가 도출된다.

여기서 이산확률변수의 조건부확률(conditional PMF) 정의는 아래와 같다.

즉 확률변수 X 가 x이고, Y가 y를 갖을 확률을 구하면 결합 확률질량함수(joint pmf) 가 분자, x의 주변확률(marginal) 이 분모가 된다.

이것을 약간 정리해보면 아래와 같은 식을 얻을 수 있는데 보통 product rule이라고 한다.


그래서 우리는 위의 product rule을 이용하여 아래와 같은 bayes rule을 정리할 수 있다.

이 정리는 데이터로(x)부터 확인가능한 확률을 기반으로  추론(y)이 가능하게 한다는 점이다. (확률을 계산가능하게 된다)

사후 확률은 (우도(likelihood) x 사전확률) 로 구해진다는 것이다. 


계산해보기

암검사의 양성 진단확률과 , 실제 암확진을 받는 케이스를 생각해보자.

실제 유방암에서 확진을 받을 확률은?

X = 암검사 양성 진단, Y = 유방암 확진

가정 

p(x=1|y=1) = 0.8  <=  유방암 확진을 받은 경우 암검사에서 양성 진단을 받을 확률 ( 우리가 알 수 있는 확률)

그럼 환자가 진단 양성을 받았을 때 유방암 확진의 확률은 80% 인가? 

아니다. (이런 것을 base rate fallacy 라고 한다)

여기에 bayes rule 을 적용시켜서 볼 수 있다. 사전 (특정 사건이 일어나기 전의, 여기서는 진단 양성확률, 암환자의 확률)의 확률을 이용하여 사후(암확진)의 확률을 계산해내는것이다.

확률을 구하는 것이다.

위에서 말한 것처럼 두가지 정보가 더 필요하다.

1. 사전확률 (prior) : p(Y=1) = 0.004 (암환자일 확률)

2. false positive rate : p(X=1 | Y=0) = 0.1 ( 암환자가 아닌데도 양성진단을 받을 확률) = 0.1



 

결국 우리가 구해야하는 것은 p(Y=1|X=1) 의 확률이다.



p(Y=0) = 암환자가 아닐 확률이니 prior에서 빼서 알 수 잇다. x-0.004 = P(Y=0) 0.996

p(x=1|y=1) = 0.8 

P(Y=1) = 0.004

p(X=1 | Y=0) = 0.1 

결국 암진단에서 양성을 받고 확진이 될 확률은 0.031 (3%정도) 가 되는 것이다.













//