조건부확률로 부터 도출되는 bayes rule이다. 그래서 조건부확률과 약간의 확률함수들의 정리ㄱㅏ 필요하다.
결합확률의 product rule 에 의해서 아래가 도출된다.
여기서 이산확률변수의 조건부확률(conditional PMF) 정의는 아래와 같다.
즉 확률변수 X 가 x이고, Y가 y를 갖을 확률을 구하면 결합 확률질량함수(joint pmf) 가 분자, x의 주변확률(marginal) 이 분모가 된다.
이것을 약간 정리해보면 아래와 같은 식을 얻을 수 있는데 보통 product rule이라고 한다.
그래서 우리는 위의 product rule을 이용하여 아래와 같은 bayes rule을 정리할 수 있다.
이 정리는 데이터로(x)부터 확인가능한 확률을 기반으로 추론(y)이 가능하게 한다는 점이다. (확률을 계산가능하게 된다)
사후 확률은 (우도(likelihood) x 사전확률) 로 구해진다는 것이다.
계산해보기
암검사의 양성 진단확률과 , 실제 암확진을 받는 케이스를 생각해보자.
실제 유방암에서 확진을 받을 확률은?
X = 암검사 양성 진단, Y = 유방암 확진
가정
p(x=1|y=1) = 0.8 <= 유방암 확진을 받은 경우 암검사에서 양성 진단을 받을 확률 ( 우리가 알 수 있는 확률)
그럼 환자가 진단 양성을 받았을 때 유방암 확진의 확률은 80% 인가?
아니다. (이런 것을 base rate fallacy 라고 한다)
여기에 bayes rule 을 적용시켜서 볼 수 있다. 사전 (특정 사건이 일어나기 전의, 여기서는 진단 양성확률, 암환자의 확률)의 확률을 이용하여 사후(암확진)의 확률을 계산해내는것이다.
확률을 구하는 것이다.
위에서 말한 것처럼 두가지 정보가 더 필요하다.
1. 사전확률 (prior) : p(Y=1) = 0.004 (암환자일 확률)
2. false positive rate : p(X=1 | Y=0) = 0.1 ( 암환자가 아닌데도 양성진단을 받을 확률) = 0.1
결국 우리가 구해야하는 것은 p(Y=1|X=1) 의 확률이다.
p(Y=0) = 암환자가 아닐 확률이니 prior에서 빼서 알 수 잇다. x-0.004 = P(Y=0) 0.996
p(x=1|y=1) = 0.8
P(Y=1) = 0.004
p(X=1 | Y=0) = 0.1
결국 암진단에서 양성을 받고 확진이 될 확률은 0.031 (3%정도) 가 되는 것이다.
'데이터eng' 카테고리의 다른 글
softmax, cross_entropy 에 대하여 (0) | 2016.06.05 |
---|---|
sigmoid 함수 미분 과정 (1) | 2016.05.29 |
[라그랑제 승수]조건부 최적화 문제 풀기 (0) | 2016.01.12 |
MLE(최우도 추정)에 관해 (0) | 2015.12.31 |
선형회귀 linear regression (0) | 2015.08.22 |