선형회귀를 통한 최적의 해(직선)을 구하는 과정,
종속변수와, 독립변수의 상관관계를 찾는 분석방법
회귀란 선형모델에서 선형인 직선 모델을 만들어주는 것을 뜻한다. 특히 기존 데이터에서 발견되는 상관관계를 찾아 들어오는 미래의 데이터에 대한 prediction을 한다. 특정 변화에 대한 값 예측등을 할 수 있다.
막상 해보니 아주 정확하게 맞춘다기보다 (물론 데이터 모델이 아주 선형적으로 이루어지고 있다면 가능하겠지만) 특정 오차범위를 감안해서 볼 수 있을 듯 하다.
y = 결과값
x = 입력값
b0 = intercept
b1 = 입력값에 대한 coefficient
파란선의 모델을 최적화 시키는 것이 목표이다. 위에 파란 선을 회귀선(모델)이라고 한다.
빨간선은 만들어진 모델과 실제 특징데이터의 차이(거리)를 말하는데, 이것을 잔차(residual)이라하고 제곱 합이 최소화 되도록 한다.
이런것을 최소제곱추정법이라고 하고, 잔차제곱합(residual sum of squares) 을 구한다고 한다.
B1은 기울기라고 보면 될 듯 하다.
그런데 이렇게 구해진 예측모델에서 나오는 값을 신뢰할 수 있을가?
b1 = 3(coefficient) , b0=2(intercept) => y = 3x+2
위와 같이 모델이 만들어졌고, x=3 이라고 했을 때 실제 데이터에서는 y=11 이라는 값 하나가 아니라는 것이다.
실제 데이터는 다른 값이 관측 되어질 수 있다. 그 종속변수에 대해서는 변동성이 있는 것이다.
이 모델은 추이를 나타내는 것이고, 변이에 대해서는 나타내고 있지 않다.
그래서 이런 부분을 보완하기 위해 아래의 세가지 방안을 해볼 수 있다.
1. 오차에 대한 가정을 모델에 적용
2. 더 많은 예측변수 추가
3. 예측 변수의 변환
'데이터eng' 카테고리의 다른 글
softmax, cross_entropy 에 대하여 (0) | 2016.06.05 |
---|---|
sigmoid 함수 미분 과정 (1) | 2016.05.29 |
[라그랑제 승수]조건부 최적화 문제 풀기 (0) | 2016.01.12 |
MLE(최우도 추정)에 관해 (0) | 2015.12.31 |
bayes rule (0) | 2015.12.30 |