
Regression Analysis 회귀분석
statistical technique for modeling and investigating the relationship between two or more variables
연속형 변수들에 대해 독립 변수와 종속 변수 사이의 상관관계를 나타내는 것이 회귀분석이다
그중에서 단순 회귀 분석은
독립 변수가 한개 일 때의 분석을 의미한다
그렇다면 독립변수와 종속변수는 무얼 의미할까?
👉독립변수(independent variable)는 종속변수에 영향을 미치는 변수로 predictor variable이라고도 한다
👉종속변수(dependent variable)는 분석의 대상이 되는 변수로 response variable이라고도 불린다
단순회귀분석에서의 x 와 y의 관계식은

β0 :선형회귀식의 절편
β1 : 선형회귀식의 기울기
ε : 오차항
이때 오차항은 독립적이며 정규분포의 형태를 이루며 평균은 0이고 표준편차는 𝜎이다
오차항이 확률변수random variable이므로 y도 동일하게 확률변수가 돠고 정규분포를 따르게 될 것이다
β0 + β1x 자체는 deterministic한 변수이므로 오차항에 따라 y의 정규분포가 결정된다
・ E(ε) =0 이므로 E(y) = E(β0 + β1x) = β0 + β1x ・ Std(ε) = 𝜎이므로 Std(y)도 𝜎가 된다
정확한 모델을 예측하기 위해서는 내가 관측한 값과 예측한 값의 차가 최소가 되도록 해야한다

두 값의 차는 잔차(residual)이라고 하며, 두 차이가 음수일 수 있기 때문에 값을 제곱해서 값을 구한다
이를 Least square method 최소자승법이라고 한다
그렇다면 잔차제곱의 합을 가장 최소로 하는 b0와 b1의 값은 어떻게 구하면 될까?
b0과 b1에 대해 partial derivative 편미분을 통해 값을 구하면 된다😊
위 식들을 다시 깔끔하게 정리하면 아래와 같이 만들 수 있다

이와 같은 식을 정규 방정식(normal equation)이라고 하며 이 방정식을 통해 b0와 b1의 값을 산출할 수 있다
정리해보자면 회귀계수의 추정은 위와 같이 나온다!
#datascience #추정회귀 #단순회귀분석 #잔차 #선형회귀함수의추정 #확률분포 #선형회귀모형 #대학생 #공부
'Data Science > statistics' 카테고리의 다른 글
[데이터 분석] 일원분산분석 Tukey's procedure (0) | 2022.04.21 |
---|---|
[데이터 분석] 일원분산 분석_one way ANOVA (0) | 2022.04.21 |
[데이터분석] 다중회귀분석Multiple linear regression (0) | 2022.04.21 |
[데이터 분석] 단순회귀모델 추정_model inference (0) | 2022.04.04 |
[데이터분석] 통계 기초 정리_확률변수,모집단,표본,가설검정 (0) | 2022.04.01 |