summ의 블로그

회귀분석 본문

통계학개론

회귀분석

summ._ 2023. 9. 1. 16:09

단순선형회귀분석 | 최소제곱법 | 결정계수 

 

 

회귀분석 

 

회귀분석이란?

둘 이상의 변수의 함수 관계식을 구하여 평가하는 통계적 분석 방법이다. 

독립변수와 종속변수 간의 관계를 알아보는 것이다. 

 

이때

독립변수란? 

독립적이며, 종속변수의 원인이 되는 변수이다. 설명변수라고도 불린다. 

 

종속변수란? 

독립변수에 '종속'되는 변수로 독립변수에 영향을 받아 변하는 변수이다. 반응변수라고도 불린다. 

 

독립변수의 개수에 따라 회귀분석 방법이 다르다. 

 

 단순선형회귀분석 

 

단순선형회귀분석은 종속변수의 변동을 하나의 독립변수의 변동으로 설명가능한 회귀분석이다. 

 

단순선형회귀분석의 절차 

 

1. 독립변수와 종속변수의 설정 

2. 산점도 그리기 

3. 단순선형회귀모형 세우기

4. 단순선형회귀모형 추정: 최소제곱법 

5. 회귀모형 진단: 잔차분석

6. 회귀모형의 유의성에 대한 추론: 회귀계수와 분산분석 

 

 

단순선형회귀모형 

 

단순선형회귀모형의 기본모형은 다음과 같다. 

데이터로 추정한 상수, 즉 미지의 모수를 회귀계수라고 한다.

위의 모형식에서 B0 B1은 회귀계수이다. 

B0 는 절편 혹은 상수항이며,  B1 은 기울기로 x값이 1만큼 증가할 때 나타나는 종속변수의 평균변화랑이다.  

 

관측치와 모회귀선과의 편차를 오차항 ε 이라고 한다. 이는 확률변수로 관측이 불가하다.

오차항은 서로 독립이고 평균이 0이고 분산이 시그마제곱 σ**2 인 정규분포 ~ N(0,σ**2) 를 따른다. 

오차항의 가정은 다음과 같다. 

 

이렇게 단순선형회귀모형은 종속변수 = 설명변수에 대한 일차식 + 오차항 으로 나타낸다. 

 

 

최소제곱법 

 

단순선형회귀모형은 회귀계수에 의해 결정되기에 이들의 모수를 추정하는 문제이다. 

따라서 변수를 설명하기 위해 설정한 직선과 변수의 차이(=잔차)가 가장 작은 직선이 단순선형회귀모형이며, 이는 변수에 가장 가까운 직선을 찾을 때 잔차의 제곱합이 최소가 되는 회귀계수를 설정하는 것이다. 

이러한 방법을 최소제곱법이라고 부른다. 

 

단순선형회귀모형의 최소제곱추정값은 다음과 같다. 

 

 

 

 

보통 모회귀직선을 Y=B0+B1X 라고 정의하며, 회귀계수에 대한 최소제곱추정값을 이용하여 구한 직선을 최소제곱회귀직선이라고 한다. 

 

회귀직선

 

추정된 회귀직선과 발생 가능한 편차를 나타내면 다음과 같다. 

 

 

 

- 총제곱합 SST sum of squares total 

종속변수의 전체 변동 값 

총 편차 = 적합값의 편차 + 잔차 

 

- 회귀제곱합 SSR sum of squares due to regression 

추정된 회귀직선으로 설명 가능한 변동 

적합값의 편차 = 회귀선에 의해 설명되는 편차 

 

- 잔차제곱합 SSE residual sum of sqsuares 

추정된 회귀직선으로 설명 못하는 변동 

잔차 = 점과 직선의 차이 

 

식은 SST = SSR + SSE 로 나타낼 수 있다. 

 

 

 

결정계수 

 

결정계수란? 

반응변수 Y의 전체 변동 중에서 설명변수 X에 의해 설명되는 비율로 SST와 SSR를 이용하여 나타낸다. 

종속변수의 총 변동 중 추정된 회귀직선으로 설명 가능한 변동이 차지하는 비율로 해석할 수 있다. 

 

만약, 결정계수 값이 0.85라면 종속변수의 총 변동 중 약 85%를 추정된 회귀직선으로 설명할 수 있다고 해석하면 된다. 

0~1 사이의 값을 가지며 1에 가까울수록 추정된 회귀직선이 자료를 잘 설명하는 것으로 평가한다. 

 

 

*수정된 결정계수 

 

최소제곱추정량 

 

회귀계수 B0 hat 의 평균은 B0이고 분산은 σ**2 (1/n+x bar **2 / Sxx) 이다.

B1 hat 의 평균은 B1 이고 분산은 σ**2 / Sxx 이다.

 

- MSR 

SSR / 1

 

- MSE

SSE / n-2

따라서 t검정통계량을 사용할 수 있다. 

 

 

 

단순선형회귀모형의 분산분석 

 

단순선형회귀모형의 적합성 검정에서 고려하는 검정은 다음과 같다. 

 

변동 요인  자유도 제곱합 평균제곱합 F
회귀 1 SSR MSR MSR / MSE
잔차 n-2 SSE MSE  
n-1 SST    

 

 

 

 

*r 해석 

B0 : 41.93015 B1: 0.69965 회귀계수의 값은 유의함. 

결정계수: 0.58. 종속변수의 총 변동 중 약 58%를 추정된 회귀직선으로 설명할 수 있음 

F값 유의함 2.2e-16

 

 

 

 

 

/* 틀린 것이 있다면, 댓글을 남겨주세요

출처: 4판 통계학입문 [이해와 응용

*/

  

'통계학개론' 카테고리의 다른 글

분산분석  (0) 2023.08.31
모수의 비교 - 모분산과 모비율  (0) 2023.08.30
모수의 비교 - 모평균  (0) 2023.08.29
모평균, 모비율, 모분산의 가설검정  (2) 2023.08.28
가설검정  (0) 2023.08.28