summ의 블로그

산점도와 상관분석 본문

회귀분석

산점도와 상관분석

summ._ 2023. 6. 28. 21:31

이변량 자료 / 산점도 / 이상치 / 모상관계수 / 표본상관계수 / 공분산 / 상관성 검정

 

 

용어 정리 

이변량 자료

두 개의 수치를 갖는 하나의 자료를 뜻한다. 

(xi, yi) i번째 개체에 대한 두 변수의 관측값 

 

 

상관관계 

 

일정한 수치로 계산되어 두 대상이 서로 관련성이 있다고 추측하는 것  

 

 

산점도 

 

이변량 자료를 2차원 좌표평면에 나타낸 그림이다. 

평일과 일요일 상관관계 분석

 

산점도를 이용하여 두 변수 간의 관계를 쉽게 파악할 수 있다. 주어진 산점도에서 (평일과 일요일) 두 변수는 양의 선형관계를 이루고 있다는 사실이 파악 가능하다.

선형 관계는 양의 선형관계, 음의 선형관계, 직선이 아닌 관계, 선형관계가 없을 수 있다. 

 

 

이상치 (= 극단치)

 

데이터의 범위에서 크게 동떨어진 값을 의미하며, 특정 그룹에 속하지 않는다. 

산점도에서 확인 가능하며, 이상치를 포함한 채로 회귀분석 등 데이터 분석을 한다면 분석 결과를 왜곡할 가능성이 높아진다. 

 

 

군집

 

데이터들의 모임이라고 보면 된다. 일종의 그룹 

 

 

상관계수와 공분산 

 

상관계수: 두 변수의 상관관계의 정도를 나타내는 수치. -1 ~ 1 사이의 값을 가진다. 

                --> 확률변수를 표준화하여 구한 공분산 = 공분산으로부터 유도됨

 

 

 

 

 

 

공분산: 두 변수의 관계를 나타내는 양. 두 변수가 함께 변하는 정도를 뜻한다. 증가/ 감소/ 관계 없음

 

 

 

모상관계수 ρ

 

       

모집단으로부터 상관관계를 구할 때 사용한다. 

 

 

표본상관계수 

 

피어슨 상관계수라고도 불리운다.

모상관계수에 대한 추정량으로  두 변수 X,Y의 표본상관계수는 두 변수의 공분산을 각각의 표준편차의 곱으로 나눈 값이다.

 

 

r > 0 양의 상관관계 

r < 0 음의 상관관계

r = 0 무상관관계 --> 상관관계가 존재하지 않는 것이지 함수관계, 인과관계가 없다는 뜻은 아니다. 

 

표본상관계수의 부호 = 표본공분산의 부호

--> 두 변수의 대략적인 관계 파악이 가능함. 

 

데이터에 이상점이 존재하거나, 두 변수의 관계가 비선형일 때는 값이 유용하지 않을 수 있기에 산점도를 같이 활용해야 함

 

 

상관성 검정

 

귀무가설: ρ = 0

대립가설: ρ ≠ 0 (상관관계가 존재)

 

t-검정 통계량을 이용하여 유의확률이 작을수록 상관관계가 강하게 있다고 판단 

 

 

 

 

 

r에서 공분산과 상관계수는 cov, cor 을 이용하여 구할 수 있다. 

 

 

 

/* 틀린것이 있다면, 댓글을 남겨주세요 :)

출처: 예제를 통한 회귀분석

*/

'회귀분석' 카테고리의 다른 글

최소제곱직선  (0) 2023.09.14
회귀분석이란?  (0) 2023.06.28