일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 기본행연산
- 행사다리꼴
- 모평균
- 연속확률변수
- jupyter notebook
- 확률밀도함수
- pmf
- Anaconda
- 이산확률질량함수
- 범주형자료
- 포아송분포
- 첨가행렬
- 수치형자료
- 수학적확률
- 표본평균
- 기댓값과 분산
- 베르누이분포
- 모수
- 이산형
- 조건부확률
- 누적분포함수
- 피어슨상관계수
- 이항분포
- 절삭평균
- 이변량자료
- 사조사
- 통계학입문
- 통계학개론
- 표본공간
- 균일분포
- Today
- Total
summ의 블로그
산점도와 상관분석 본문
이변량 자료 / 산점도 / 이상치 / 모상관계수 / 표본상관계수 / 공분산 / 상관성 검정
용어 정리
이변량 자료
두 개의 수치를 갖는 하나의 자료를 뜻한다.
(xi, yi) i번째 개체에 대한 두 변수의 관측값
상관관계
일정한 수치로 계산되어 두 대상이 서로 관련성이 있다고 추측하는 것
산점도
이변량 자료를 2차원 좌표평면에 나타낸 그림이다.
산점도를 이용하여 두 변수 간의 관계를 쉽게 파악할 수 있다. 주어진 산점도에서 (평일과 일요일) 두 변수는 양의 선형관계를 이루고 있다는 사실이 파악 가능하다.
선형 관계는 양의 선형관계, 음의 선형관계, 직선이 아닌 관계, 선형관계가 없을 수 있다.
이상치 (= 극단치)
데이터의 범위에서 크게 동떨어진 값을 의미하며, 특정 그룹에 속하지 않는다.
산점도에서 확인 가능하며, 이상치를 포함한 채로 회귀분석 등 데이터 분석을 한다면 분석 결과를 왜곡할 가능성이 높아진다.
군집
데이터들의 모임이라고 보면 된다. 일종의 그룹
상관계수와 공분산
상관계수: 두 변수의 상관관계의 정도를 나타내는 수치. -1 ~ 1 사이의 값을 가진다.
--> 확률변수를 표준화하여 구한 공분산 = 공분산으로부터 유도됨
공분산: 두 변수의 관계를 나타내는 양. 두 변수가 함께 변하는 정도를 뜻한다. 증가/ 감소/ 관계 없음
모상관계수 ρ
모집단으로부터 상관관계를 구할 때 사용한다.
표본상관계수
피어슨 상관계수라고도 불리운다.
모상관계수에 대한 추정량으로 두 변수 X,Y의 표본상관계수는 두 변수의 공분산을 각각의 표준편차의 곱으로 나눈 값이다.
r > 0 양의 상관관계
r < 0 음의 상관관계
r = 0 무상관관계 --> 상관관계가 존재하지 않는 것이지 함수관계, 인과관계가 없다는 뜻은 아니다.
표본상관계수의 부호 = 표본공분산의 부호
--> 두 변수의 대략적인 관계 파악이 가능함.
데이터에 이상점이 존재하거나, 두 변수의 관계가 비선형일 때는 값이 유용하지 않을 수 있기에 산점도를 같이 활용해야 함
상관성 검정
귀무가설: ρ = 0
대립가설: ρ ≠ 0 (상관관계가 존재)
t-검정 통계량을 이용하여 유의확률이 작을수록 상관관계가 강하게 있다고 판단
r에서 공분산과 상관계수는 cov, cor 을 이용하여 구할 수 있다.
/* 틀린것이 있다면, 댓글을 남겨주세요 :)
출처: 예제를 통한 회귀분석
*/