summ의 블로그

수치형변수 이변량분석 본문

파이썬

수치형변수 이변량분석

summ._ 2024. 9. 12. 01:36

240911

통계적 추론

크게 두 분류

점추정 / 구간 추정(흔히 말하는 신뢰구간) 

 

모수에 관한 주장인 가설 이 존재하며

주어진 가설을 표본 자료로부터 얻은 정보를 통해 검정하는 과정을 통계적 가설검정

 

 

가설 검정 

 

모집단: 전수 조사한 데이터 (내가 알고자 하는 항목의 모든 데이터)

표본: 모집단 전체를 알 수 없기에 전체 모집단의 일부만 가져오는 것을 뜻함. 

 

우리가 사용하는 데이터는 모두 표본임

 

 

가설검정이란?

 

가설을 세워 우리의 표본이 모집단을 대표할 수 있는지 확인하는 과정 

 

분포가 중요한 이유

우리가 세운 가설이 맞는지 아닌지를 데이터를 갖고 판단하기에 데이터의 유형을 나타낸 데이터 분포도가 중요.

 

보통 x는 독립변수 feature y는 종속변수 반응변수 label 로 불림 

 

 

귀무가설과 대립가설 

 

귀무가설은 영가설이라고도 하며 H0 / 대립가설은 H1로 표기하기로 함

 

귀무가설: 본래의 데이터에 관해 알려진 바. 보편적인 사실

대립가설: 내가 데이터에 대해 주장하고자 하는 것

 

 

가설의 타당성을 판단할 때

 

유의수준: a (alpha) 보통 0.05 나 0.01을 많이 사용함 

*유의수준과 유의확률을 비교하여 **유의확률이 유의수준보다 작으면 귀무가설 기각

**유의확률 귀무가설이 참일 때, 관측된 통계량이 나올 확률

 

 

가설 검정 메커니즘 

 

1. 귀무가설과 대립가설의 설정 ==> 가설 설정 
2. 귀무가설 하에서 데이터나 통계량의 성질, 확률분포를 이해 => 검정 통계량 설정 
3. 귀무가설 하에서 모순이 되는 통계량 값인지 확인. 

(ex. 정규분포 문제라면, 데이터를 통해 검정통계량 값을 구해서 정규분포표에서 검정통계량을 이용하여 유의확률 선정)

4. 가설 채택

모순되는 통계량 존재 == 귀무가설 틀림 => 귀무가설 기각 => 대립가설 채택 
모순되는 통계량 없음 == 가정이 틀렸다는 증거 없음 => 귀무가설을 기각하지 못함 

 

 

검정 분류

 

1. 양측 검정

ex x y 차이가 있다 / 없다 

 

2. 단측 검정 

ex x 가 y보다 크거나 같다 / 작다 

 

 

검정통계량 

 

여기선 크게 

t / 카이제곱 / f 

 

(카이제곱 / 카이제곱 : 카이제곱 비율로 나타낸 것 == f통계량 값)

 

 

 

 

상관관계 분석 

 

분석 전 데이터 전처리 과정 eda 필수 中 첫 단계 

변수 간 상관관계 분석 

 

상관계수 correlation 상관관계의 정도를 숫자로 표현

상관분석 anova analysis of variance 상관계수를 검정 

 

이전에 공분산이란? covariance 줄여서 cov

 

두 변수의 관계를 나타내는 양으로 방향과 크기를 알려줌

  • 양수이면 두 변수가 같은 방향으로 움직이고, 음수이면 반대 방향
  • 두 확률변수가 독립이면 공분산 0

 

상관계수는 공분산을 두 변수의 표준편차로 나눈 값으로, 공분산의 크기를 표준화한 것

 

선형관계: 두 변수 간의 직선 관계 존재

모집단 상관계수 ρ 'rho 로우'라고 부름

표본 상관계수 r  

 

  • : 두 변수는 완벽하게 양의 상관관계가 있음 (X가 증가하면 Y도 증가)
  • r=−1: 두 변수는 완벽하게 음의 상관관계가 있음 (X가 증가하면 Y는 감소)
  • r=0: 두 변수 사이에 상관관계가 없음

값이 클수록 (+-0.5 기준) 강한 변수끼리 상관관계가 존재

 

 

 

 

plot

 

산점도 scatter로 시각적 확인 가능 

plt.scatter(df['x'], df['y'])
plt.scatter(‘x’, ‘y’, data = df)
sns.scatterplot(‘x’, ‘y’, data = df)

 

한 번에 확인하는 방법

 

sns.pairplot(df)

 

 

corr 

 

df.corr()
spst.pearsonr(df['x'], df['y'])

 

*scipy - spst pearsonr 은 숫자여야지만 가능

 

 

*** corr 구하는 방법은 피어슨 스피어만 두 종류 있음. 위의 나온 상관계수 구하는 방법은 모두 피어슨 상관계수임

'파이썬' 카테고리의 다른 글

이변량분석 범주형 변수  (0) 2024.09.13
범주형 변수와 수치형 변수 분석  (0) 2024.09.13
[Python] 왕기초 (4)  (0) 2024.09.10
[Python] 왕기초 (3)  (0) 2024.09.10
[Python] 왕기초 (2)  (1) 2024.09.06