수치형변수 이변량분석

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

Syeonny의 블로그

수치형변수 이변량분석 본문

파이썬

수치형변수 이변량분석

syeonny 2024. 9. 12. 01:36

240911

통계적 추론

크게 두 분류

점추정 / 구간 추정(흔히 말하는 신뢰구간)

모수에 관한 주장인 가설 이 존재하며

주어진 가설을 표본 자료로부터 얻은 정보를 통해 검정하는 과정을 통계적 가설검정

가설 검정

모집단: 전수 조사한 데이터 (내가 알고자 하는 항목의 모든 데이터)

표본: 모집단 전체를 알 수 없기에 전체 모집단의 일부만 가져오는 것을 뜻함.

우리가 사용하는 데이터는 모두 표본임

가설검정이란?

가설을 세워 우리의 표본이 모집단을 대표할 수 있는지 확인하는 과정

분포가 중요한 이유

우리가 세운 가설이 맞는지 아닌지를 데이터를 갖고 판단하기에 데이터의 유형을 나타낸 데이터 분포도가 중요.

보통 x는 독립변수 feature y는 종속변수 반응변수 label 로 불림

귀무가설과 대립가설

귀무가설은 영가설이라고도 하며 H0 / 대립가설은 H1로 표기하기로 함

귀무가설: 본래의 데이터에 관해 알려진 바. 보편적인 사실

대립가설: 내가 데이터에 대해 주장하고자 하는 것

가설의 타당성을 판단할 때

유의수준: a (alpha) 보통 0.05 나 0.01을 많이 사용함

*유의수준과 유의확률을 비교하여 **유의확률이 유의수준보다 작으면 귀무가설 기각

**유의확률 귀무가설이 참일 때, 관측된 통계량이 나올 확률

가설 검정 메커니즘

1. 귀무가설과 대립가설의 설정 ==> 가설 설정
2. 귀무가설 하에서 데이터나 통계량의 성질, 확률분포를 이해 => 검정 통계량 설정
3. 귀무가설 하에서 모순이 되는 통계량 값인지 확인.

(ex. 정규분포 문제라면, 데이터를 통해 검정통계량 값을 구해서 정규분포표에서 검정통계량을 이용하여 유의확률 선정)

4. 가설 채택

모순되는 통계량 존재 == 귀무가설 틀림 => 귀무가설 기각 => 대립가설 채택
모순되는 통계량 없음 == 가정이 틀렸다는 증거 없음 => 귀무가설을 기각하지 못함

검정 분류

1. 양측 검정

ex x y 차이가 있다 / 없다

2. 단측 검정

ex x 가 y보다 크거나 같다 / 작다

검정통계량

여기선 크게

t / 카이제곱 / f

(카이제곱 / 카이제곱 : 카이제곱 비율로 나타낸 것 == f통계량 값)

상관관계 분석

분석 전 데이터 전처리 과정 eda 필수 中 첫 단계

변수 간 상관관계 분석

상관계수 correlation 상관관계의 정도를 숫자로 표현

상관분석 anova analysis of variance 상관계수를 검정

이전에 공분산이란? covariance 줄여서 cov

두 변수의 관계를 나타내는 양으로 방향과 크기를 알려줌

양수이면 두 변수가 같은 방향으로 움직이고, 음수이면 반대 방향
두 확률변수가 독립이면 공분산 0

상관계수는 공분산을 두 변수의 표준편차로 나눈 값으로, 공분산의 크기를 표준화한 것

선형관계: 두 변수 간의 직선 관계 존재

모집단 상관계수 ρ 'rho 로우'라고 부름

표본 상관계수 r

: 두 변수는 완벽하게 양의 상관관계가 있음 (X가 증가하면 Y도 증가)
r=−1: 두 변수는 완벽하게 음의 상관관계가 있음 (X가 증가하면 Y는 감소)
r=0: 두 변수 사이에 상관관계가 없음

값이 클수록 (+-0.5 기준) 강한 변수끼리 상관관계가 존재

plot

산점도 scatter로 시각적 확인 가능

plt.scatter(df['x'], df['y'])
plt.scatter(‘x’, ‘y’, data = df)
sns.scatterplot(‘x’, ‘y’, data = df)

한 번에 확인하는 방법

sns.pairplot(df)

corr

df.corr()
spst.pearsonr(df['x'], df['y'])

*scipy - spst pearsonr 은 숫자여야지만 가능

*** corr 구하는 방법은 피어슨 스피어만 두 종류 있음. 위의 나온 상관계수 구하는 방법은 모두 피어슨 상관계수임

저작자표시 비영리 변경금지 (새창열림)

'파이썬' 카테고리의 다른 글

이변량분석 범주형 변수 (0)	2024.09.13
범주형 변수와 수치형 변수 분석 (0)	2024.09.13
[Python] 왕기초 (4) (0)	2024.09.10
[Python] 왕기초 (3) (0)	2024.09.10
[Python] 왕기초 (2) (1)	2024.09.06

'파이썬' Related Articles

Syeonny의 블로그

수치형변수 이변량분석 본문

수치형변수 이변량분석

240911

'파이썬' 카테고리의 다른 글

티스토리툴바