summ의 블로그

범주형 변수와 수치형 변수 분석 본문

파이썬

범주형 변수와 수치형 변수 분석

summ._ 2024. 9. 13. 02:16

240912

용어 정리 

  • 표준 오차: 표준편차를 루트 n으로 나눈 것 
  • 범위 max - min 
  • 사분위범위 IQR = Q3 - Q1
  • 중심극한 정리: 표본이 충분히 클수록 근사적으로 정규성을 가짐 --> 정규분포로 문제 풀이 가능 
  • 신뢰구간: 전체 신뢰구간의 95%는 모평균을 포함할 것으로 해석해야 함

 

범주형 변수와 수치형 변수 분석 

 

t test

  • 두 변수의 평균을 비교하고 싶을 때 사용
  • 검정 순서:

1. 정규성 검사 Shapiro-Wilk test 유의확률 pvalue 0.05 이상이면 정규성 가정

2. 분산 동질성 검사 Levene's test 유의확률 pvalue 0.05 이상이면 분산 동질성 가정 

3. t test 

 

  • 정규성을 만족하고, 분산이 동일하면 Student’s t-test (equal_var=True)
  • 분산이 동일하지 않으면 Welch's t-test (equal_var=False)

default: student t test 

 

데이터에 NaN이 있으면 계산이 안되기에 미리 검사하기. 

시각화

 

생존 여부 별 나이차이 없음 / 있음 

성별 별 요금 차이 없음 / 있음 

spst.ttest_ind(df.Age[df.Survived==0], df.Age[df.Survived==1])
spst.ttest_ind(df.Fare[df['Sex']=='male'], df.Fare[df['Sex']=='female'])

 

 

 

anova

  • 세 개 이상의 집단의 평균 비교
  • 집단 간 분산 / 집단 내 분산 
  • oneway 하나의 독립 변수 또는 요인 twoway 두개의 독립변수 또는 요인, 상호작용
  • 사후분석 필수

P_1 = df.Age[df.Pclass == 1]
P_2 = df.Age[df.Pclass == 2]
P_3 = df.Age[df.Pclass == 3] 

spst.f_oneway(P_1, P_2, P_3)

 

F_onewayResult(statistic=57.443484340676214, pvalue=7.487984171959904e-24)

 

f 통계량 57.44 유의확률 7.49e-24 귀무가설 기각할 수 없음. 대립가설: 적어도 하나의 모평균은 다르다 채택

'파이썬' 카테고리의 다른 글

파이썬 기초와 웹 크롤링 기초  (0) 2024.09.19
이변량분석 범주형 변수  (0) 2024.09.13
수치형변수 이변량분석  (0) 2024.09.12
[Python] 왕기초 (4)  (0) 2024.09.10
[Python] 왕기초 (3)  (0) 2024.09.10