Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- 행사다리꼴
- 조건부확률
- 이변량자료
- 통계학입문
- 연속확률변수
- 수학적확률
- 통계학개론
- 포아송분포
- 누적분포함수
- 모평균
- 균일분포
- 첨가행렬
- 절삭평균
- 수치형자료
- 이산형
- 확률밀도함수
- 모수
- 이산확률질량함수
- 이항분포
- 표본평균
- Anaconda
- 기댓값과 분산
- 표본공간
- 피어슨상관계수
- pmf
- 범주형자료
- 기본행연산
- 사조사
- 베르누이분포
- jupyter notebook
Archives
- Today
- Total
Syeonny의 블로그
범주형 변수와 수치형 변수 분석 본문
240912
용어 정리
- 표준 오차: 표준편차를 루트 n으로 나눈 것
- 범위 max - min
- 사분위범위 IQR = Q3 - Q1
- 중심극한 정리: 표본이 충분히 클수록 근사적으로 정규성을 가짐 --> 정규분포로 문제 풀이 가능
- 신뢰구간: 전체 신뢰구간의 95%는 모평균을 포함할 것으로 해석해야 함
범주형 변수와 수치형 변수 분석
t test
- 두 변수의 평균을 비교하고 싶을 때 사용
- 검정 순서:
1. 정규성 검사 Shapiro-Wilk test 유의확률 pvalue 0.05 이상이면 정규성 가정
2. 분산 동질성 검사 Levene's test 유의확률 pvalue 0.05 이상이면 분산 동질성 가정
3. t test
- 정규성을 만족하고, 분산이 동일하면 Student’s t-test (equal_var=True)
- 분산이 동일하지 않으면 Welch's t-test (equal_var=False)
default: student t test
데이터에 NaN이 있으면 계산이 안되기에 미리 검사하기.
생존 여부 별 나이차이 없음 / 있음
성별 별 요금 차이 없음 / 있음
spst.ttest_ind(df.Age[df.Survived==0], df.Age[df.Survived==1])
spst.ttest_ind(df.Fare[df['Sex']=='male'], df.Fare[df['Sex']=='female'])
anova
- 세 개 이상의 집단의 평균 비교
- 집단 간 분산 / 집단 내 분산
- oneway 하나의 독립 변수 또는 요인 twoway 두개의 독립변수 또는 요인, 상호작용
- 사후분석 필수
P_1 = df.Age[df.Pclass == 1]
P_2 = df.Age[df.Pclass == 2]
P_3 = df.Age[df.Pclass == 3]
spst.f_oneway(P_1, P_2, P_3)
F_onewayResult(statistic=57.443484340676214, pvalue=7.487984171959904e-24)
f 통계량 57.44 유의확률 7.49e-24 귀무가설 기각할 수 없음. 대립가설: 적어도 하나의 모평균은 다르다 채택
'파이썬' 카테고리의 다른 글
파이썬 기초와 웹 크롤링 기초 (0) | 2024.09.19 |
---|---|
이변량분석 범주형 변수 (0) | 2024.09.13 |
수치형변수 이변량분석 (0) | 2024.09.12 |
[Python] 왕기초 (4) (0) | 2024.09.10 |
[Python] 왕기초 (3) (0) | 2024.09.10 |