일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- jupyter notebook
- 통계학개론
- 포아송분포
- 행사다리꼴
- 이변량자료
- 통계학입문
- 이산확률질량함수
- 모수
- 표본공간
- 기본행연산
- pmf
- 수치형자료
- 수학적확률
- 이항분포
- 균일분포
- 범주형자료
- Anaconda
- 누적분포함수
- 기댓값과 분산
- 첨가행렬
- 조건부확률
- 표본평균
- 사조사
- 피어슨상관계수
- 베르누이분포
- 이산형
- 모평균
- 연속확률변수
- 절삭평균
- 확률밀도함수
- Today
- Total
Syeonny의 블로그
수치형변수 이변량분석 본문
240911
통계적 추론
크게 두 분류
점추정 / 구간 추정(흔히 말하는 신뢰구간)
모수에 관한 주장인 가설 이 존재하며
주어진 가설을 표본 자료로부터 얻은 정보를 통해 검정하는 과정을 통계적 가설검정
가설 검정
모집단: 전수 조사한 데이터 (내가 알고자 하는 항목의 모든 데이터)
표본: 모집단 전체를 알 수 없기에 전체 모집단의 일부만 가져오는 것을 뜻함.
우리가 사용하는 데이터는 모두 표본임
가설검정이란?
가설을 세워 우리의 표본이 모집단을 대표할 수 있는지 확인하는 과정
분포가 중요한 이유
우리가 세운 가설이 맞는지 아닌지를 데이터를 갖고 판단하기에 데이터의 유형을 나타낸 데이터 분포도가 중요.
보통 x는 독립변수 feature y는 종속변수 반응변수 label 로 불림
귀무가설과 대립가설
귀무가설은 영가설이라고도 하며 H0 / 대립가설은 H1로 표기하기로 함
귀무가설: 본래의 데이터에 관해 알려진 바. 보편적인 사실
대립가설: 내가 데이터에 대해 주장하고자 하는 것
가설의 타당성을 판단할 때
유의수준: a (alpha) 보통 0.05 나 0.01을 많이 사용함
*유의수준과 유의확률을 비교하여 **유의확률이 유의수준보다 작으면 귀무가설 기각
**유의확률 귀무가설이 참일 때, 관측된 통계량이 나올 확률
가설 검정 메커니즘
1. 귀무가설과 대립가설의 설정 ==> 가설 설정
2. 귀무가설 하에서 데이터나 통계량의 성질, 확률분포를 이해 => 검정 통계량 설정
3. 귀무가설 하에서 모순이 되는 통계량 값인지 확인.
(ex. 정규분포 문제라면, 데이터를 통해 검정통계량 값을 구해서 정규분포표에서 검정통계량을 이용하여 유의확률 선정)
4. 가설 채택
모순되는 통계량 존재 == 귀무가설 틀림 => 귀무가설 기각 => 대립가설 채택
모순되는 통계량 없음 == 가정이 틀렸다는 증거 없음 => 귀무가설을 기각하지 못함
검정 분류
1. 양측 검정
ex x y 차이가 있다 / 없다
2. 단측 검정
ex x 가 y보다 크거나 같다 / 작다
검정통계량
여기선 크게
t / 카이제곱 / f
(카이제곱 / 카이제곱 : 카이제곱 비율로 나타낸 것 == f통계량 값)
상관관계 분석
분석 전 데이터 전처리 과정 eda 필수 中 첫 단계
변수 간 상관관계 분석
상관계수 correlation 상관관계의 정도를 숫자로 표현
상관분석 anova analysis of variance 상관계수를 검정
이전에 공분산이란? covariance 줄여서 cov
두 변수의 관계를 나타내는 양으로 방향과 크기를 알려줌
- 양수이면 두 변수가 같은 방향으로 움직이고, 음수이면 반대 방향
- 두 확률변수가 독립이면 공분산 0
상관계수는 공분산을 두 변수의 표준편차로 나눈 값으로, 공분산의 크기를 표준화한 것
선형관계: 두 변수 간의 직선 관계 존재
모집단 상관계수 ρ 'rho 로우'라고 부름
표본 상관계수 r
- : 두 변수는 완벽하게 양의 상관관계가 있음 (X가 증가하면 Y도 증가)
- r=−1: 두 변수는 완벽하게 음의 상관관계가 있음 (X가 증가하면 Y는 감소)
- r=0: 두 변수 사이에 상관관계가 없음
값이 클수록 (+-0.5 기준) 강한 변수끼리 상관관계가 존재
plot
산점도 scatter로 시각적 확인 가능
plt.scatter(df['x'], df['y'])
plt.scatter(‘x’, ‘y’, data = df)
sns.scatterplot(‘x’, ‘y’, data = df)
한 번에 확인하는 방법
sns.pairplot(df)
corr
df.corr()
spst.pearsonr(df['x'], df['y'])
*scipy - spst pearsonr 은 숫자여야지만 가능
*** corr 구하는 방법은 피어슨 스피어만 두 종류 있음. 위의 나온 상관계수 구하는 방법은 모두 피어슨 상관계수임
'파이썬' 카테고리의 다른 글
이변량분석 범주형 변수 (0) | 2024.09.13 |
---|---|
범주형 변수와 수치형 변수 분석 (0) | 2024.09.13 |
[Python] 왕기초 (4) (0) | 2024.09.10 |
[Python] 왕기초 (3) (0) | 2024.09.10 |
[Python] 왕기초 (2) (1) | 2024.09.06 |