일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 수치형자료
- 모평균
- 행사다리꼴
- 이항분포
- 모수
- 베르누이분포
- 표본공간
- 범주형자료
- 이변량자료
- 첨가행렬
- 기댓값과 분산
- 조건부확률
- 절삭평균
- Anaconda
- 누적분포함수
- 사조사
- 이산확률질량함수
- 통계학입문
- 균일분포
- 수학적확률
- 포아송분포
- 표본평균
- jupyter notebook
- 이산형
- 통계학개론
- pmf
- 확률밀도함수
- 피어슨상관계수
- 기본행연산
- 연속확률변수
- Today
- Total
목록통계학개론 (26)
summ의 블로그
표본추출 / 표본통계량 / 표본비율 표본 통계학에서 모수를 전수조사하기에는 막대한 비용과 시간이 필요하기 때문에 표본조사를 실시하는 경우가 있다. 그렇기에 모집단의 적절한 정보를 얻기 위해 모집단을 가장 잘 대표하는 표본을 얻어야 한다. 이러한 과정을 표본 추출 sampling 이라 한다. 표본 추출을 실행할 때, 모집단의 구성원이 동등하게 표본으로 뽑힐 확률을 가지고 있어야 한다. 따라서 표본으로 선택될 확률을 알고 얻어진 표본을 확률표본 random sample 이라고 한다. 임의로 표본을 선택하여 뽑는 방법을 단순확률표본추출 simple random sampling 라고 한다. 표본 통계량 우리는 모집단, 표본에서 사건을 비율로 나타낼 수 있다. 모비율 p : 모집단에서 관심 있는 사건이 차지하는 ..
공분산 / 상관계수 이전 게시글에서 두 확률변수의 결합분포에 관해 알아보았다. 이번 게시글에서는 두 확률변수에 관한 공분산과 상관계수를 정의해보려고 한다. 두 확률변수 함수의 기댓값 두 확률변수가 이산형일 때, 결합확률질량함수 p(x, y) 를 가진다. 임의의 함수 g에 관해 기댓값은 다음과 같이 정의할 수 있다. 두 확률변수가 연속형일 때, 결합확률밀도함수 f(x, y) 를 가진다. 기댓값은 다음과 같다. 따라서 임의의 실수 a,b 함수 g,h 에 대해 E(a * g(X, Y) + b * h(X, Y)) = a * E(g(X, Y)) + b * E(h(X, Y)) 임을 정의할 수 있다. 공분산 공분산 (covariance) 은 두 확률변수 X, Y 의 선형관계를 나타내는 양이라고 정의한다. 각각의 확률..
결합확률질량함수 / 결합확률밀도함수 / 주변확률분포 지금까지 여러 가지 확률변수와 확률분포에 관해 배웠다. 이러한 확률분포의 결합인 결합확률질량함수, 결합확률밀도함수에 대해 알아보자. 결합확률질량함수 하나의 표본공간에 두 개 이상의 이산확률변수를 할당할 수 있다. 예를 들어, 이산확률분포에서 동전 던지기 실험을 생각해 보자. 동전 던지기 실험에서 X를 앞면의 수로 나타낸 확률분포는 다음과 같다. x 0 1 2 합 P(X=x) 1/4 2/4 1/4 1 Y를 첫번째 결과가 앞면일 때 == 1 와 그렇지 않을 때 == 0 라고 정의하자. 동전을 두 번 던진다고 가정하면 Y의 확률분포는 다음과 같다. y 0 1 합 P(Y=y) 1/2 1/2 1 확률변수 X, Y를 합쳐 결합확률분포를 나타낼 수 있다. x 합 0..
감마분포 Gamma distribution 감마분포 감마분포는 두 모수가 양수이며, 감마함수를 이용하여 나타내는 확률분포이다. 지수분포와 비슷하게 a번째 사건이 일어나기까지의 시간을 알고 싶을 때 사용하는 확률분포이다. 확률분포는 다음과 같고, 기호는 X ~ Gamma (a, 1/λ) 로 표현한다. 감마분포의 기댓값은 a/λ 분산은 a/λ**2 이다. 여기에서 감마함수 Γ(a) 의 정의는 다음과 같다. 감마함수의 특징을 정리해 보면, Γ(1) = 1 Γ(a) = (a-1) Γ(a-1) Γ(n) = n-1! Γ(1/2) = √π 부분적분을 적용하고, a=n을 반복하여 계산해 보면 다음과 같은 성질이 정의되는 것을 알 수 있다. 앞서 말했듯이 감마분포는 지수분포와 연관이 있다. 지수분포를 일반화하여 감마분포..
지수분포 exponential distribution 지수분포 앞서 이산확률분포의 포아송 분포를 기억해 보자. 포아송 분포는 일정한 구간에서의 특정 사건의 수에 관한 확률분포이다. 그렇다면 첫번째 사건이 발생할 때까지의 시간에 관한 확률분포에 대해서는 어떻게 구할 수 있을까? 이때 지수분포를 이용할 수 있다. 지수분포는 일정한 구간에서 첫 번째 사건이 발생하기까지의 대기 평균 시간에 관한 확률분포이다. 시간이기에 당연히 양수값을 가지는 연속확률변수이며, 시간을 X라고 했을 때 누적분포함수는 다음과 같다. 따라서 확률밀도함수는 다음과 같고, 기호는 X ~ exp(1/λ) 로 나타낸다. 지수함수의 비기억성 지수함수는 '비기억성' 성질을 지니고 있다. 쉽게 말해서 과거와 상관없다, 이전일을 기억하지 못한다라고..
정규분포 normal distribution 연속확률분포의 간판인 정규분포에 관해 알아보자. 정규분포 앞서 나온 확률분포들에서 볼 수 있듯이 충분한 표본 개수를 갖고 있다면 이들의 근사확률분포는 정규분포 형태를 지닌다. 확률밀도함수는 종모양을 나타내며 중심인 평균을 주위로 하고 있다. 좌우대칭인 것이 특징이며 중심으로부터 멀리 떨어진 값들이 많이 존재할수록 종 모양도 넓어진다. => 평균(중심)과 분산(폭)에 영향을 받는다. 확률밀도함수는 다음과 같고, 기호는 X ~ N(μ,σ^2) 로 나타낸다. 정규분포의 성질 정규분포를 따르는 확률변수가 존재한다면, 이 확률변수들의 선형 결합도 정규분포를 따른다는 것을 의미한다. 표준정규분포 정규분포 중 평균은 0 분산은 1인 정규분포를 표준정규분포라고 칭한다. 표준..
균일분포 uniform distribution 연속확률분포인 균일분포에 관해 알아보자. 균일분포 일정한 구간에서 임의로 선택된 수에 관한 확률분포를 균일분포라고 한다. 또는, 균등분포라고도 불린다. 앞서 말했듯이 연속확률분포는 모든 실수 x에 관해 확률변수가 x일 확률은 0이고, 확률변수 x는 일정한 구간 내 모든 값을 취할 수 있다. 균일분포는 일정한 구간 [a,b] 에서 연속확률변수 x 의 모든 값이 동일한 분포이다. 따라서 이 구간에서의 x에 대하여 X가 [a,x] 에 속할 확률은 전체 구간 중 구간의 길이의 비율로 나타낼 수 있다. 확률밀도함수를 나타내면 다음과 같고, 기호는 X ~ Uniform[a,b] 로 나타낸다. 기댓값과 분산 균일분포의 기댓값과 분산은 다음과 같다. 정리 균일분포는 확률변..
연속확률변수 | 연속확률분포 | 확률밀도함수 | 누적분포함수 | 기댓값 연속확률변수의 정의 x의 값을 하나하나 셀 수 있는 이산확률변수와 달리 연속확률변수는 어떠한 일정 구간 내의 모든 값을 x로 취할 수 있다. 예로 들어, 시간, 수명, 기온 등을 연속확률변수 x로 정의한다. 연속형 확률변수의 확률분포 연속확률변수는 연속적이기 때문에 측정된 확률변수들의 값 또한 연속적인 곡선으로 나타낼 수 있다. 확률밀도함수 이산확률분포로 연속확률분포를 설명해 보자면, 가스사용량을 히스토그램으로 나타낸 이산확률분포에서 각각의 계급의 폭을 0에 가깝게 세분화한다면 히스토그램은 확률히스토그램의 극한 함수를 알 수 있다. 이러한 확률히스토그램의 극한 함수 f(x) 를 확률밀도함수 (probability density fun..
음이항분포 negative binomial distribution 음이항분포 앞서 나온 기하분포는 베르누이 시행에서 첫 번째 성공이 나오기까지의 시행 횟수에 관한 확률 분포이다. 음이항 분포는 베르누이 시행에서 r번째 성공이 나올 때까지의 시행 횟수에 관한 확률분포이다. 예를 들어보면, 주사위에서 두번째 4의 눈이 나오는 시행 횟수, 동전에서 다섯 번째로 뒷면이 나오는 시행 횟수에 관한 확률분포로 이용되는 것이다. r번째 성공이 나올 때까지의 시행횟수 X=x 확률은 다음과 같다. P(X=x) = P(x번째 시행에서 r번째 성공이 나오는 사건) = P(x-1번 시행까지 성공은 r-1번 나오고 마지막 x시행은 성공) 따라서 x-1번 시행에서 성공의 횟수는 r-1번이어야 하고 마지막 x번째 시행은 성공이어야 ..
기하분포 geometric distribution 베르누이 분포, 이항분포, 포아송분포에 이어 기하분포에 대해 알아보자. 기하분포 기하분포 (geometric distribution) 는 내가 알아보고자 하는 실험에서 첫 번째 성공이 나올 때까지 계속해서 실험하는 과정에서 얻는 확률분포라고 쉽게 생각하면 된다. 예로 들어, 동전 던지기 실험에서 뒷면이 나올 때까지 동전을 던지는 횟수, 주사위에서 4의 눈이 나올 때까지 주사위를 굴리는 횟수에 관한 확률분포를 나타낼 때 사용한다. 따라서 베르누이 시행에서 성공이 나올 때 까지의 시행 횟수와 연관되어 있다. 기하분포에서는 오로지 첫번째 성공이 나올 때까지만 실험을 진행하며, 이 성공이 몇번째에 왔는지. 시행 횟수로 정의된 확률 변수에만 관심이 있다고 보면 된..