일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |
- 절삭평균
- 통계학입문
- 표본공간
- 피어슨상관계수
- 모평균
- 이변량자료
- 범주형자료
- 이항분포
- 균일분포
- 수치형자료
- 베르누이분포
- 수학적확률
- 기본행연산
- 행사다리꼴
- 포아송분포
- 이산형
- 확률밀도함수
- jupyter notebook
- 첨가행렬
- 이산확률질량함수
- pmf
- 기댓값과 분산
- 연속확률변수
- 표본평균
- 누적분포함수
- Anaconda
- 조건부확률
- 모수
- 통계학개론
- 사조사
- Today
- Total
목록2024/07/10 (3)
summ의 블로그
의사결정 나무 의사결정 나무는 회귀, 분류 문제에 모두 사용이 가능하다. 최상 root node 하단의 terminal node 존재.직관적이며, greedy로 학습이 진행됨. 나무가 깊어질수록 과적합 문제가 발생함. >>겹치지 않는 구역으로 데이터를 나눔. ==> 어떻게? - 회귀: 해당 구역에 있는 데이터의 실제 값과 예측값의 오차제곱합을 최소화함. SSR - 분류: 불순도 impurity를 최소화하도록 나눔. * 불순도란? 다른 데이터가 섞여 있는 정도를 뜻함. 불순도 측정 방법: 지니계수 이용. 지니계수: 구역 안에서 특정 클래스에 속하는 data 비율을 모두 제외한 값으로 다양성을 계산하는 방법임. = 1- (yes 의 확률)**2 - (no 의 확률)**2지니계..
머신러닝 머신러닝은지도학습 / 비지도학습 / 강화학습 으로 나뉜다. 비지도학습은Clustering / 차원축소 가 있다. y 라벨(정답)이 주어지지 않은 것이다. Clustering 클러스터링은 유사한 특성을 가진 개체끼리 군집화하는 것이다. 군집 간 유사성은 최소화 군집 내 유사성은 최대화 - hard: x 집단에 포함되는지 여부를 나타냄. k-means clustering 이 포함됨. k-means clustering: 제공된 데이터를 k개로 군집화.랜덤하게 각 군집의 중심을 정함. 이렇게 정한 중심을 기점으로 군집에 각 데이터를 할당. 원하는 결과가 나오지 않았을 땐 여러번 실행하면 됨. EM알고리즘을 기반으로 함. 대용량 데이터에 적합하며 시간과 비용이 적게 들음.- soft: ..
머신러닝 : 기계학습 지도학습 / 비지도학습 / 강화학습 으로 나뉜다. 지도학습은 회귀 / 분류 문제로 나뉜다. 회귀 회귀분석이란? 회귀식의 계수 beta0, beta1을 구하는 것. 각 데이터의 실제값과 예측값의 차이인 loss를 최소화하는게 목표이다. 선형회귀 / 다중회귀 / 다항회귀가 존재하며, 다항회귀는 차수가 높은것으로 데이터가 선형이 아니더라도 사용 가능하다. 과적합 방지 방법으로는 1. cross validation - k fold : 데이터 k번 나눠서 학습.2. 페널티 부여 - L1 L2 Elasticnet 방법이 존재한다. 회귀 평가지표도 존재한다. 1. SSR, MSE, MAE 평균제곱오차, 평균절대값오차2. R**2 결정계수 분류 분류란? 주어진 데이터 입력값 x ..