일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 모수
- 모평균
- 첨가행렬
- 조건부확률
- 표본공간
- 통계학입문
- 포아송분포
- jupyter notebook
- 범주형자료
- 수치형자료
- 절삭평균
- pmf
- 피어슨상관계수
- 베르누이분포
- 누적분포함수
- 표본평균
- 균일분포
- 이항분포
- 확률밀도함수
- Anaconda
- 행사다리꼴
- 기댓값과 분산
- 수학적확률
- 이변량자료
- 통계학개론
- 사조사
- 이산확률질량함수
- 기본행연산
- 연속확률변수
- 이산형
- Today
- Total
Syeonny의 블로그
[ml] 간단한 정리 (1) 본문
머신러닝 : 기계학습
지도학습 / 비지도학습 / 강화학습 으로 나뉜다.
지도학습은
회귀 / 분류 문제로 나뉜다.
회귀
회귀분석이란? 회귀식의 계수 beta0, beta1을 구하는 것.
각 데이터의 실제값과 예측값의 차이인 loss를 최소화하는게 목표이다.
선형회귀 / 다중회귀 / 다항회귀가 존재하며, 다항회귀는 차수가 높은것으로 데이터가 선형이 아니더라도 사용 가능하다.
과적합 방지 방법으로는
1. cross validation - k fold : 데이터 k번 나눠서 학습.
2. 페널티 부여 - L1 L2 Elasticnet 방법이 존재한다.
회귀 평가지표도 존재한다.
1. SSR, MSE, MAE 평균제곱오차, 평균절대값오차
2. R**2 결정계수
분류
분류란? 주어진 데이터 입력값 x 가 어디에 속할지 분류하는 것이다.
방법으로는 로지스틱 회귀분석 / SVM / 나이브 베이즈 분류 / KNN 이 존재한다.
- 로지스틱 회귀분석: (sigmoid) 이진분류에 유용
g(x) = e**x/1+e**x
- SVM: "고차원" 최적의 decision boundary를 어떻게 고를지? 2개의 classfication
margin이 최대가 되도록하는 decision boundary 를 찾는다.
margin: decision boundary와 svm사이의 거리
hard / soft : hard는 margin안에 data가 들어갈 수 x, soft는 들어갈 수 o
- 나이브베이즈분류: 베이지안 확률을 사용. 데이터가 독립이어야 함.
반대의 확률을 이용한다.
- KNN: nearest neighbor 새로운 데이터로부터 가장 거리가 가까운 데이터 k개를 이용하여 분류. 학습할 필요가 없음
'머신러닝' 카테고리의 다른 글
머신러닝 기초 (2) (0) | 2024.09.27 |
---|---|
머신러닝 기초 (0) | 2024.09.27 |
[ml] 간단한 정리 (3) (0) | 2024.07.10 |
[ml] 간단한 정리 (2) (0) | 2024.07.10 |
[autoML] 간단한 정리 (0) | 2024.05.04 |