Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- 절삭평균
- 포아송분포
- 확률밀도함수
- 이변량자료
- 기댓값과 분산
- 베르누이분포
- 균일분포
- pmf
- 이산형
- 수치형자료
- 조건부확률
- 행사다리꼴
- 이항분포
- 모평균
- 모수
- jupyter notebook
- 연속확률변수
- 표본공간
- 사조사
- Anaconda
- 범주형자료
- 피어슨상관계수
- 첨가행렬
- 표본평균
- 통계학입문
- 통계학개론
- 기본행연산
- 이산확률질량함수
- 수학적확률
- 누적분포함수
Archives
- Today
- Total
summ의 블로그
머신러닝 기초 (4) 본문
241002
로지스틱 회귀모형
독립변수가 수치형, 종속변수가 범주형일 때 로지스틱 회귀를 사용
각 종속변수 범주에 속할 확률이 얼마인지 추정하여 추정 확률을 기준치에 따라 분류함
딥러닝에선 '시그모이드 함수' 라고 불림 (활성화 함수로 사용)
음의 무한대 ~ 양의 무한대의 그래프에서 (0,1) 범위의 확률 값을 추정
분류이기에 혼동행렬사용해서 성능 판별
model = LogisticRegression()
k-fold cross validation
모든 데이터가 평가 한번, 학습에 k-1번 사용
반복 횟수가 많기 때문에 많은 시간이 소요됨
from sklearn.model_selection import cross_val_score
cv_score = cross_val_score(model, x_train, y_train, cv=10)
hyper parameter
- Grid search 격자탐색
알고리즘:
1. 초기 구간, 오차한계 선택 후 격자의 간격이 오차한계를 만족할만한 격자 개수 m개 선택
2. 격자점 설정
3. 격자점에서 함숫값 계산
4. 근사해 찾기
시간이 오래걸린다는 단점이 존재함.
격자탐색을 반복적으로 시행하는 것 필요
격자탐색 -> 구간 축소 -> 격자탐색 -> 구간 축소
최소해가 존재하는 구간에서 함수는 'V'자 모양을 가진다.
from sklearn.model_selection import GridSearchCV
model = GridSearchCV(modeling, param, cv=n)
모든 값에 대해수행하여 최적의 하이퍼파라미터 값을 찾아줌
- Random Search
grid search 단점을 극복, 보완
임의의 하이퍼파라미터 조합을 샘플링하는 방식이며
학습 데이터에 가장 좋은 성능을 보인 파라미터 값으로 자동적으로 학습까지 함
from sklearn.model_selection import RandomizedSearchCV
model = RandomizedSearchCV(modeling, param, cv=n, n_iter=n)
'머신러닝' 카테고리의 다른 글
정리 (1) | 2024.10.05 |
---|---|
머신러닝 기초 (3) (1) | 2024.10.02 |
머신러닝 기초 (2) (0) | 2024.09.27 |
머신러닝 기초 (0) | 2024.09.27 |
[ml] 간단한 정리 (3) (0) | 2024.07.10 |