Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- 표본공간
- 모평균
- 수학적확률
- 범주형자료
- 통계학개론
- 행사다리꼴
- 절삭평균
- 조건부확률
- 포아송분포
- 균일분포
- 이산확률질량함수
- 기댓값과 분산
- 피어슨상관계수
- 기본행연산
- 누적분포함수
- 통계학입문
- 이산형
- 모수
- 첨가행렬
- 표본평균
- 수치형자료
- 연속확률변수
- 베르누이분포
- Anaconda
- 사조사
- 이항분포
- 확률밀도함수
- 이변량자료
- pmf
- jupyter notebook
Archives
- Today
- Total
Syeonny의 블로그
[ml] 간단한 정리 (2) 본문
머신러닝
머신러닝은
지도학습 / 비지도학습 / 강화학습 으로 나뉜다.
비지도학습은
Clustering / 차원축소 가 있다.
y 라벨(정답)이 주어지지 않은 것이다.
Clustering
클러스터링은 유사한 특성을 가진 개체끼리 군집화하는 것이다.
군집 간 유사성은 최소화
군집 내 유사성은 최대화
- hard: x 집단에 포함되는지 여부를 나타냄. k-means clustering 이 포함됨.
k-means clustering: 제공된 데이터를 k개로 군집화.
- 랜덤하게 각 군집의 중심을 정함. 이렇게 정한 중심을 기점으로 군집에 각 데이터를 할당.
- 원하는 결과가 나오지 않았을 땐 여러번 실행하면 됨.
- EM알고리즘을 기반으로 함.
- 대용량 데이터에 적합하며 시간과 비용이 적게 들음.
- soft: x가 집단에 얼마나 포함되는지 정도를 나타냄. GMM 이 포함됨.
GMM: 확률분포를 사용함.
- 전체 데이터의 확률분포가 여러 정규분포의 조합으로 이루어져있다고 가정하고
- 각 분포에 속할 확률이 높은 데이터끼리 클러스터링을 진행함.
타당성 평가
Dunn index: 군집 간 거리의 최소값 / 군집 내 요소 간 거리의 최대값. 값이 클수록 높은 성능을 보임.
실루엣 지표: 클러스터의 밀집정도를 계산함. 얼마나 잘 군집화 하는가? -1~1사이의 값으로 1에 가까울수록 높은 성능.
차원축소
고차원을 저차원으로 축소하는 것임. 적은 갯수로만 차원 표현시 오버피팅 발생 가능함. (차원의 저주)
- PCA: 데이터셋을 가장 잘 설명하는 주성분을 찾음. 저차원으로 축소해도 원본 데이터의 특성을 갖도록 함.
대용량 고차원 데이터를 압축할 수 있음.
- t-SNE: 차원 축소 시각화 tool.
데이터끼리의 유사도 확률을 계산하여 저차원으로 축소 후, 계산한 유사도 확률을 이용하여 이동시킴.
'머신러닝' 카테고리의 다른 글
머신러닝 기초 (2) (0) | 2024.09.27 |
---|---|
머신러닝 기초 (0) | 2024.09.27 |
[ml] 간단한 정리 (3) (0) | 2024.07.10 |
[ml] 간단한 정리 (1) (0) | 2024.07.10 |
[autoML] 간단한 정리 (0) | 2024.05.04 |