[ml] 간단한 정리 (2)

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

Syeonny의 블로그

[ml] 간단한 정리 (2) 본문

머신러닝

[ml] 간단한 정리 (2)

syeonny 2024. 7. 10. 22:18

머신러닝

머신러닝은

지도학습 / 비지도학습 / 강화학습 으로 나뉜다.

비지도학습은

Clustering / 차원축소 가 있다.

y 라벨(정답)이 주어지지 않은 것이다.

Clustering

클러스터링은 유사한 특성을 가진 개체끼리 군집화하는 것이다.

군집 간 유사성은 최소화

군집 내 유사성은 최대화

- hard: x 집단에 포함되는지 여부를 나타냄. k-means clustering 이 포함됨.

k-means clustering: 제공된 데이터를 k개로 군집화.

랜덤하게 각 군집의 중심을 정함. 이렇게 정한 중심을 기점으로 군집에 각 데이터를 할당.
원하는 결과가 나오지 않았을 땐 여러번 실행하면 됨.
EM알고리즘을 기반으로 함.
대용량 데이터에 적합하며 시간과 비용이 적게 들음.

- soft: x가 집단에 얼마나 포함되는지 정도를 나타냄. GMM 이 포함됨.

GMM: 확률분포를 사용함.

전체 데이터의 확률분포가 여러 정규분포의 조합으로 이루어져있다고 가정하고
각 분포에 속할 확률이 높은 데이터끼리 클러스터링을 진행함.

타당성 평가

Dunn index: 군집 간 거리의 최소값 / 군집 내 요소 간 거리의 최대값. 값이 클수록 높은 성능을 보임.

실루엣 지표: 클러스터의 밀집정도를 계산함. 얼마나 잘 군집화 하는가? -1~1사이의 값으로 1에 가까울수록 높은 성능.

차원축소

고차원을 저차원으로 축소하는 것임. 적은 갯수로만 차원 표현시 오버피팅 발생 가능함. (차원의 저주)

- PCA: 데이터셋을 가장 잘 설명하는 주성분을 찾음. 저차원으로 축소해도 원본 데이터의 특성을 갖도록 함.

대용량 고차원 데이터를 압축할 수 있음.

- t-SNE: 차원 축소 시각화 tool.

데이터끼리의 유사도 확률을 계산하여 저차원으로 축소 후, 계산한 유사도 확률을 이용하여 이동시킴.

저작자표시 비영리 변경금지

'머신러닝' 카테고리의 다른 글

머신러닝 기초 (2) (0)	2024.09.27
머신러닝 기초 (0)	2024.09.27
[ml] 간단한 정리 (3) (0)	2024.07.10
[ml] 간단한 정리 (1) (0)	2024.07.10
[autoML] 간단한 정리 (0)	2024.05.04

'머신러닝' Related Articles

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Syeonny의 블로그

Syeonny의 블로그

[ml] 간단한 정리 (2) 본문

[ml] 간단한 정리 (2)

'머신러닝' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역