summ의 블로그

[ml] 간단한 정리 (2) 본문

머신러닝

[ml] 간단한 정리 (2)

summ._ 2024. 7. 10. 22:18
머신러닝 

 

머신러닝은

지도학습 / 비지도학습 / 강화학습 으로 나뉜다. 

 

비지도학습은

Clustering  / 차원축소 가 있다. 

 

y 라벨(정답)이 주어지지 않은 것이다. 

 

Clustering

 

클러스터링은 유사한 특성을 가진 개체끼리 군집화하는 것이다. 

 

군집 간 유사성은 최소화 

군집 내 유사성은 최대화 

 

- hard:  x 집단에 포함되는지 여부를 나타냄. k-means clustering 이 포함됨. 

  k-means clustering: 제공된 데이터를 k개로 군집화.

  • 랜덤하게 각 군집의 중심을 정함. 이렇게 정한 중심을 기점으로 군집에 각 데이터를 할당. 
  • 원하는 결과가 나오지 않았을 땐 여러번 실행하면 됨. 
  • EM알고리즘을 기반으로 함. 
  • 대용량 데이터에 적합하며 시간과 비용이 적게 들음.

- soft: x가 집단에 얼마나 포함되는지 정도를 나타냄. GMM 이 포함됨. 

  GMM: 확률분포를 사용함. 

  • 전체 데이터의 확률분포가 여러 정규분포의 조합으로 이루어져있다고 가정하고
  • 각 분포에 속할 확률이 높은 데이터끼리 클러스터링을 진행함. 

 

타당성 평가 

 

Dunn index: 군집 간 거리의 최소값 / 군집 내 요소 간 거리의 최대값. 값이 클수록 높은 성능을 보임.

실루엣 지표: 클러스터의 밀집정도를 계산함. 얼마나 잘 군집화 하는가? -1~1사이의 값으로 1에 가까울수록 높은 성능.

 

차원축소

 

고차원을 저차원으로 축소하는 것임. 적은 갯수로만 차원 표현시 오버피팅 발생 가능함. (차원의 저주)

 

- PCA: 데이터셋을 가장 잘 설명하는 주성분을 찾음. 저차원으로 축소해도 원본 데이터의 특성을 갖도록 함. 

대용량 고차원 데이터를 압축할 수 있음. 

 

- t-SNE: 차원 축소 시각화 tool.

데이터끼리의 유사도 확률을 계산하여 저차원으로 축소 후, 계산한 유사도 확률을 이용하여 이동시킴. 

'머신러닝' 카테고리의 다른 글

[ml] 간단한 정리 (3)  (0) 2024.07.10
[ml] 간단한 정리 (1)  (0) 2024.07.10
[autoML] 간단한 정리  (0) 2024.05.04