일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 수치형자료
- 표본평균
- 첨가행렬
- 모평균
- 이산확률질량함수
- Anaconda
- 이항분포
- 사조사
- 조건부확률
- 통계학입문
- 확률밀도함수
- 표본공간
- 포아송분포
- jupyter notebook
- 범주형자료
- 행사다리꼴
- 균일분포
- 베르누이분포
- pmf
- 통계학개론
- 피어슨상관계수
- 누적분포함수
- 모수
- 기본행연산
- 수학적확률
- 기댓값과 분산
- 연속확률변수
- 이산형
- 이변량자료
- 절삭평균
- Today
- Total
목록머신러닝 (9)
Syeonny의 블로그
241004 알고리즘 회귀와 분류에 모두 사용 가능한 알고리즘 KNN- 가장 가까운 훈련 데이터 포인트 k개를 찾아 평균을 계산하여 예측에 사용 - 거리 기반 메트릭: 기본적으로 유클리드 거리를 사용하나 특성 공간에 따라 맨해튼 거리, 민코프스키 거리 선택 가능 - KNN 분류: 가장 가까운 K개의 이웃 중 다수결로 가장 많이 등장한 클래스를 예측. - KNN 회귀: 가까운 K개의 이웃의 평균값으로 회귀값을 예측. - 특성 스케일링: 변수들을 모두 일정한 범위의 값을 갖도록 변환 필요 - StandardScaler: 표준화 - 값에서 평균을 빼고 표준편차로 나누는 것. 평균 0, 표준편차 1을 기준. - 데이터가 정규 분포에 가까울 때 적합 - MinMaxScaler: 최대최..

241002 로지스틱 회귀모형 독립변수가 수치형, 종속변수가 범주형일 때 로지스틱 회귀를 사용각 종속변수 범주에 속할 확률이 얼마인지 추정하여 추정 확률을 기준치에 따라 분류함 딥러닝에선 '시그모이드 함수' 라고 불림 (활성화 함수로 사용) 음의 무한대 ~ 양의 무한대의 그래프에서 (0,1) 범위의 확률 값을 추정분류이기에 혼동행렬사용해서 성능 판별model = LogisticRegression() k-fold cross validation 모든 데이터가 평가 한번, 학습에 k-1번 사용반복 횟수가 많기 때문에 많은 시간이 소요됨 from sklearn.model_selection import cross_val_score cv_score = cross_val_score(model, x_train, ..
240930 선형 회귀 회귀 분석이란? 독립변수를 통해 종속변수를 예측하는 분석 기법 회귀 모형의 가정선형성 독립성 - 더빈-왓슨 검정등분산성 비상관성정상성 - 샤피로-월크 검정, 콜모고로프-스미르노프 검정전체 데이터의 오차 합이 최소가 되는 회귀식을 찾는 것임 * 머신러닝 기초 (2) 내용 참고 회귀계수 B0 B1 찾기 단순 선형 회귀식yi = B0 + B1xi + 오차항 회귀계수 추정: 최소제곱법 사용하여 추정 S(a0, a1) = ∑{yi-(a0+a1xi)}**2 b1 = Sxy / Sxxb0 = ybar - b1*xbar model = LinearRegression()model.coef_ # 기울기 추정model.intercept_ # 절편 추정r2_score(y_test, y_pred) ..

240927회귀모델 / 분류모델 성능 평가 회귀모델 + 통계적 지식 회귀분석: 둘 이상의 변수 간 관계를 보여주는 통계적인 방법. ' 관계식을 만들어서 실제 값을 예측 ' 단순 선형 회귀 모형 - 표본 회귀 y hat = B0 hat + B1 hat * X 회귀모델에서 우리가 하고자 하는 건: 회귀계수 B0, B1 추정하는 것임 ==> 적합값 yi hat = b0+b1*xi( 표본회귀직선의 추정값 ) y 실제 값y hat 예측값 (보통 우리가 구하고자 하는 모든 예측(추정 값)은 hat이 붙음)y bar 평균값 error 가 무조건 존재하는데, 이 error = 오차 를 줄여야 함. (오차란? 예측 값과 실제 값의 차이 : yhat-y) 예측값이 실제 값과 가까우면 == 당연히 오차는 작은 값은 ..

240926 머신러닝 기초 - 지도학습 데이터 불러오기 → 전처리 → 모델링 → 시각화 df = pd.read_csv(path) df EDA데이터 확인 - shape, info(), describe(), corr()불필요한 열 제거 nan null 값 처리 필수 확인 방법: isna().sum() isnull().sum() 제거 혹은 채우기 - 평균으로 채우기 fillna(df[''].mean, inplace=True)- 최빈값으로 채우기 fillna(df[''].mode()[0], inplace=True)- 바로 앞/뒤 값으로 채우기 fillna(method='ffill' 'bfill')- 보간법으로 채우기 : 선형, 다중 interpolate(method='linear' 'polynomial')필요..
의사결정 나무 의사결정 나무는 회귀, 분류 문제에 모두 사용이 가능하다. 최상 root node 하단의 terminal node 존재.직관적이며, greedy로 학습이 진행됨. 나무가 깊어질수록 과적합 문제가 발생함. >>겹치지 않는 구역으로 데이터를 나눔. ==> 어떻게? - 회귀: 해당 구역에 있는 데이터의 실제 값과 예측값의 오차제곱합을 최소화함. SSR - 분류: 불순도 impurity를 최소화하도록 나눔. * 불순도란? 다른 데이터가 섞여 있는 정도를 뜻함. 불순도 측정 방법: 지니계수 이용. 지니계수: 구역 안에서 특정 클래스에 속하는 data 비율을 모두 제외한 값으로 다양성을 계산하는 방법임. = 1- (yes 의 확률)**2 - (no 의 확률)**2지니계..
머신러닝 머신러닝은지도학습 / 비지도학습 / 강화학습 으로 나뉜다. 비지도학습은Clustering / 차원축소 가 있다. y 라벨(정답)이 주어지지 않은 것이다. Clustering 클러스터링은 유사한 특성을 가진 개체끼리 군집화하는 것이다. 군집 간 유사성은 최소화 군집 내 유사성은 최대화 - hard: x 집단에 포함되는지 여부를 나타냄. k-means clustering 이 포함됨. k-means clustering: 제공된 데이터를 k개로 군집화.랜덤하게 각 군집의 중심을 정함. 이렇게 정한 중심을 기점으로 군집에 각 데이터를 할당. 원하는 결과가 나오지 않았을 땐 여러번 실행하면 됨. EM알고리즘을 기반으로 함. 대용량 데이터에 적합하며 시간과 비용이 적게 들음.- soft: ..
머신러닝 : 기계학습 지도학습 / 비지도학습 / 강화학습 으로 나뉜다. 지도학습은 회귀 / 분류 문제로 나뉜다. 회귀 회귀분석이란? 회귀식의 계수 beta0, beta1을 구하는 것. 각 데이터의 실제값과 예측값의 차이인 loss를 최소화하는게 목표이다. 선형회귀 / 다중회귀 / 다항회귀가 존재하며, 다항회귀는 차수가 높은것으로 데이터가 선형이 아니더라도 사용 가능하다. 과적합 방지 방법으로는 1. cross validation - k fold : 데이터 k번 나눠서 학습.2. 페널티 부여 - L1 L2 Elasticnet 방법이 존재한다. 회귀 평가지표도 존재한다. 1. SSR, MSE, MAE 평균제곱오차, 평균절대값오차2. R**2 결정계수 분류 분류란? 주어진 데이터 입력값 x ..
Automated Machine Learning: 자동화된 머신러닝 모델 생성에서, 데이터셋의 특징에 따라 주어진 데이터셋에서는 어떤 기법이 최적인지 선택하는 것이 중요 --> 따라서 최적의 머신 러닝 알고리즘, 하이퍼파라미터 튜닝 등등 자동화가 필요 이때, autoML을 사용하여 비용과 시간을 줄이고, 모델의 정확도를 높일 수 있는 장점이 존재 사용은 둘로 나뉘는데 CASH ( Combined Algorithm Selection and Hyperparameter optimization) 최적화 NAS ( Neural Architecture Search ) 신경망 탐색 autoML의 다양한 프레임워크가 존재: pycaret, H2O, TPOT, LightAutoML, autogluon ..