Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- 수치형자료
- 확률밀도함수
- 범주형자료
- 기댓값과 분산
- 이산형
- pmf
- 절삭평균
- 통계학개론
- 기본행연산
- 연속확률변수
- 누적분포함수
- 이변량자료
- 포아송분포
- 수학적확률
- jupyter notebook
- 피어슨상관계수
- 이항분포
- 균일분포
- 조건부확률
- 첨가행렬
- Anaconda
- 모수
- 통계학입문
- 모평균
- 사조사
- 표본평균
- 행사다리꼴
- 베르누이분포
- 이산확률질량함수
- 표본공간
Archives
- Today
- Total
summ의 블로그
머신러닝 기초 본문
240926
머신러닝 기초 - 지도학습
데이터 불러오기 → 전처리 → 모델링 → 시각화
df = pd.read_csv(path)
df EDA
- 데이터 확인 - shape, info(), describe(), corr()
- 불필요한 열 제거
- nan null 값 처리 필수 확인 방법: isna().sum() isnull().sum()
- 제거 혹은 채우기
- 평균으로 채우기 fillna(df[''].mean, inplace=True)
- 최빈값으로 채우기 fillna(df[''].mode()[0], inplace=True)
- 바로 앞/뒤 값으로 채우기 fillna(method='ffill' 'bfill')
- 보간법으로 채우기 : 선형, 다중 interpolate(method='linear' 'polynomial')
- 필요에 따라 원핫인코딩, 라벨인코딩
- 원핫인코딩: 범주당 하나의 열을 만들어서 해당 값을 가지면 1 아니면 0으로 표현
- 다중공선성: 독립변수 간 상관관계 존재 --> 모델링 값에 영향
pd.get_dummies(df, columns, columns= , drop_first=True)
drop_first=True 하면 다중공선성 낮아짐. 첫 번째 범주 삭제
- 라벨인코딩: 범주를 숫자로 할당
df modeling
사용 데이터: titanic data
- data에 맞는 모델링 방법 할당: 회귀, 분류
- df train, test, val
train_test_split(x, y, test_size= , random_state= )
- model = LinearRegression()
- model.fit(x_train, y_train) 모델 적합하는 과정
- y_pred = model.predict(x_test) 테스트용 x값으로 y예측
- 실제값과 예측값 평가 mae 사용 mean_absolute_error(y_test, y_pred)
- 시각화
path = 'https://raw.githubusercontent.com/Jangrae/csv/master/airquality_simple.csv'
data = pd.read_csv(path)
x = data.drop(columns={'Ozone'})
y = data[['Ozone']]
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=1)
model = LinearRegression()
model.fit(x_train, y_train)
y_pred = model.predict(x_test)
mean_absolute_error(y_test, y_pred)
'머신러닝' 카테고리의 다른 글
머신러닝 기초 (3) (1) | 2024.10.02 |
---|---|
머신러닝 기초 (2) (0) | 2024.09.27 |
[ml] 간단한 정리 (3) (0) | 2024.07.10 |
[ml] 간단한 정리 (2) (0) | 2024.07.10 |
[ml] 간단한 정리 (1) (0) | 2024.07.10 |