일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 이항분포
- 베르누이분포
- 수학적확률
- Anaconda
- 기본행연산
- 이산형
- 피어슨상관계수
- 통계학입문
- 포아송분포
- 이산확률질량함수
- 균일분포
- 사조사
- 기댓값과 분산
- 이변량자료
- 범주형자료
- 표본평균
- 조건부확률
- 누적분포함수
- 연속확률변수
- jupyter notebook
- 수치형자료
- 확률밀도함수
- 모수
- 표본공간
- 절삭평균
- 행사다리꼴
- 통계학개론
- 첨가행렬
- pmf
- 모평균
- Today
- Total
목록딥러닝 (13)
Syeonny의 블로그

241107 interpolation 보간법 vs linear regression 선형 회귀 보간법이 신경망과 비슷함 보간법이란? 이미 알고 있는 데이터 포인트를 기반으로 그 사이의 값을 예측하는 방법 선형 보간법두 개의 인접한 데이터를 직선으로 연결하여 그 사이의 값을 추정함 신경망 주어진 입력 데이터를 바탕으로 출력 값을 근사하거나 예측하는 역할학습된 가중치와 비선형 활성화 함수들을 통해 복잡한 함수 근사를 수행입력 계층에서 받은 데이터를 여러 층의 뉴런과 가중치 조합을 통해 출력으로 매핑하는 방식으로 동작 차원 축소 방법 주성분 분석 PCA Principal Component Analysis 주성분 분석 고차원 데이터의 차원을 축소하여 데이터의 핵심 정보를 유지하면서 데이터의 복잡성..

241107 GAN generative adversarial network 유명한 위조지폐 예시로 이해해 보자. generator 생성자(위조 지폐범)가 위조지폐를 만들음 → discriminator 판별자 (경찰) 가 구별 이러한 순간이 반복되면,생성자 (외조지폐범)의 위조지폐 기술의 성능이 높아짐 ↔ 판별자 (경찰)도 구별하는 성능이 높아짐→ 경쟁을 통한 성능 향상 이후에 (경찰) 판별자를 제거하고 생성자만 남긴다.이 결과로 생성자는 성능이 엄청 좋아진 모델이다. (경찰) 판별자: fake 와 real 을 구별하는 이진분류기로 진짜인지 아닌지 구별하기 위해 진짜와 가짜를 알고 있음(위조지폐범) 생성자: 진짜 real data 를 본 적이 없음 + fake data만 만들며 학..
241108 자연어 처리의 역사 tf-idf → w2v → seq2seq → PLM → LLM https://ddevkingsy.tistory.com/113 * 참조 seq2seq seq2seq RNN 기반의 many-to-many 구조로 챗봇과 기계 번역에 자주 사용함.이 모델은 입력 문장을 처리하는 인코더(encoder)와 출력 문장을 생성하는 디코더(decoder)로 구성된다.Encoder (인코더): 입력 문장을 받아 context vector로 압축Context Vector: 모든 입력 문장의 정보를 하나로 압축하여 디코더로 전달. 이 벡터는 디코더의 첫 번째 히든 상태로 사용Decoder (디코더): context vector를 기반으로 단어를 예측하여 순차적으로 출력 디코..

241106 딥러닝 모델 1 딥러닝 모델 셋업 2 모델 훈련3 추론, 테스팅 overfitting 과적합 방지를 위해 : 더 많은 훈련 데이터 셋 확보, 오토인코딩, 드롭아웃 *** 선형회귀, 이진분류, xor 코랩 실습 많이 보기 선형 회귀 H(x) = Wx + b 선형 결합 H: hypothesis 가설 비용 함수(cost function) = 손실 함수(loss function) = 오차 함수(error function) = 목적 함수(objective function) 비용함수: 전체 데이터셋에 대해 모델의 성능을 평가하는 함수로, 모든 데이터 포인트에 대한 손실 함수의 평균 또는 합손실함수: 개별 데이터에 대해 모델의 예측이 실제 값과 얼마나 다른지를 측정하는 함수 손실 함수는 특..
241105 모든 자연어 처리는 tf-idf 나 cosine similarity 이다. 실습 1. 전자 신문 내용 가져오기 tf-idf 커스텀 함수 (명사 추출)실습 2. imbd 리뷰 명사 추출 함수 추천 시스템 사용자의 행동 이력, 관계, 콘텍스트, 상품 유사도에 기반하여 사용자가 구매할만한 상품을 자동으로 예측하고 제공하는 시스템 협업 필터링 CF collaborative filtering 고객의 행동 이력을 기반으로 유사도를 측정하여 상품을 추천함. knn based: 사용자 기반 CF, 아이템 기반 CF 작동 user-based : 비슷한 행동 패턴을 보이는 사용자 그룹을 찾아 사용자가 좋아할 상품 추천Item-to-Item CF : 사용자의 과거 행동 이력에 의존하여 코사인 유사도를..

241104 TF-IDF tf-idf Term Frequency - Inverse Document Frequency 텍스트 마이닝에서 문장, 문서 안의 단어의 중요도를 평가. 계산식: TF(t, d) * IDF(t, D)D : 전체 문서 n개d : n개 중 우리가 보고 있는 문서 1개 t, d : 단어를 평가 TF 상위 단어 n개 추출 값이 클수록 그 단어 t는 특정 문서 d에서 더 중요한 의미를 가짐 TF: 특정 문서 d 내에서 내가 찾고자 하는 특정 단어 t의 빈도. 많이/몇 번 나오는가? 단어 t의 등장 횟수 / 문서 d의 총 단어 수 IDF: 단어가 몇 개의 문서에 걸쳐서 나왔는가에 대한 반비례(log 취함) = 많이 나올수록 대표성이 떨어지기 때문 log( 전체 ..

241024, 241025 객체 탐지 object detection object detection: multilabeled classification + bounding box regression 이전까지는 이미지 당 하나의 객체만 존재. 이 객체의 위치를 bounding box로 지정해 찾는 것이었다. 객체탐지는?이미지에 여러 개의 객체 존재. 객체의 위치를 bounding box로 지정해 찾음 main idea bounding box: 하나의 object가 포함된 최소 크기의 박스. = 객체의 위치 정보특정 객체의 위치와 크기를 표시하기 위한 직사각형 영역모델마다 bounding box를 정의하는 게 다름위치정보 x hat∽x y hat ∽ y 일수록 모델이 object 예측을 잘 함 class..
241022 241023 min max scaling, onehotencoding max_n, min_n = train_x.max(), train_x.min()train_x = (train_x - min_n) / (max_n - min_n)test_x = (test_x - min_n) / (max_n - min_n)from keras.utils import to_categoricalclass_n = len(np.unique(train_y))train_y = to_categorical(train_y, class_n)test_y = to_categorical(test_y, class_n) 모델링방법 이전의 딥러닝 코드와 동일하게 sequential / functional 사용 가능 * conv: 차원이..

241021 artificial neural network ANN & D(deep)NN 생물의 신경망을 본떠 만든 알고리즘node 로 이루어지며, 입력층과 출력층. 그 사이의 여러 개의 은닉층 hidden layer을 갖는다. input - activation function - output node: 앞 레이어의 노드들로부터 특징을 갖는다.뒤에 위치한 노드일수록 더 깊은 high level 특징을 가짐 시각지능 컴퓨터가 이미지를 이해하게 하는 것: 이미지는 픽셀단위로 이루어져 있어 경계값을 찾아 컴퓨터에게 알려주면 됨 → 경계를 찾는 것은 실제로 매우 어려움. 찾아도 노이즈가 존재 CNN 이전 1960's : 간단한 블록으로 구성된 이미지를 해석 - edge 이해 1970's : 사물 간의 ..

241015 시계열 모델링 기초 시계열 모델링 : 시간의 흐름에 따라 패턴이 변화함 ML 기반 시계열 모델링: 데이터 1차원DL 기반 시계열 모델링: 데이터 2차원 특정 시점 데이터 관계로부터 패턴을 추출 t: 현재 시점 t+1: 예측 시점 timestep: 특정 시점 절차y 시각화, 정상성 검토모델 생성 잔차 분석 검증 예측검증 평가 - 평가지표ACF, PACF : 기준선 이하여야 함AIC, MAE, MAPE, R^2정상성을 갖는 대표적인 시계열: 백색잡음 white noise이 되도록 시계열 모델을 만들어야 함 RNN t: time step hidden state: 메모리 셀이 출력층 방향 또는 다음 시점인 t+1의 자신에게 보내는 값 h_t: tanh(w_hh * h_t-1 + w_xh*x..