일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 첨가행렬
- jupyter notebook
- 이산확률질량함수
- 누적분포함수
- 사조사
- 기본행연산
- 범주형자료
- 기댓값과 분산
- Anaconda
- 조건부확률
- 균일분포
- 베르누이분포
- 이변량자료
- 표본공간
- 확률밀도함수
- 통계학개론
- 연속확률변수
- 절삭평균
- 모평균
- 이항분포
- 포아송분포
- 표본평균
- pmf
- 모수
- 통계학입문
- 피어슨상관계수
- 수학적확률
- 이산형
- 행사다리꼴
- 수치형자료
- Today
- Total
목록아카이빙 (97)
summ의 블로그
240923 >> selenium pip install seleniumfrom selenium import webdriverimport time 자동화하기 위해서 driver를 사용함- 웹 브라우저 창과 상호작용, URL 이동, 페이지에서 요소 찾기와 같은 작업을 수행from selenium import driver driver = webdriver.Chrome() page 이동 driver.get(url)자바스크립트 driver.execute_script()검색어 입력 driver.find_element(By.CSS_SELECTOR, '').send_keys('검색어')클릭 driver.find_element(By.CSS_SELECTOR).click()텍스트 뽑아오기 driver.find_elemen..
240904 버전관리 시스템의 기능 버전을 만듦 버전을 만든 걸 복제하여 백업하고 싶음 백업함 이 백업한 코드를 사람들과 공유하며 코드를 주고받음 협업 버그 버그가 존재할 때 버전관리를 하고 있는 사람과 하고 있지 않은 사람은 차이가 나기 마련이다. 버전 관리를 하고 있지 않는 사람: 모든 코드를 전수조사 해야 함버전 관리를 하고 있는 사람: 버그가 존재하지 않는 버전으로 계속하여 되돌아가 버그가 없는 버전을 찾음버전 관리 = 문제 해결 능력↑ 좋은 버전 버전이 최대한 작을수록 좋다. 또한, 하나의 버전이 하나의 주제만을 최소한으로 담고 있어야 한다. 각각의 버전이 무엇을 담고 있는지, 무슨 작업을 했는지 적절하게 기술되어 있어야 한다. git .git: repository 저장소 wor..
240920 동적 페이지 동적 : 말 그대로 웹 페이지 내에서 무엇을 클릭하거나, 반응해도 url이 바뀌지 않고 페이지 내에서 결과가 변하는 것이다. "반응형" 웹크롤링 데이터 수집 절차 1. dev tool (f12)를 이용하여 웹 데이터 url 받기 2. url 이용하여 request --> response json /html 형식으로 데이터 받아오기>> response 200번대 == success 3. 데이터 파싱: 웹 서버에서 받은 데이터를 원하는 형식으로 형태를 변경해서 사용 (이후 전처리 과정) >> json 형식을 list, dict --> df 이후 데이터 시각화 / 데이터 상관관계 분석 (데이터 스케일링) * data scaling : feature 특성 맞춰주기 - 표준화 s..
240919 class 변수와 함수를 한데 모아 나중에 재사용이 가능하게 함클래스 선언 --> 객체(변수, 함수) 생성 --> 메서드 실행 * 메서드란? 클래스 안에 선언되는 함수 class 라는 큰 틀이 존재 class는 '데이터 타입' 객체는 어떤 데이터타입인지에 따라 사용 가능한 변수, 메서드가 달라짐. special method생성자 메서드 __init__(self) *self: 자기 자신 객체 생성 시 실행되는 메서드로 사용되는 변수의 초기값을 설정하는 용도로 사용 class Account: balance = 0 def deposit(self, amount): self.balance += amount def withdraw(self, amount):..
240913이변량분석 범주형 변수 - 카이제곱검정: 시그마 (관측 빈도 - 기대빈도)**2 / 기대빈도 - 가설: 두 변수끼리 관계가 없다 / 있다 범주형 변수 교차표 사용하여 빈도 알기pd.crosstab(data.변수1, data.변수2) # normalize='columns' or 'index' 비율로 나타낼 수 있음 빈도이기에 변수 위치 바껴도 상관이 없다. 시각화: 모자이크플롯 사용mosaic(data, ['변수1', '변수2'])plt.axhline(1- data['변수2'].mean(), color = 'r')plt.show() ex. titanic survive 변수를 이용한다면생존하지 않은 승객의 비율을 나타내는 수평선을 그려 이 선이 전체 데이터에서 어느 정도의 비율이 사망했는지 ..
240912용어 정리 표준 오차: 표준편차를 루트 n으로 나눈 것 범위 max - min 사분위범위 IQR = Q3 - Q1중심극한 정리: 표본이 충분히 클수록 근사적으로 정규성을 가짐 --> 정규분포로 문제 풀이 가능 신뢰구간: 전체 신뢰구간의 95%는 모평균을 포함할 것으로 해석해야 함 범주형 변수와 수치형 변수 분석 t test 두 변수의 평균을 비교하고 싶을 때 사용검정 순서:1. 정규성 검사 Shapiro-Wilk test 유의확률 pvalue 0.05 이상이면 정규성 가정2. 분산 동질성 검사 Levene's test 유의확률 pvalue 0.05 이상이면 분산 동질성 가정 3. t test 정규성을 만족하고, 분산이 동일하면 Student’s t-test (equal_var=True)분산..
평활 smoothing 불규칙, 계절 성분 등 노이즈를 제거하여 추세를 파악하는 방법 평활 방법 이동 평균 / 국소회귀 lowess / 단순 지수 평활법 - 이동 평균 moving average 단순 평균 x bar 단순 이동 평균 SMAt현재 시점에서 m시점까지의 값을 단순하게 다 더하고 모든 데이터에 동일한 가중치 부여이동평균 기간 m 가정: 국소적으로 고정된 평균 모형n시점에서 l시점 뒤의 값 Xn+l을 예측예측오차 고정된 평균 모형 이동 평균 기간 m이 크면 평활의 효과가 커서 지엽적인 변화에 둔감함 m선택하여 MSE(m)이 최소가 되도록 하는 m 선택 2. 중심화 이동 평균 CMAt를 기준으로 좌우에 있는 데이터를 포함하여 평균을 구함홀수 일 때 짝수 일 때 3. 이중 이동 평균 이동평균의 이동..
240911통계적 추론크게 두 분류점추정 / 구간 추정(흔히 말하는 신뢰구간) 모수에 관한 주장인 가설 이 존재하며주어진 가설을 표본 자료로부터 얻은 정보를 통해 검정하는 과정을 통계적 가설검정 가설 검정 모집단: 전수 조사한 데이터 (내가 알고자 하는 항목의 모든 데이터)표본: 모집단 전체를 알 수 없기에 전체 모집단의 일부만 가져오는 것을 뜻함. 우리가 사용하는 데이터는 모두 표본임 가설검정이란? 가설을 세워 우리의 표본이 모집단을 대표할 수 있는지 확인하는 과정 분포가 중요한 이유우리가 세운 가설이 맞는지 아닌지를 데이터를 갖고 판단하기에 데이터의 유형을 나타낸 데이터 분포도가 중요. 보통 x는 독립변수 feature y는 종속변수 반응변수 label 로 불림 귀무가설과 대립가설 귀..
시각화 airquality 주기적 변동 + 상승하는 추세 df['Date'] = pd.to_datetime(df['Month'])df = df.drop('Month', axis = 1)df = df.set_index('Date')plt.figure(figsize = (15,5))df['Passengers'].plot(); 용어 정리 확률과정: 확률변수들의 집합 {Xt}t time 평균함수 자기 공분산 함수서로 다른 시점의 공분산 가운데 중심 0을 기준으로 변동이 커진다면 평균이 증가하는 것. 가운데 중심 0을 기준으로 진폭이 일정하면 평균이 일정한 것. 가운데 중심 0을 기준으로 진폭이 커진다면 분산이 증가하는 것. 가운데 중심 0을 기준으로 진폭이 일정하면 분산이 일정한 것. 표본 상관..
시계열 자료 시간의 흐름에 따라 여러 시점에 걸쳐 반복적으로 관측하여 수집한 데이터 ex 주식, 날씨 ... 자료 구분 횡단면 자료 cross-sectional: 한 시점에 관찰된 여러 변수 종단면 자료 - 시계열 자료 time series 종단 자료 - 패널 자료 panel: 여러 개체들을 여러 시간에 걸쳐서 추적 시계열 자료 특징 독립이라고 가정할 수 없음 자료 간 간격이 작으면 관측된 자료 사이의 관련성 증가 연간 / 분기별 / 월별 / 주별 / 일별 / 시간별로 나누어진 데이터 존재 일변량 시계열 가로축: 관측 시점세로축: 관측 값 시계열 데이터 예측 기존의 시계열 데이터를 갖고 그다음 데이터를 예측하는 것임 forecast예측 대상이 되고 있는 변수의 과거 자료 평가사전: 자료..