일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 베르누이분포
- 포아송분포
- 모평균
- 표본평균
- 이산형
- 통계학입문
- pmf
- 수학적확률
- 연속확률변수
- 행사다리꼴
- 이산확률질량함수
- 통계학개론
- 이변량자료
- jupyter notebook
- 균일분포
- 첨가행렬
- 확률밀도함수
- 사조사
- 기댓값과 분산
- 범주형자료
- 기본행연산
- Anaconda
- 수치형자료
- 모수
- 표본공간
- 조건부확률
- 피어슨상관계수
- 누적분포함수
- 이항분포
- 절삭평균
- Today
- Total
목록파이썬 (15)
Syeonny의 블로그

240923 >> selenium pip install seleniumfrom selenium import webdriverimport time 자동화하기 위해서 driver를 사용함- 웹 브라우저 창과 상호작용, URL 이동, 페이지에서 요소 찾기와 같은 작업을 수행from selenium import driver driver = webdriver.Chrome() page 이동 driver.get(url)자바스크립트 driver.execute_script()검색어 입력 driver.find_element(By.CSS_SELECTOR, '').send_keys('검색어')클릭 driver.find_element(By.CSS_SELECTOR).click()텍스트 뽑아오기 driver.find_elemen..

240920 동적 페이지 동적 : 말 그대로 웹 페이지 내에서 무엇을 클릭하거나, 반응해도 url이 바뀌지 않고 페이지 내에서 결과가 변하는 것이다. "반응형" 웹크롤링 데이터 수집 절차 1. dev tool (f12)를 이용하여 웹 데이터 url 받기 2. url 이용하여 request --> response json /html 형식으로 데이터 받아오기>> response 200번대 == success 3. 데이터 파싱: 웹 서버에서 받은 데이터를 원하는 형식으로 형태를 변경해서 사용 (이후 전처리 과정) >> json 형식을 list, dict --> df 이후 데이터 시각화 / 데이터 상관관계 분석 (데이터 스케일링) * data scaling : feature 특성 맞춰주기 - 표준화 s..

240919 class 변수와 함수를 한데 모아 나중에 재사용이 가능하게 함클래스 선언 --> 객체(변수, 함수) 생성 --> 메서드 실행 * 메서드란? 클래스 안에 선언되는 함수 class 라는 큰 틀이 존재 class는 '데이터 타입' 객체는 어떤 데이터타입인지에 따라 사용 가능한 변수, 메서드가 달라짐. special method생성자 메서드 __init__(self) *self: 자기 자신 객체 생성 시 실행되는 메서드로 사용되는 변수의 초기값을 설정하는 용도로 사용 class Account: balance = 0 def deposit(self, amount): self.balance += amount def withdraw(self, amount):..

240913이변량분석 범주형 변수 - 카이제곱검정: 시그마 (관측 빈도 - 기대빈도)**2 / 기대빈도 - 가설: 두 변수끼리 관계가 없다 / 있다 범주형 변수 교차표 사용하여 빈도 알기pd.crosstab(data.변수1, data.변수2) # normalize='columns' or 'index' 비율로 나타낼 수 있음 빈도이기에 변수 위치 바껴도 상관이 없다. 시각화: 모자이크플롯 사용mosaic(data, ['변수1', '변수2'])plt.axhline(1- data['변수2'].mean(), color = 'r')plt.show() ex. titanic survive 변수를 이용한다면생존하지 않은 승객의 비율을 나타내는 수평선을 그려 이 선이 전체 데이터에서 어느 정도의 비율이 사망했는지 ..

240912용어 정리 표준 오차: 표준편차를 루트 n으로 나눈 것 범위 max - min 사분위범위 IQR = Q3 - Q1중심극한 정리: 표본이 충분히 클수록 근사적으로 정규성을 가짐 --> 정규분포로 문제 풀이 가능 신뢰구간: 전체 신뢰구간의 95%는 모평균을 포함할 것으로 해석해야 함 범주형 변수와 수치형 변수 분석 t test 두 변수의 평균을 비교하고 싶을 때 사용검정 순서:1. 정규성 검사 Shapiro-Wilk test 유의확률 pvalue 0.05 이상이면 정규성 가정2. 분산 동질성 검사 Levene's test 유의확률 pvalue 0.05 이상이면 분산 동질성 가정 3. t test 정규성을 만족하고, 분산이 동일하면 Student’s t-test (equal_var=True)분산..

240911통계적 추론크게 두 분류점추정 / 구간 추정(흔히 말하는 신뢰구간) 모수에 관한 주장인 가설 이 존재하며주어진 가설을 표본 자료로부터 얻은 정보를 통해 검정하는 과정을 통계적 가설검정 가설 검정 모집단: 전수 조사한 데이터 (내가 알고자 하는 항목의 모든 데이터)표본: 모집단 전체를 알 수 없기에 전체 모집단의 일부만 가져오는 것을 뜻함. 우리가 사용하는 데이터는 모두 표본임 가설검정이란? 가설을 세워 우리의 표본이 모집단을 대표할 수 있는지 확인하는 과정 분포가 중요한 이유우리가 세운 가설이 맞는지 아닌지를 데이터를 갖고 판단하기에 데이터의 유형을 나타낸 데이터 분포도가 중요. 보통 x는 독립변수 feature y는 종속변수 반응변수 label 로 불림 귀무가설과 대립가설 귀..
240910Python 왕기초 (4) 시각화 라이브러리 기본 차트 그리기plt.plot(x, y, color = '', marker = 'o')*축약해서 'r-' red solid line 도 가능plt.plot(df['x열'], df['행']) x축 y축 이름 지정 x.label('이름')제목 지정 plt.title('제목')범례 표시 legend 그래프 크기 지정 plt.figure(figsize = (숫자, 숫자))그래프 나눠 그리기 subplot(row, column, index) 산점도 plt.scatter(x,y)히스토그램plt.hist(x, bins=구간, density = True/False, facecolor='내부색', alpha=투명도 조절)sns.histplot(x='변수', d..
240909Python 왕기초 (3) 데이터프레임 - 열 열 이름 변경 renamedf.rename(columns={본래 이름:변경할 이름}, inplace=True)열 삭제 dropdf.drop('삭제할 열', axis = 1, inplace=True)map map( 안에 lambda식 가능 )df['변경할 열'] = df['변경할 열'].map({변경할 것 : 변경 값, 변경할 것: 변경 값})비닝 pd.cut(df['열'], bins = [구간1,구간2] , labels = ['이름1','이름2']) 수치형 구간화하는 것이기에 pd.cut 데이터프레임 - 병합 concat pd.concat([df1, df2], axis = 0, join = 'inner' 'outer')그대로 행/열에 결합ax..
240906Python 왕기초 (2) numpy 넘파이 설치 및 불러오기pip install numpyimport numpy as np 1차원 리스트2차원 행렬3차원 벡터 축 2차원 axis 0 행 axis 1 열 np.arraynp.array()로 array 만들기array1 = np.array([1,2,3,4,5])array2 = np.array([[1,2,3],[4,5,6]])array3 = np.array([[[1,2,3],[4,5,6]]])print(array1.shape)print(array2.shape)print(array3.shape) 3차원 차원 / 행 / 열 차원 확인 방법 이름.ndim이름.shape이름.dtype 차원 변경 이름.reshape(n,n) n은 여기서 만들고자 하는 차..
240905 Python 왕기초 (1) range range(시작, 끝, 증가)시작값 생략 시 default: 0항상 끝 값 -1까지 보여줌. 끝값 포함 안됨 증가값 생략 시 default: 1 리스트 리스트 생성: [] 리스트 조회인덱스 이용: 리스트[인덱스 번호]인덱스 슬라이싱: 리스트[시작:끝] 끝에서 -1까지 보여줌. 끝값 포함 안됨양수 인덱스: 0 1 2 3 4 5 음수 인덱스: -6 -5 -4 -3 -2 -1리스트 추가: 리스트.append(추가할 값)리스트 수정: 리스트[수정할 인덱스] = 수정할 것 리스트 삭제del 리스트[인덱스]리스트.remove(값)리스트 추가: list.pop(인덱스) 딕셔너리 키:값 상태로 저장딕셔너리 생성: {키:값, 키:값, ...}딕셔너리 조회키만 조회:..