zenn.skin 무료버전 배포중!
자세히보기

전체 글 182

DataScience
아나콘다 라이브러리 설치

1. 아나콘다 아나콘다는 데이터 분석이나 머신러닝 분야에 많이 사용되는 Python 기반의 오픈 소스 플랫폼이다. Jupyter Notebook이나 Spyder, Visual Studio Code 등 다양한 프로그램을 지원한다. 또 Numpy나 Pandas, Scipy 등의 데이터 분석을 위한 패키지는 물론 웹 프로그래밍을 위한 urlib, requests 등 수많은 패키지를 지원해 편의성이 높다. 자세한 것은 아나콘다 홈페이지를 참조 Anaconda | The World's Most Popular Data Science Platform Anaconda is the birthplace of Python data science. We are a movement of data scientists, data-..

Python/Web Scraping
[웹크롤링] 미국 하의원의 홈페이지 링크 저장하기

Beautifulsoup와 urllib 모듈을 이용해 'https://www.house.gov/representatives' 홈페이지에 있는 주소를 저장해 보자 1. 페이지의 HTML 콘텐츠 획득 HTML 문서를 불러오고 파싱을 하기 위해, urllib와 bs4 모듈을 import 한다 urlopen을 이용해 HTML 문서 내용을 불러오고 BeautifulSoup 객체를 생성한다 from bs4 import BeautifulSoup from urllib.request import urlopen url = urlopen('https://www.house.gov/representatives') bsObj = BeautifulSoup(url.read(), 'html.parser') 2. 링크의 추출 all_u..

Python/Syntax
정규표현식(Regular Expression, regex)

1. 정규표현식이란? - 정규표현식은 특정한 조건의 문자를 검색하거나 치환하는 과정을 간단하게 할 수 있도록 도와준다. 처음 보면 익숙하지 않은 문법에 당황할 수 있고, 직접 정규표현식을 작성하더라도 나중에 다시 보면 내가 짠 정규표현식을 이해하기 어려울 때도 있다... 하지만 문자열 처리를 할 때는 없어서는 안 되는 꼭 필요한 형식 언어이다:) - 웹 프로그래밍을 할 때, url을 동적으로 지정할 때도 사용되며 웹 크롤링에서 파싱할 때도 항상 사용된다. 문자열이 많이 사용되는 웹 프로그래밍 관련 부분에서는 정규표현식이 없으면 문자열 처리가 매우 복잡해지므로 필수적으로 사용된다 - 대문자와 소문자를 구분하며 뛰어 쓰기를 구분한다 2. 메타 문자 - 정규표현식에서 특수한 의미를 갖는 특수문자를 메타 문자라..

DataScience
푸아송 분포의 정의와 평균, 분산

1. 푸아송 랜덤 변수 - 푸아송 랜덤 변수는 주어진 시간동안 사건이 랜덤하게 일어날 확률을 나타낸다 - 각 시행이 일어날 확률이 랜덤하므로, 일정 시간동안 평균적으로 몇 번 발생했는지를 나타낸다 - 웹 서버의 REQUEST, 방사성 물질의 입자 방출 등의 분야에서도 사용된다 ※매클로린 급수를 이용해 평균과 분산을 구할 수 있다 2. 평균 3. 분산

DataScience
파스칼(음이항)분포의 정의와 평균, 분산

1. 파스칼 랜덤 변수 - 성공/실패 두 가지 결과만 나타내는 시행을 n회 반복한다 - 성공확률이 p일 때, 실패할 확률은 1-p이다 - n번 시행 중 처음으로 k번 성공하는 확률을 나타낸다 - 베르누이 시행이 독립적으로 n회 반복된다 - k가 1일 때의 파스칼 분포는 기하 분포를 의미한다 - 파스칼 분포는 기하 분포의 일반화이다 1) x-1번까지 시행의 확률 - x-1번 중 k-1번 성공, (x-1)-(k-1)=x-k번 실패할 확률이다 - 이항 분포를 따른다 2) x번째 시행의 확률 - x번째 시행에서 처음으로 k번 성공해야 하므로 x번째 시행은 성공이다 ※ iid와 기하 분포의 평균과 분산을 이용해 파스칼 분포의 평균과 분산을 구할 수 있다 2. 평균 - 랜덤 변수 X를 독립이면서 기하분포를 따르는 ..

DataScience
이항분포의 정의와 평균, 분산

1. 이항 랜덤 변수 - 성공/실패 두 가지 결과만 나타내는 시행을 n회 반복한다 - 성공확률이 p일 때, 실패할 확률은 1-p이다 - n번 시행 중 x번 성공하는 확률을 나타낸다 - 베르누이 시행이 독립적으로 n회 반복됨을 의미한다 조합을 이용해 n번 중 성공이 순서없이 x번 발생하는 경우의 수를 구한다 성공할 확률은 p이므로, 확률p가 x번 반복된다 실패할 확률은 1-p로, 확률1-p가 n-x번 반복된다 2. 평균 - 이항 랜덤 변수는 베르누이 시행이 독립적으로 n회 반복되는 시행을 나타낸다 - 베르누이 랜덤 변수의 평균은 p이다 베르누이분포의 정의와 평균 1. 베르누이 랜덤 변수 - 성공/실패 두 가지 결과만 나타내는 한 번의 시행을 나타낸다 - 성공확률이 p일 때, 실패할 확률은 1-p이다 X 0..

DataScience
베르누이분포의 정의와 평균, 분산

1. 베르누이 랜덤 변수 - 성공/실패 두 가지 결과만 나타내는 한 번의 시행을 나타낸다 - 성공확률이 p일 때, 실패할 확률은 1-p이다 X 0 1 계 1-p p 1 2. 평균 - 이산 랜덤 변수의 평균은 다음과 같이 구할 수 있다 - 베르누이 랜덤 변수는 항상 0 또는 1의 결과만 가지므로, 평균은 다음과 같다 3. 분산 - 이산 랜덤 변수의 평균은 다음과 같이 구할 수 있다 - 베르누이 랜덤변수의 분산을 구하면,

DataScience
[Numpy] 개요

※Numpy 배열 처리에 특화된 라이브러리이다 다차원 배열을 나타내기 용이하다 파이썬이 제공하는 리스트/튜플의 느린 처리 속도를 극복하기 위한 라이브러리이다 배열 연산이 매우 빠르다 ndarray(다차원 배열 객체)를 이용해 배열 연산을 수행한다 ※주요기능 유니버셜함수 다양한 함수 기능 제공 다른 언어에 대한 인터페이스 제공 1. 유니버셜함수 - ndarray의 각 요소에 연산을 거친 후 결과를 반환한다 -> 선형대수 계산을 간결하고 가독성 높게 작성할 수 있다 2. 다양한 함수 기능 제공 배열/행렬 생성 및 조작 수학/선형대수 Random Sampling 통계함수 index조작 정렬/탐색/계수 다항식 계산 데이터 입출력 Fourier 연산 - 이외에도 논리 연산이나 문자열, 바이너리 등 매우 많은 함수..