zenn.skin 무료버전 배포중!
자세히보기

DataScience 56

DataScience
[Numpy] 배열과 행렬

Numpy에서 다차원 배열을 '배열'과 '행렬'을 이용해 나타낸다. 이 때 배열과 행렬은 일반적으로 사용하는 '배열'의 형태이다. 둘의 차이는 행렬곱 연산에 사용되는 연산자의 차이뿐이다. import numpy as np A = np.array([[1,2], [3,4]]) #배열 B = np.matrix([[1,2], [3,4]]) #행렬 위와 같이 정의했을 때 각각의 자료형은 다음과 같다 배열은 ndarray 객체이고, 행렬은 matrix 객체이다 전에는 둘의 행렬곱 연산에 차이가 있었다 ndarray는 dot 연산을 이용해 나타냈고, matrix는 * 연산을 이용해 행렬곱을 나타냈다 지금은 둘을 혼용해서 사용가능하다 배열과 행렬을 곱했을 때는 matrix 객체를 반환한다 @연산자를 사용해 행렬곱이 가..

DataScience
아나콘다 라이브러리 설치

1. 아나콘다 아나콘다는 데이터 분석이나 머신러닝 분야에 많이 사용되는 Python 기반의 오픈 소스 플랫폼이다. Jupyter Notebook이나 Spyder, Visual Studio Code 등 다양한 프로그램을 지원한다. 또 Numpy나 Pandas, Scipy 등의 데이터 분석을 위한 패키지는 물론 웹 프로그래밍을 위한 urlib, requests 등 수많은 패키지를 지원해 편의성이 높다. 자세한 것은 아나콘다 홈페이지를 참조 Anaconda | The World's Most Popular Data Science Platform Anaconda is the birthplace of Python data science. We are a movement of data scientists, data-..

DataScience
푸아송 분포의 정의와 평균, 분산

1. 푸아송 랜덤 변수 - 푸아송 랜덤 변수는 주어진 시간동안 사건이 랜덤하게 일어날 확률을 나타낸다 - 각 시행이 일어날 확률이 랜덤하므로, 일정 시간동안 평균적으로 몇 번 발생했는지를 나타낸다 - 웹 서버의 REQUEST, 방사성 물질의 입자 방출 등의 분야에서도 사용된다 ※매클로린 급수를 이용해 평균과 분산을 구할 수 있다 2. 평균 3. 분산

DataScience
파스칼(음이항)분포의 정의와 평균, 분산

1. 파스칼 랜덤 변수 - 성공/실패 두 가지 결과만 나타내는 시행을 n회 반복한다 - 성공확률이 p일 때, 실패할 확률은 1-p이다 - n번 시행 중 처음으로 k번 성공하는 확률을 나타낸다 - 베르누이 시행이 독립적으로 n회 반복된다 - k가 1일 때의 파스칼 분포는 기하 분포를 의미한다 - 파스칼 분포는 기하 분포의 일반화이다 1) x-1번까지 시행의 확률 - x-1번 중 k-1번 성공, (x-1)-(k-1)=x-k번 실패할 확률이다 - 이항 분포를 따른다 2) x번째 시행의 확률 - x번째 시행에서 처음으로 k번 성공해야 하므로 x번째 시행은 성공이다 ※ iid와 기하 분포의 평균과 분산을 이용해 파스칼 분포의 평균과 분산을 구할 수 있다 2. 평균 - 랜덤 변수 X를 독립이면서 기하분포를 따르는 ..

DataScience
이항분포의 정의와 평균, 분산

1. 이항 랜덤 변수 - 성공/실패 두 가지 결과만 나타내는 시행을 n회 반복한다 - 성공확률이 p일 때, 실패할 확률은 1-p이다 - n번 시행 중 x번 성공하는 확률을 나타낸다 - 베르누이 시행이 독립적으로 n회 반복됨을 의미한다 조합을 이용해 n번 중 성공이 순서없이 x번 발생하는 경우의 수를 구한다 성공할 확률은 p이므로, 확률p가 x번 반복된다 실패할 확률은 1-p로, 확률1-p가 n-x번 반복된다 2. 평균 - 이항 랜덤 변수는 베르누이 시행이 독립적으로 n회 반복되는 시행을 나타낸다 - 베르누이 랜덤 변수의 평균은 p이다 베르누이분포의 정의와 평균 1. 베르누이 랜덤 변수 - 성공/실패 두 가지 결과만 나타내는 한 번의 시행을 나타낸다 - 성공확률이 p일 때, 실패할 확률은 1-p이다 X 0..

DataScience
베르누이분포의 정의와 평균, 분산

1. 베르누이 랜덤 변수 - 성공/실패 두 가지 결과만 나타내는 한 번의 시행을 나타낸다 - 성공확률이 p일 때, 실패할 확률은 1-p이다 X 0 1 계 1-p p 1 2. 평균 - 이산 랜덤 변수의 평균은 다음과 같이 구할 수 있다 - 베르누이 랜덤 변수는 항상 0 또는 1의 결과만 가지므로, 평균은 다음과 같다 3. 분산 - 이산 랜덤 변수의 평균은 다음과 같이 구할 수 있다 - 베르누이 랜덤변수의 분산을 구하면,

DataScience
[Numpy] 개요

※Numpy 배열 처리에 특화된 라이브러리이다 다차원 배열을 나타내기 용이하다 파이썬이 제공하는 리스트/튜플의 느린 처리 속도를 극복하기 위한 라이브러리이다 배열 연산이 매우 빠르다 ndarray(다차원 배열 객체)를 이용해 배열 연산을 수행한다 ※주요기능 유니버셜함수 다양한 함수 기능 제공 다른 언어에 대한 인터페이스 제공 1. 유니버셜함수 - ndarray의 각 요소에 연산을 거친 후 결과를 반환한다 -> 선형대수 계산을 간결하고 가독성 높게 작성할 수 있다 2. 다양한 함수 기능 제공 배열/행렬 생성 및 조작 수학/선형대수 Random Sampling 통계함수 index조작 정렬/탐색/계수 다항식 계산 데이터 입출력 Fourier 연산 - 이외에도 논리 연산이나 문자열, 바이너리 등 매우 많은 함수..

DataScience
산포도 (사분위수, 범위, 분산, 표준편차)

- 데이터의 중심이 어디 있는지만으로는 자료의 분석이 쉽지 않다 - 두 데이터가 주어졌을 때, 둘의 평균이 같더라도 흩어진 정도는 다를 수 있다( 평균점수가 같은 A반과 B반) - 산포도는 주어진 데이터가 얼마나 퍼져있는지를 나타낸다 - 0에 가까울수록 값이 몰려 있고, 값이 클수록 값이 넓게 퍼져있다 1. 범위(range) - 범위는 산포도를 나타내는 가장 간단한 통계치이다 - 범위는 가장 큰 값에서 가장 작은 값을 뺀 값이다 - 이상치에 민감하다(튀는 값 하나만 있더라도 범위가 매우 커진다) def data_range(xs): return max(xs)-min(xs) 2. 사분위수(quartile) - 사분위수는 자료를 정렬한 후에 백분율을 4 등분한 각 점을 의미한다 제1사분위수 제2사분위수 제3사..