zenn.skin 무료버전 배포중!
자세히보기

분류 전체보기 182

DataScience
단순선형회귀 (Linear Regression)

1. 단순선형회귀 회귀는 문제를 예측할 때 사용하는 알고리즘이다. 입력값과 출력 값이 주어질 때, 이에 대한 함수를 정의하고 새로운 데이터가 들어왔을 때, 정의된 함수를 이용해 값을 예측하도록 동작한다. X = [1, 2, 3] Y = [5, 8, 11] 위와 같이 x와 y값이 주어졌을 때, 우리는 x와 y의 관계가 y = 3x + 2라고 직감적으로 유추할 수 있다. 동일한 관계로 3개의 값이 주어졌을 때는 쉽게 유추할 수 있다. 하지만 데이터의 수가 많아지고 데이터들이 동일한 직선 위에 존재하지 않는다면 직관적으로 관계를 유추하기 어려워진다. 선형회귀는 많은 데이터가 주어졌을 때, 데이터들의 관계를 가장 잘 나타내는 함수를 표현하는 방법이다. 단순선형회귀는 독립변수가 하나일 때의 회귀식으로 일차원 그래..

DataScience
체르노프 부등식(Chernoff Inequality)

1. 체르노프 부등식 확률변수의 분포를 알고 있을 때 사용 가능하다 체비셰프 부등식에 비해 필요한 정보가 많아 잘 사용하지 않는다(분포를 알아야 한다) 적률 생성 함수(mgf)를 이용해 구할 수 있다 체르노프 부등식은 최솟값을 구하기 위해 미분을 하는 등의 추가적인 연산이 필요하고 확률변수의 분포를 알고 있어야만 사용한다는 단점이 있다. 마르코프 부등식이나 체비셰프 부등식에 비해 확률변수의 상한값을 오차 없이 제공한다는 장점이 있다. 2. 체르노프 부등식의 증명 단위 계단 함수와 지수함수가 만날 때, 만나는 점보다 큰 x값에서 단위 계단 함수는 지수함수보다 클 수 없다. 미분 등의 방법을 이용해 적률 생성 함수의 최솟값을 구하면 확률변수의 상한값을 구할 수 있다. 체르노프 부등식은 확률변수의 분포를 알고..

DataScience
마르코프 부등식, 체비셰프 부등식 (Markov Inequality, Chebyshev Inequality)

1. 마르코프 부등식(Markov Inequality) 확률변수의 기댓값을 알고 있을 때 사용 가능하다 정확한 확률분포를 몰라도 기댓값을 알면 사용 가능하다는 장점이 있다 체비셰프 부등식을 증명하기 위해 사용된다 마르코프 부등식은 음이 아닌 값을 갖는 확률변수의 상한값을 나타낸다. 2. 마르코프 부등식의 증명 부등식 오른쪽의 적분식에서 x는 c^2부터 무한대까지 적분을 한다. 그러므로 x값은 항상 c^2보다 크게 된다. 3. 체비셰프 부등식(Chebyshev Inequality) 확률변수의 분산을 알고 있을 때 사용 가능하다 마르코프 부등식에 비해 상한값이 줄어든다(정확도가 더 높다) 마르코프 부등식을 이용해 증명 가능하다 체비셰프 부등식은 마르코프 부등식과 다르게 확률변수가 음일 경우에도 사용 가능하다..

Math
시그모이드 함수(Sigmoid Function)

1. 시그모이드 함수 시그모이드 함수는 S자 모양의 함수로 로지스틱 함수, 오차 함수나 정규분포의 cdf, arctan(역 탄젠트) 함수 등 다양한 함수에서 찾을 수 있다. 시그모이드 함수는 다음 특징을 갖는다 0~1 사이의 값을 갖는다 하나의 변곡점을 가지며 모든 점에서 음이 아닌 미분 값을 갖는다 2. 시그모이드 함수의 범위 시그모이드 함수는 미분이 가능하므로 미분 불가능한 단위 계단 함수(unit step function) 대신 사용 가능하다. 0~1 사이의 값을 반환하므로 로지스틱 회귀에서 확률을 나타낼 때에도 사용된다.

DataScience
[JupyterNoteBook] 시작 폴더 변경

주피터 노트북을 설치하면 기본 설정 폴더가 사용자의 홈 디렉터리로 되어있다. 상위 폴더나 다른 드라이브로 이동이 불가능하므로 불편했는데 시작 폴더의 경로를 변경해보려 한다. 1. 먼저 시작창에서 Jupyter Notebook을 찾는다 2. Jupyter Notebook의 속성창을 열어준다 밑줄 친 부분을 지우고 내가 설정하고자 하는 경로를 큰 따옴표 안에 입력해준다. ※주의: 경로의 마지막에 \(역슬래쉬)를 붙이면 안된다! 3. 경로 변경 확인 주피터 노트북을 실행하고 "Serving notebooks from local directory: [경로]"를 확인한다. 입력한 경로가 제대로 설정되었다면 설정한 경로가 표시된다.

DataScience
적률 생성 함수 (Moment Generating Function : MGF)

1. 적률(Moment)이란? 적률이란 확률변수 X^n의 기댓값을 의미한다. X^n의 기댓값을 n차 적률이라 하며, n이 1이면 1차 적률, 2이면 2차 적률이라 한다. 1차 적률은 평균(mean), 2차 적률은 분산(variance), 3차 적률은 왜도(skewness), 4차 적률은 첨도(kurtosis)를 구하는 데 사용될 수 있다. 평균과 분산만 갖고는 분포를 정확히 파악하기 어렵다. 왜도와 첨도의 데이터를 얻으면 좀 더 분포에 대해 정확히 이해할 수 있는데 적률을 이용해 분포의 특성을 쉽게 얻을 수 있다. 2. 적률 생성 함수(Moment Generating Function: MGF) 적률 생성 함수는 특정 확률 분포에 대한 "적률을 생성하는 함수"이다. 다음과 같이 정의되고 값을 계산하므로써 ..

DataScience
공분산, 상관계수 (Covariance, Correlation Coefficient)

1. 공분산 (Covariance) 분산은 한 개의 확률 변수가 주어질 때, 그 변수가 평균으로부터 평균적으로 얼마나 떨어져있는지(분포되어 있는지)를 나타낸다. 비슷하게 공분산은 2개의 확률 변수가 주어질 때, 두 확률 변수가 얼마나 다른지(상관이 있는지) 알 수 있다. 두 확률 변수가 함께 변하는지를 나타내는 값으로, 두 변수가 함께 증가(또는 감소)하는지를 나타낸다. * 공분산에 따른 두 랜덤 변수의 관계 (1) Cov[X,Y] > 0 인 경우 즉, 공분산이 양수인 경우, X와 Y는 서로 증감에 대해 비례 관계를 갖는다. (2) Cov[X,Y] < 0 인 경우 즉, 공분산이 음수인 경우, X와 Y는 서로 증감에 대해 반비례 관계를 갖는다. 2. 상관 계수 (Correlation Coefficient)..

Math
테일러급수, 매클로린 급수(Taylor Series, Maclaurin Series)

1. 테일러급수(Taylor Series) 테일러급수는 무한히 미분 가능한 함수 f(x)에 대해 점 x=a에서 해당 함수 f(x)에 접하는 다항 함수를 표현하는 방법이다. 테일러급수는 말 그대로 급수로, 무한개의 다항식으로 표현된다. 하지만 몇 개의 항만을 이용해도 해당 값에 근사한 값을 구할 수 있으므로 보통 몇 개의 항만을 이용해 근사치를 낸다. 테일러급수를 이용하면 해석 함수의 근사치를 구할 수 있다. 삼각함수나 지수함수들도 다항함수로 나타내 값을 근사 시킬 수 있고 외에도 복잡한 해석 함수 계산도 비교적 쉽게 구할 수 있는 장점이 있다. 테일러급수가 a=0인 경우의 테일러급수가 주로 사용되고 이런 급수를 매클로린 급수라 한다. 2. 테일러급수의 증명 무수히 미분 가능한 함수 y=f(x)에 대해, ..