zenn.skin 무료버전 배포중!
자세히보기

DataScience 56

DataScience
단순선형회귀 (Linear Regression)

1. 단순선형회귀 회귀는 문제를 예측할 때 사용하는 알고리즘이다. 입력값과 출력 값이 주어질 때, 이에 대한 함수를 정의하고 새로운 데이터가 들어왔을 때, 정의된 함수를 이용해 값을 예측하도록 동작한다. X = [1, 2, 3] Y = [5, 8, 11] 위와 같이 x와 y값이 주어졌을 때, 우리는 x와 y의 관계가 y = 3x + 2라고 직감적으로 유추할 수 있다. 동일한 관계로 3개의 값이 주어졌을 때는 쉽게 유추할 수 있다. 하지만 데이터의 수가 많아지고 데이터들이 동일한 직선 위에 존재하지 않는다면 직관적으로 관계를 유추하기 어려워진다. 선형회귀는 많은 데이터가 주어졌을 때, 데이터들의 관계를 가장 잘 나타내는 함수를 표현하는 방법이다. 단순선형회귀는 독립변수가 하나일 때의 회귀식으로 일차원 그래..

DataScience
체르노프 부등식(Chernoff Inequality)

1. 체르노프 부등식 확률변수의 분포를 알고 있을 때 사용 가능하다 체비셰프 부등식에 비해 필요한 정보가 많아 잘 사용하지 않는다(분포를 알아야 한다) 적률 생성 함수(mgf)를 이용해 구할 수 있다 체르노프 부등식은 최솟값을 구하기 위해 미분을 하는 등의 추가적인 연산이 필요하고 확률변수의 분포를 알고 있어야만 사용한다는 단점이 있다. 마르코프 부등식이나 체비셰프 부등식에 비해 확률변수의 상한값을 오차 없이 제공한다는 장점이 있다. 2. 체르노프 부등식의 증명 단위 계단 함수와 지수함수가 만날 때, 만나는 점보다 큰 x값에서 단위 계단 함수는 지수함수보다 클 수 없다. 미분 등의 방법을 이용해 적률 생성 함수의 최솟값을 구하면 확률변수의 상한값을 구할 수 있다. 체르노프 부등식은 확률변수의 분포를 알고..

DataScience
마르코프 부등식, 체비셰프 부등식 (Markov Inequality, Chebyshev Inequality)

1. 마르코프 부등식(Markov Inequality) 확률변수의 기댓값을 알고 있을 때 사용 가능하다 정확한 확률분포를 몰라도 기댓값을 알면 사용 가능하다는 장점이 있다 체비셰프 부등식을 증명하기 위해 사용된다 마르코프 부등식은 음이 아닌 값을 갖는 확률변수의 상한값을 나타낸다. 2. 마르코프 부등식의 증명 부등식 오른쪽의 적분식에서 x는 c^2부터 무한대까지 적분을 한다. 그러므로 x값은 항상 c^2보다 크게 된다. 3. 체비셰프 부등식(Chebyshev Inequality) 확률변수의 분산을 알고 있을 때 사용 가능하다 마르코프 부등식에 비해 상한값이 줄어든다(정확도가 더 높다) 마르코프 부등식을 이용해 증명 가능하다 체비셰프 부등식은 마르코프 부등식과 다르게 확률변수가 음일 경우에도 사용 가능하다..

DataScience
[JupyterNoteBook] 시작 폴더 변경

주피터 노트북을 설치하면 기본 설정 폴더가 사용자의 홈 디렉터리로 되어있다. 상위 폴더나 다른 드라이브로 이동이 불가능하므로 불편했는데 시작 폴더의 경로를 변경해보려 한다. 1. 먼저 시작창에서 Jupyter Notebook을 찾는다 2. Jupyter Notebook의 속성창을 열어준다 밑줄 친 부분을 지우고 내가 설정하고자 하는 경로를 큰 따옴표 안에 입력해준다. ※주의: 경로의 마지막에 \(역슬래쉬)를 붙이면 안된다! 3. 경로 변경 확인 주피터 노트북을 실행하고 "Serving notebooks from local directory: [경로]"를 확인한다. 입력한 경로가 제대로 설정되었다면 설정한 경로가 표시된다.

DataScience
적률 생성 함수 (Moment Generating Function : MGF)

1. 적률(Moment)이란? 적률이란 확률변수 X^n의 기댓값을 의미한다. X^n의 기댓값을 n차 적률이라 하며, n이 1이면 1차 적률, 2이면 2차 적률이라 한다. 1차 적률은 평균(mean), 2차 적률은 분산(variance), 3차 적률은 왜도(skewness), 4차 적률은 첨도(kurtosis)를 구하는 데 사용될 수 있다. 평균과 분산만 갖고는 분포를 정확히 파악하기 어렵다. 왜도와 첨도의 데이터를 얻으면 좀 더 분포에 대해 정확히 이해할 수 있는데 적률을 이용해 분포의 특성을 쉽게 얻을 수 있다. 2. 적률 생성 함수(Moment Generating Function: MGF) 적률 생성 함수는 특정 확률 분포에 대한 "적률을 생성하는 함수"이다. 다음과 같이 정의되고 값을 계산하므로써 ..

DataScience
공분산, 상관계수 (Covariance, Correlation Coefficient)

1. 공분산 (Covariance) 분산은 한 개의 확률 변수가 주어질 때, 그 변수가 평균으로부터 평균적으로 얼마나 떨어져있는지(분포되어 있는지)를 나타낸다. 비슷하게 공분산은 2개의 확률 변수가 주어질 때, 두 확률 변수가 얼마나 다른지(상관이 있는지) 알 수 있다. 두 확률 변수가 함께 변하는지를 나타내는 값으로, 두 변수가 함께 증가(또는 감소)하는지를 나타낸다. * 공분산에 따른 두 랜덤 변수의 관계 (1) Cov[X,Y] > 0 인 경우 즉, 공분산이 양수인 경우, X와 Y는 서로 증감에 대해 비례 관계를 갖는다. (2) Cov[X,Y] < 0 인 경우 즉, 공분산이 음수인 경우, X와 Y는 서로 증감에 대해 반비례 관계를 갖는다. 2. 상관 계수 (Correlation Coefficient)..

DataScience
몬티홀 딜레마, 몬티홀 문제 풀이

몬티홀 문제 A, B, C 세 개의 문이 주어진다. 한 개의 문 뒤에는 자동차가 있고, 나머지 두 개의 문 뒤에는 염소가 있다. 당신이 A문을 열었고 사회자는 C문을 열어 염소를 확인시켜주었다. 사회자가 당신에게 문을 바꿀지 물어볼 때 당신은 선택을 바꿀 것인가? 조건부 확률과 베이즈 정리를 공부할 때 꼭 접하게 되는 확률 문제이다. 정답부터 말하면 바꾸는 것이 이득이다. 지금부터 왜 그런지 두 가지 방법으로 확률 문제를 풀며 살펴보려 한다. 풀이 1) 조건부 확률 이용 사회자가 각각의 문을 여는 사건을 A, B, C라 하자. 각각의 문을 선택했을 때, 1) 선택을 바꾸지 않는 경우와 2) 바꾸는 경우에 대해서 비교해 보려 한다. 차는 A문 뒤에 있다 가정하자. (바꾼다는 사실이 중요하므로 어느 문을 정..

DataScience
베이즈 정리 (Bayes' theorem)

베이즈 정리는 조건부 확률에 대한 정리 중 하나이다. 사건 A와 사건 B에 대해, 확률 P(A)와 P(B), 조건부 확률 P(B|A)를 알고 있을 때, P(A|B)를 도출해 낼 수 있다. 베이즈 정리는 다음과 같이 증명할 수 있다. 전체 확률의 법칙을 적용하면, 조건부 확률 1. 확률 - 확률은 주어진 사건 공간에서 특정 사건이 선택되는 경우를 수치적으로 나타낸 것이다 - 모델을 만들거나, 만들어진 모델의 성능을 평가하는 데에 사용 가능하다 2. 종속성과 독립성 - � koosco.tistory.com