목록Study/데이터 과학을 위한 통계 (4)
Koo's.Co
비지도학습은 지도학습과 다르게 레이블이 달린 데이터를 이용하지 않고 데이터로부터 의미 있는 결론을 끌어내는 통계적 기법을 의미합니다. 비지도 학습은 지도학습과 다르게 응답변수와 예측변수 사이의 구분이 없습니다. 주성분 분석은 범주형 데이터는 사용할 수 없고 연속형 데이터에 대해서만 사용할 수 있습니다. 비지도 학습의 목적 응답변수(종속변수)가 없는 상태에서 예측 규칙을 만드는 용도로 사용 데이터의 변수들을 관리할 수 있을 만한 수준으로 차원을 축소 변수와 레코드의 수가 클 때는 EDA의 목적으로도 사용 1. 주성분분석(Principal Components Analysis) 주성분(principal component): 예측변수들의 선형결합 부하(loading, weight): 예측변수들을 성분으로 변형할..
데이터 과학에서 자동으로 어떤 결정을 해야 하는 종류의 문제들을 자주 접하게 됩니다. 피싱 이메일 여부, 고객의 이탈 여부, 웹 사용자들의 광고 클릭 여부 등의 문제들을 분류(classification) 문제라고 합니다. 분류 문제는 결과를 알고 있는 데이터를 이용해 모델을 학습하는 지도 학습의 한 형태입니다. 대부분의 알고리즘들은 이진 분류의 결과를 할당하는 것이 아닌, 관심 클래스에 속할 확률 점수(경향, propensity)를 반환합니다. python에서는 predict(클래스 반환)나 predict_proba(클래스 확률 반환)를 사용해 예측을 할 수 있습니다. 이후 이동 컷오프(절사)를 통해 경향 점수로부터 결정을 내릴 수 있습니다. 1. 어떤 레코드가 속할 것이라 생각되는 관심 클래스에 대한 ..
- Chapter3 목표: 전통적인 실험설계에 대해 알아보고 데이터 과학에도 적용되는 어려움에 대해 공부 - 실험설계는 모든 응용 연구 분야에서 통계분석의 토대가 됩니다. - 실험설계의 목적은 가설을 확인하거나 기각하는 것입니다. - 통계적 추론 방법: 1) 가설을 설정 -> 2) 가설 검정을 위한 실험 설계 -> 3) 데이터 수집 -> 4) 데이터 분석 -> 5)결론 도출 - 추론이라는 용어는 제한된 데이터로 주어진 실험 결과를 더 큰 과정( 또는 모집단)에 적용하려는 의도를 반영합니다 1. A/B 검정(A/B test) - A/B 검정은 두 가지 처리 방법 중 어느 쪽이 다른 쪽보다 더 우월하다는 것을 입증하기 위해, 실험군을 두 그룹으로 나누어 진행하는 실험을 의미합니다. - 한 쪽 그룹에만 처리를..
- 표본 추출의 필요성: 다양한 데이터를 효과적으로 다루고 데이터 편향을 최소화하기 위해 표본 추출이 필요합니다 - 데이터 프로젝트도 결국 작은 표본 데이터를 이용해 모델을 개발하고 학습시킵니다 - 전통적인 통계학: 이론적 가정에 기초해 모집단을 규명하는 것이 목적 - 현대 통계학: 표본을 중점적으로 연구 1. 임의표본추출과 통계량(random sampling & statistic) - 모집단(population): 연구하고자 하는 전체 데이터 집단 - 표본(sample): 전체 모집단을 확인하는 것이 불가능하기 때문에, 모집단으로부터 추출한 전체 데이터의 부분집합 - 임의표본추출(random sampling): 모집단에서 선택 가능한 원소들을 무작위로 추출하는 표본추출 방법 - 단순임의표본(simple..