지난번에 회귀모형을 평가하는 지표에 대해 알아보았습니다.
분류모형을 평가할 때는 회귀모형에서의 MAE나 RMSE, R^2를 사용할 수 없기 때문에 혼동행렬(confusion matrix)을 이용한 별도의 지표를 사용해 모델을 평가하게 됩니다.
1. 혼동행렬(Confusion Matrix)
confusion matrix는 모델의 성능 측정을 위해, 실제값과 측정값을 비교하기 위한 표를 의미합니다.
T/F는 True/False, P/N은 Possitive/Negative를 의미합니다.
처음 혼동행렬을 보면 이름처럼 혼동이 되는데 값을 읽을 때 뒤에서 앞으로 읽으면 덜 헷갈립니다.
- TP: Possitive라 예측했는데 True다 -> 실제값은 Possitive다
- FN: Negative라 예측했는데 False다 -> 실제값은 Possitive다
- FP: Possitive라 예측했는데 False다 -> 실제값은 Negative다
- TN: Negative라 예측했는데 True다 -> 실제값은 Negative다
- 실제값이 Possitive인 항목: TP + FN
- 실제값이 Negative인 항목: TN + FP
- Possitive라 예측한 항목: TP + FP
- Negative라 예측한 항목: TN + FN
이제 이 값들을 사용해 분류 모델의 측정 지표를 구할 수 있습니다.
① 정확도(accuracy)
정확도는 전체 항목 중 정확하게 예측한 값들의 비율을 나타냅니다.
T는 예측한 값이 True인 값들을 나타내므로, 전체 중 옳게 예측한 TP + TN의 수를 이용해 구할 수 있습니다.
TP: Possitive라는 예측이 True임
TN: Negative라는 예측이 True임
② 정밀도(precision)
정밀도는 Possitive라 예측한 값들 중 실제로 Possitive인 값의 비율을 나타냅니다.
P는 Possitive로 예측한 값들을 나타내므로, TP + FP는 Possitive로 예측한 값들임을 알 수 있습니다.
③ 재현도, 민감도(recall, sensitivity)
재현도는 실제 Possitive인 값들 중 Possitive로 예측한 값의 비율을 나타냅니다.
TP는 Possitive라 예측했는데 True이므로 Possitive이고,
FN은 Negative라 예측했는데 False이므로 Possitive입니다. 따라서 TP + FN은 실제 Possitive인 값들임을 알 수 있습니다.
④ 특이도(specificity)
특이도는 실제 Negative인 값들 중 Negative로 예측한 값의 비율을 나타냅니다.
TN은 Negative라 예측했는데 True이므로 Negative이고,
FP는 Possitive라 예측했는데 False이므로 Negative입니다. 따라서 TN + FP는 실제 Negative인 값들임을 알 수 있습니다.
2. F1 score
데이터의 분포가 고르지 않고 불균형이 심할 때는 F1 score를 통해 모델을 평가할 수 있습니다.
F1 score는 정밀도와 재현도의 산술평균을 통해 구할 수 있습니다. 산술평균은 평균적인 변화율을 구하기 위해 사용하는 평균입니다.
즉, F1 score는 1) 실제 possitive값들 중 정확히 possitive를 맞춘 비율과 2) possitive라 예측한 값들 중 실제 possitive를 맞춘 비율의 평균을 이용해 모델을 평가하는 지표입니다.
데이터의 불균형이 심한 경우에는 accuracy보다는 F1 score를 사용하는 것이 더 유용할 수 있습니다.
'DataScience' 카테고리의 다른 글
[Python] t분포의 신뢰구간(Confidence Interval, CI) (0) | 2022.10.05 |
---|---|
[Python] 통계량을 이용해 t 검정, z 검정(t-test, z-test) (0) | 2022.10.02 |
[ML] MAB(Multi-Armed Bandit Algorithm, 멀티 암드 밴딧) (0) | 2022.09.02 |
[Pandas] UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbb in position 2: invalid start byte (0) | 2022.08.23 |
임의순열검정(random permutation test) (0) | 2022.08.23 |