zenn.skin 무료버전 배포중!
자세히보기

DataScience

[ML] 분류모형의 평가지표(confusion matrix, accuracy, precision, sensitivity(recall), specificity, F1-score)

koosco! 2022. 9. 2. 04:32

지난번에 회귀모형을 평가하는 지표에 대해 알아보았습니다.

 

[ML] 회귀모형의 평가지표, MAE, MSE, RMSE, RSE, R^2

회귀모델을 평가하는 평가지표는 여러 가지가 있습니다. 1. MAE(Mean Absolute Error, 평균 절대 오차) 데이터의 단위와 동일하기 때문에 해석이 직관적이라는 장점이 있습니다. MSE에 비해 이상치의 영

koosco.tistory.com

분류모형을 평가할 때는 회귀모형에서의 MAE나 RMSE, R^2를 사용할 수 없기 때문에 혼동행렬(confusion matrix)을 이용한 별도의 지표를 사용해 모델을 평가하게 됩니다.

 

1. 혼동행렬(Confusion Matrix)

confusion matrix는 모델의 성능 측정을 위해, 실제값과 측정값을 비교하기 위한 표를 의미합니다.

T/F는 True/False, P/N은 Possitive/Negative를 의미합니다.

처음 혼동행렬을 보면 이름처럼 혼동이 되는데 값을 읽을 때 뒤에서 앞으로 읽으면 덜 헷갈립니다.

  • TP: Possitive라 예측했는데 True다 -> 실제값은 Possitive다
  • FN: Negative라 예측했는데 False다 -> 실제값은 Possitive다
  • FP: Possitive라 예측했는데 False다 -> 실제값은 Negative다
  • TN: Negative라 예측했는데 True다 -> 실제값은 Negative다

 

  • 실제값이 Possitive인 항목: TP + FN
  • 실제값이 Negative인 항목: TN + FP
  • Possitive라 예측한 항목: TP + FP
  • Negative라 예측한 항목: TN + FN

 

이제 이 값들을 사용해 분류 모델의 측정 지표를 구할 수 있습니다.

① 정확도(accuracy)

정확도는 전체 항목 중 정확하게 예측한 값들의 비율을 나타냅니다.

T는 예측한 값이 True인 값들을 나타내므로, 전체 중 옳게 예측한 TP + TN의 수를 이용해 구할 수 있습니다.

TP: Possitive라는 예측이 True임

TN: Negative라는 예측이 True임

 

② 정밀도(precision)

정밀도는 Possitive라 예측한 값들 중 실제로 Possitive인 값의 비율을 나타냅니다.

P는 Possitive로 예측한 값들을 나타내므로, TP + FP는 Possitive로 예측한 값들임을 알 수 있습니다.

 

③ 재현도, 민감도(recall, sensitivity)

재현도는 실제 Possitive인 값들 중 Possitive로 예측한 값의 비율을 나타냅니다.

TP는 Possitive라 예측했는데 True이므로 Possitive이고,

FN은 Negative라 예측했는데 False이므로 Possitive입니다. 따라서 TP + FN은 실제 Possitive인 값들임을 알 수 있습니다.

 

④ 특이도(specificity)

특이도는 실제 Negative인 값들 중 Negative로 예측한 값의 비율을 나타냅니다.

TN은 Negative라 예측했는데 True이므로 Negative이고,

FP는 Possitive라 예측했는데 False이므로 Negative입니다. 따라서 TN + FP는 실제 Negative인 값들임을 알 수 있습니다.

 

2. F1 score

데이터의 분포가 고르지 않고 불균형이 심할 때는 F1 score를 통해 모델을 평가할 수 있습니다.

F1 score는 정밀도와 재현도의 산술평균을 통해 구할 수 있습니다. 산술평균은 평균적인 변화율을 구하기 위해 사용하는 평균입니다.

즉, F1 score는 1) 실제 possitive값들 중 정확히 possitive를 맞춘 비율과 2) possitive라 예측한 값들 중 실제 possitive를 맞춘 비율의 평균을 이용해 모델을 평가하는 지표입니다.

데이터의 불균형이 심한 경우에는 accuracy보다는 F1 score를 사용하는 것이 더 유용할 수 있습니다.

'DataScience'의 다른글

  • 현재글 [ML] 분류모형의 평가지표(confusion matrix, accuracy, precision, sensitivity(recall), specificity, F1-score)

관련글