Wpis z dnia 26 października 2015 "Confusion matrix, Macierz błędu, tablica pomyłek - czyli ocena jakości klasyfikacji (część 1)" przedstawia wstęp do macierzy błędu i jej podstawowych zastosowań. Poniżej prezentujemy kolejne miary jakości klasyfikacji oparte na poznanej macierzy błędu. Przypomnijmy kodowanie klas:
- 1 - Positive
- 0 - Negative
oraz 4 możliwe wyniki przewidywań:
- True-Positive (TP - liczba przewidywań prawdziwie pozytywnych);
- True-Negative (TN - liczba przewidywań prawdziwie negatywnych);
- False-Positive (FP - liczba przewidywań fałszywie pozytywnych);
- False-Negative (FN - liczba przewidywań fałszywie negatywnych).
Czułość i specyficzność jako miary "zasięgu"
- Czułość = TPR =
- True-Positive Rate, miara "zasięgu / pokrycia / dotarcia" wskazująca w jakim procencie klasa faktycznie pozytywna została pokryta przewidywaniem pozytywnym (np. procent osób chorych, dla których test diagnostyczny wskazuje wynik pozytywny). TPR zapisujemy również jako
TPR = P( pred = P | fakt = P ) = P( pred = 1 | fakt = 1) = P( 1 | 1 )
- Specyficzność = TNR =
- True-Negative Rate, miara "zasięgu / pokrycia / dotarcia" wskazująca w jakim procencie klasa faktycznie negatywna została pokryta przewidywaniem negatywnym (np. procent osób zdrowych, dla których test diagnostyczny wskazuje wynik negatywny). TNR zapisujemy również jako
TNR = P( pred = N | fakt = N ) = P( pred = 0 | fakt = 0) = P( 0 | 0 )
PPV i NPV jako miary precyzji
- Precyzja przewidywania pozytywnego = PPV =
- Positive Predictive Value, miara precyzji wskazująca z jaką pewnością możemy ufać przewidywaniom pozytywnym, tzn. w jakim procencie przewidywania pozytywne potwierdzają się stanem faktycznie pozytywnym (np. procent osób z pozytywnym wynikiem testu medycznego, u których następnie potwierdzono diagnozę). PPV można zapisać również jako
PPV = P( fakt = P | pred = P) = P( fakt = 1 | pred = 1 )
- Precyzja przewidywania negatywnego = NPV =
- Negative Predictive Value, miara precyzji wskazująca z jaką pewnością możemy ufać przewidywaniom negatywnym, tzn. w jakim procencie przewidywania negatywne potwierdzają się stanem faktycznie negatywnym (np. procent osób z negatywnym wynikiem testu medycznego, u których następnie wykluczono chorobę). NPV można zapisać również jako
NPV = P( fakt = N | pred = N) = P( fakt = 0 | pred = 0 )
Miary zasięgu i precyzji na schemacie macierzy błędu
Miary zasięgu i precyzji na schemacie błędu klasyfikacyjnego
Zależność pomiędzy miarami jakości klasyfikacji
- Czułość (TPR) vs Specyficzność (TNR) - teoretycznie miary niezależne, co dobrze obrazują powyższe schematy. W praktyce jednak zwiększanie czułości prowadzi często do zmniejszenia specyficzności.
- PPV i NPV vs Czułość (TPR) vs Specyficzność (TNR) - korzystając z twierdzenia Bayesa można łatwo wyznaczyć zależność pomiędzy miarami precyzji i miarami zasięgu
- PPV vs NPV - miary mocno od siebie zależą, np. zwiększając frakcję TP zmniejszamy frakcję FN, lub zmniejszając frakcję FP zwiększamy frakcję TN.
Ciąg dalszy nastąpi 🙂
- Confusion matrix, Macierz błędu, tablica pomyłek - czyli ocena jakości klasyfikacji (część 1)
- Model predykcyjny i punkt odcięcia (cut-off point) - czyli ocena jakości klasyfikacji (część 3)
- Model predykcyjny i siła separacji klas - czyli ocena jakości klasyfikacji (część 4)
Pozdrowienia,
Mariusz Gromada