Wpis z dnia 26 października 2015 „Confusion matrix, Macierz błędu, tablica pomyłek – czyli ocena jakości klasyfikacji (część 1)” przedstawia wstęp do macierzy błędu i jej podstawowych zastosowań. Poniżej prezentujemy kolejne miary jakości klasyfikacji oparte na poznanej macierzy błędu. Przypomnijmy kodowanie klas:
- 1 – Positive
- 0 – Negative
oraz 4 możliwe wyniki przewidywań:
- True-Positive (TP – liczba przewidywań prawdziwie pozytywnych);
- True-Negative (TN – liczba przewidywań prawdziwie negatywnych);
- False-Positive (FP – liczba przewidywań fałszywie pozytywnych);
- False-Negative (FN – liczba przewidywań fałszywie negatywnych).
Czułość i specyficzność jako miary „zasięgu”
- Czułość = TPR = $\frac{TP}{TP+FN}$ – True-Positive Rate, miara „zasięgu / pokrycia / dotarcia” wskazująca w jakim procencie klasa faktycznie pozytywna została pokryta przewidywaniem pozytywnym (np. procent osób chorych, dla których test diagnostyczny wskazuje wynik pozytywny). TPR zapisujemy również jako
TPR = P( pred = P | fakt = P ) = P( pred = 1 | fakt = 1) = P( 1 | 1 )
- Specyficzność = TNR = $\frac{TN}{TN+FP}$ – True-Negative Rate, miara „zasięgu / pokrycia / dotarcia” wskazująca w jakim procencie klasa faktycznie negatywna została pokryta przewidywaniem negatywnym (np. procent osób zdrowych, dla których test diagnostyczny wskazuje wynik negatywny). TNR zapisujemy również jako
TNR = P( pred = N | fakt = N ) = P( pred = 0 | fakt = 0) = P( 0 | 0 )
PPV i NPV jako miary precyzji
- Precyzja przewidywania pozytywnego = PPV = $\frac{TP}{TP+FP}$ – Positive Predictive Value, miara precyzji wskazująca z jaką pewnością możemy ufać przewidywaniom pozytywnym, tzn. w jakim procencie przewidywania pozytywne potwierdzają się stanem faktycznie pozytywnym (np. procent osób z pozytywnym wynikiem testu medycznego, u których następnie potwierdzono diagnozę). PPV można zapisać również jako
PPV = P( fakt = P | pred = P) = P( fakt = 1 | pred = 1 )
- Precyzja przewidywania negatywnego = NPV = $\frac{TN}{TN+FN}$ – Negative Predictive Value, miara precyzji wskazująca z jaką pewnością możemy ufać przewidywaniom negatywnym, tzn. w jakim procencie przewidywania negatywne potwierdzają się stanem faktycznie negatywnym (np. procent osób z negatywnym wynikiem testu medycznego, u których następnie wykluczono chorobę). NPV można zapisać również jako
NPV = P( fakt = N | pred = N) = P( fakt = 0 | pred = 0 )
Miary zasięgu i precyzji na schemacie macierzy błędu
Miary zasięgu i precyzji na schemacie błędu klasyfikacyjnego
Zależność pomiędzy miarami jakości klasyfikacji
- Czułość (TPR) vs Specyficzność (TNR) – teoretycznie miary niezależne, co dobrze obrazują powyższe schematy. W praktyce jednak zwiększanie czułości prowadzi często do zmniejszenia specyficzności.
- PPV i NPV vs Czułość (TPR) vs Specyficzność (TNR) – korzystając z twierdzenia Bayesa można łatwo wyznaczyć zależność pomiędzy miarami precyzji i miarami zasięgu
$$\quad$$
$${\small PPV=P(fakt=1|pred=1)=}$$
$${\tiny=\frac{ P(fakt = 1) \cdot P(pred = 1 | fakt = 1) }{ P( fakt = 1)\cdot P( pred = 1 | fakt = 1) +P(fakt = 0) \cdot P(pred = 1 | fakt = 0)}=}$$
$${\small=\frac{ P(1) \cdot P(1 |1) }{ P(1)\cdot P(1|1) +P(0) \cdot P(1|0)}=}$$
$${\small=\frac{ P(1) \cdot P(1 |1) }{ P(1)\cdot P(1|1) +P(0) \cdot \big(1-P(0|0)\big)}=}$$
$${\small=\frac{ P(1) \cdot TPR}{ P(1)\cdot TPR+P(0) \cdot \big(1-TNR\big)}=}$$
$$\quad$$
$${\small NPV=P(fakt=0|pred=0)}$$
$${\tiny=\frac{ P(fakt = 0) \cdot P(pred = 0 | fakt = 0) }{ P( fakt = 0)\cdot P( pred = 0 | fakt = 0) +P(fakt = 1) \cdot P(pred = 0 | fakt = 1)}=}$$
$${\small=\frac{ P(0) \cdot P(0|0) }{ P(0)\cdot P(0|0) +P(1) \cdot P(0|1)}=}$$
$${\small=\frac{ P(0) \cdot P(0 |0) }{ P(0)\cdot P(0|0) +P(1) \cdot \big(1-P(1|1)\big)}=}$$
$${\small=\frac{ P(0) \cdot TNR}{ P(0)\cdot TNR+P(1) \cdot \big(1-TPR\big)}}$$
$$\quad$$
- PPV vs NPV – miary mocno od siebie zależą, np. zwiększając frakcję TP zmniejszamy frakcję FN, lub zmniejszając frakcję FP zwiększamy frakcję TN.
Ciąg dalszy nastąpi 🙂
- Confusion matrix, Macierz błędu, tablica pomyłek – czyli ocena jakości klasyfikacji (część 1)
- Model predykcyjny i punkt odcięcia (cut-off point) – czyli ocena jakości klasyfikacji (część 3)
- Model predykcyjny i siła separacji klas – czyli ocena jakości klasyfikacji (część 4)
Pozdrowienia,
Mariusz Gromada
Poza Liczbami: Inne Twórcze Przestrzenie
Matematyka i muzyka są ściśle powiązane przez rytm, harmonię i struktury
Matematyka i muzyka są ściśle powiązane przez rytm, harmonię i struktury, które wykorzystują matematyczne wzory i proporcje do tworzenia estetycznych i emocjonalnych doznań. Z nieśmiałą ekscytacją przedstawiam moją pierwszą poważniejszą kompozycję, w której starałem się uchwycić te połączenia.
Dzień dobry,
chciałabym zaproponować jedną rzecz, żeby przy podawaniu nazw podawać też ich angielskie odpowiedniki, bo dzięki temu łatwiej się można uczyć, szukając później też wiedzy w angielskich źródłach.
Oprócz tego dziękuję, że dzieli się Pan wiedzą na tym blogu, jest to dla mnie bardzo pomocne.
Pozdrawiam,
Agnieszka Rutkowska
Nie przypatrzyłam się, są! Dziękuję 🙂
Dziękuję za uwagi 🙂 Chętnie uwzględnię! Dziękuję również za miłe słowa! Pozdrowienia