Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Wskaźnik Giniego na bazie wartości oczekiwanej – czyli ocena jakości klasyfikacji (część 19)

W trakcie minionej nocy, około godziny 02:00, miałem nagły przebłysk 🙂 Jakoś tak, nie wiem dlaczego, przypomniałem sobie pewną zależność dla wartości oczekiwanej zmiennej losowej o wartościach nieujemnych. Zdałem sobie sprawę, że na tej podstawie, jestem w stanie opracować twierdzenie dotyczące wskaźnika Giniego (dla modelu predykcyjnego), dające elegancką postać oraz łatwe narzędzie jego estymacji. Wzór,… Read More Wskaźnik Giniego na bazie wartości oczekiwanej – czyli ocena jakości klasyfikacji (część 19)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

TPR i FNR na bazie Liftu Skumulowanego – czyli ocena jakości klasyfikacji (część 18)

Część #18 cyklu „Ocena jakości klasyfikacji” to pogłębienie interpretacji krzywej Liftu Skumulowanego – mam wrażenie, że to już ostatni wpis z serii „Tips & Tricks na krzywych”. TPR (Captured Response) i FNR na bazie Liftu Skumulowanego Dla modelu idealnego krzywa liftu skumulowanego przyjmuje następującą postać: $$Lift.Skum(q)=\begin{cases}\frac{1}{apriori}&\text{dla}\quad q\leq apriori\\\frac{1}{q}&\text{dla}\quad q>apriori\end{cases}$$ $q$ – kwantyl (rząd) bazy (malejąco… Read More TPR i FNR na bazie Liftu Skumulowanego – czyli ocena jakości klasyfikacji (część 18)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

PPV i FDR na bazie TPR (Captured Response) – czyli ocena jakości klasyfikacji (część 17)

W części #17 cyklu „Ocena jakości klasyfikacji” wydobędę kolejne informacje z krzywej Captured Response, która, na pierwszy rzut oka, prezentuje wyłącznie TPR (True-Positive-Rate). Kontynuuję zatem serię „Tips & Tricks na krzywych”. Prawdopodobieństwo skumulowane (PPV, PRECISION) na bazie TPR czyli Captured Response Dla modelu idealnego krzywa Captured Response ma postać $$Capt.Resp(q)=\begin{cases}\frac{q}{apriori}&\text{dla}\quad q\leq apriori\\1&\text{dla}\quad q>apriori\end{cases}$$ $q$ – kwantyl… Read More PPV i FDR na bazie TPR (Captured Response) – czyli ocena jakości klasyfikacji (część 17)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

„Sympatyczny” punkt przecięcia – czyli ocena jakości klasyfikacji (część 16)

Do napisania 16 części cyklu „Ocena jakości klasyfikacji” zainspirował mnie Kolega i dawny współpracownik! Michał – dzięki za „hint” 🙂 Dziś wskażę pewien sympatyczny punkt przecięcia, którego znajomość jest przydatna, a już z pewnością można „zaszpanować” 🙂 Wpis stanowi zdecydowane wzbogacenie serii „Tips & Tricks na krzywych”. Krzywe Captured Response (TPR) i prawdopodobieństwo skumulowane (PPV, Precision)… Read More „Sympatyczny” punkt przecięcia – czyli ocena jakości klasyfikacji (część 16)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Dwie klasy, ale jeden wskaźnik Giniego – czyli ocena jakości klasyfikacji (część 15)

Dziś zadałem sobie pytanie: jak mają się do siebie wskaźniki Giniego, gdyby je osobno zdefiniować dla klasy pozytywnej „tzn. klasy 1” oraz klasy negatywnej „tzn. klasy 0”? Odpowiedź uzyskałem, czego efektem jest 15 część cyklu „Ocena jakości klasyfikacji”. Tytuł wpisu nawiązuje do faktu, że separację dwóch klas uzyskujemy jednym (i tym) samym modelem 🙂 co poniekąd sugeruje,… Read More Dwie klasy, ale jeden wskaźnik Giniego – czyli ocena jakości klasyfikacji (część 15)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Wskaźnik KS na bazie Captured Response / Tips & Tricks na krzywych – czyli ocena jakości klasyfikacji (część 14)

Witaj w 14 części cyklu „Ocena jakości klasyfikacji”. Dziś rozwinę wątek oszacowania separacji klas na bazie krzywej Captured Response – będzie to kolejny odcinek z serii „Tips & Tricks na krzywych”. Statystyka KS Kołmogorowa-Smirnowa jako miara różnicy rozkładów Rozważmy dwie rzeczywiste zmienne losowe $X_1$ i $X_2$ oraz ich dystrybuanty odpowiednio $F_{X_1}$ oraz $F_{X_2}$. Statystyką Kołmogorowa-Smirnowa dla… Read More Wskaźnik KS na bazie Captured Response / Tips & Tricks na krzywych – czyli ocena jakości klasyfikacji (część 14)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Lift nieskumulowany jako gęstość, Captured Response jako dystrybuanta – czyli ocena jakości klasyfikacji (część 13)

W 13 części cyklu „Ocena jakości klasyfikacji” przedstawię dodatkowe interpretacje dla krzywej liftu nieskumulowanego i krzywej Captured Response. Obiecuję, że będzie ciekawie 🙂 przecież robimy „deep dive into predictive model assessment curves”. W dzisiejszym odcinku zapomnimy o punktach odcięcia, klasyfikatorach binarnych, rozważając rozkłady populacji jako całość. Chwilkę się do tego przygotowywałem – było warto – seria „Tips… Read More Lift nieskumulowany jako gęstość, Captured Response jako dystrybuanta – czyli ocena jakości klasyfikacji (część 13)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Wskaźnik Giniego na bazie Captured Response – czyli ocena jakości klasyfikacji (część 12)

Wskaźnik Giniego, który opisałem w części #7 poświęconej krzywej ROC, jest jednym z najważniejszych narzędzi wykorzystywanych w procesie oceny jakości klasyfikacji. Choć krzywa ROC jest ważna i bardzo przydatna, to z mojego doświadczenia wynika, że większość analityków woli wykreślać krzywą Captured Response. Sądzę, że wszyscy intuicyjnie czujemy, że „Gini z ROC” i „Gini z Captured Response”… Read More Wskaźnik Giniego na bazie Captured Response – czyli ocena jakości klasyfikacji (część 12)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Captured Response vs Lift – czyli ocena jakości klasyfikacji (część 11)

W części #8 cyklu „Ocena jakości klasyfikacji” pokazałem, że ROC i Captured Response to te same krzywe, które łączy proste przekształcenie liniowe. W bieżącym odcinku #11, należącym również do serii „Tips & Tricks na krzywych”, przedstawię zależność pomiędzy Captured Response i Lift w wariantach: nieskumulowanym i skumulowanym. !!! Uwaga: dla uproszczenia – wszędzie tam, gdzie… Read More Captured Response vs Lift – czyli ocena jakości klasyfikacji (część 11)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Model teoretycznie idealny – czyli ocena jakości klasyfikacji (część 10)

Kilka kolejnych części cyklu „Ocena jakości klasyfikacji” skupi się na poradach i pewnych trickach (czyli seria „Tips & Tricks na krzywych”), które zastosowane do krzywych: Lift, Captured Response, ROC, znacząco pogłębiają ich interpretację. !!! Uwaga: dla uproszczenia – wszędzie tam, gdzie piszę kwantyl, mam na myśli jego rząd !!! Model teoretycznie idealny a prawdopodobieństwo a-priori… Read More Model teoretycznie idealny – czyli ocena jakości klasyfikacji (część 10)