Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

PPV i FDR na bazie TPR (Captured Response) – czyli ocena jakości klasyfikacji (część 17)

W części #17 cyklu „Ocena jakości klasyfikacji” wydobędę kolejne informacje z krzywej Captured Response, która, na pierwszy rzut oka, prezentuje wyłącznie TPR (True-Positive-Rate). Kontynuuję zatem serię „Tips & Tricks na krzywych”. Prawdopodobieństwo skumulowane (PPV, PRECISION) na bazie TPR czyli Captured Response Dla modelu idealnego krzywa Captured Response ma postać $$Capt.Resp(q)=\begin{cases}\frac{q}{apriori}&\text{dla}\quad q\leq apriori\\1&\text{dla}\quad q>apriori\end{cases}$$ $q$ – kwantyl… Read More PPV i FDR na bazie TPR (Captured Response) – czyli ocena jakości klasyfikacji (część 17)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

„Sympatyczny” punkt przecięcia – czyli ocena jakości klasyfikacji (część 16)

Do napisania 16 części cyklu „Ocena jakości klasyfikacji” zainspirował mnie Kolega i dawny współpracownik! Michał – dzięki za „hint” 🙂 Dziś wskażę pewien sympatyczny punkt przecięcia, którego znajomość jest przydatna, a już z pewnością można „zaszpanować” 🙂 Wpis stanowi zdecydowane wzbogacenie serii „Tips & Tricks na krzywych”. Krzywe Captured Response (TPR) i prawdopodobieństwo skumulowane (PPV, Precision)… Read More „Sympatyczny” punkt przecięcia – czyli ocena jakości klasyfikacji (część 16)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Wskaźnik KS na bazie Captured Response / Tips & Tricks na krzywych – czyli ocena jakości klasyfikacji (część 14)

Witaj w 14 części cyklu „Ocena jakości klasyfikacji”. Dziś rozwinę wątek oszacowania separacji klas na bazie krzywej Captured Response – będzie to kolejny odcinek z serii „Tips & Tricks na krzywych”. Statystyka KS Kołmogorowa-Smirnowa jako miara różnicy rozkładów Rozważmy dwie rzeczywiste zmienne losowe $X_1$ i $X_2$ oraz ich dystrybuanty odpowiednio $F_{X_1}$ oraz $F_{X_2}$. Statystyką Kołmogorowa-Smirnowa dla… Read More Wskaźnik KS na bazie Captured Response / Tips & Tricks na krzywych – czyli ocena jakości klasyfikacji (część 14)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Lift nieskumulowany jako gęstość, Captured Response jako dystrybuanta – czyli ocena jakości klasyfikacji (część 13)

W 13 części cyklu „Ocena jakości klasyfikacji” przedstawię dodatkowe interpretacje dla krzywej liftu nieskumulowanego i krzywej Captured Response. Obiecuję, że będzie ciekawie 🙂 przecież robimy „deep dive into predictive model assessment curves”. W dzisiejszym odcinku zapomnimy o punktach odcięcia, klasyfikatorach binarnych, rozważając rozkłady populacji jako całość. Chwilkę się do tego przygotowywałem – było warto – seria „Tips… Read More Lift nieskumulowany jako gęstość, Captured Response jako dystrybuanta – czyli ocena jakości klasyfikacji (część 13)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Wskaźnik Giniego na bazie Captured Response – czyli ocena jakości klasyfikacji (część 12)

Wskaźnik Giniego, który opisałem w części #7 poświęconej krzywej ROC, jest jednym z najważniejszych narzędzi wykorzystywanych w procesie oceny jakości klasyfikacji. Choć krzywa ROC jest ważna i bardzo przydatna, to z mojego doświadczenia wynika, że większość analityków woli wykreślać krzywą Captured Response. Sądzę, że wszyscy intuicyjnie czujemy, że „Gini z ROC” i „Gini z Captured Response”… Read More Wskaźnik Giniego na bazie Captured Response – czyli ocena jakości klasyfikacji (część 12)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Captured Response vs Lift – czyli ocena jakości klasyfikacji (część 11)

W części #8 cyklu „Ocena jakości klasyfikacji” pokazałem, że ROC i Captured Response to te same krzywe, które łączy proste przekształcenie liniowe. W bieżącym odcinku #11, należącym również do serii „Tips & Tricks na krzywych”, przedstawię zależność pomiędzy Captured Response i Lift w wariantach: nieskumulowanym i skumulowanym. !!! Uwaga: dla uproszczenia – wszędzie tam, gdzie… Read More Captured Response vs Lift – czyli ocena jakości klasyfikacji (część 11)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Model teoretycznie idealny – czyli ocena jakości klasyfikacji (część 10)

Kilka kolejnych części cyklu „Ocena jakości klasyfikacji” skupi się na poradach i pewnych trickach (czyli seria „Tips & Tricks na krzywych”), które zastosowane do krzywych: Lift, Captured Response, ROC, znacząco pogłębiają ich interpretację. !!! Uwaga: dla uproszczenia – wszędzie tam, gdzie piszę kwantyl, mam na myśli jego rząd !!! Model teoretycznie idealny a prawdopodobieństwo a-priori… Read More Model teoretycznie idealny – czyli ocena jakości klasyfikacji (część 10)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Captured Response = ROC x apriori – czyli ocena jakości klasyfikacji (część 8)

W części #6 oraz części #7 cyklu „Ocena jakości klasyfikacji” przedstawiłem krzywą zysku (aka: Gain, Captured Response) oraz krzywą ROC. Dzisiaj skupię się na mało znanej, acz bardzo prostej i przydatnej, relacji pomiędzy tymi krzywymi – okazuje się bowiem, że wykresy są „niemal identyczne” 🙂 Wzór łączący ROC z Captured Response $$X_{cr}=Y_{roc}\times apriori+X_{roc}\times \Big(1-apriori\Big)$$ $$Y_{cr}=Y_{roc}$$ Geometryczne… Read More Captured Response = ROC x apriori – czyli ocena jakości klasyfikacji (część 8)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Skumulowane miary siły modelu predykcyjnego – czyli ocena jakości klasyfikacji (część 6)

W części 4 cyklu „ocena jakości klasyfikacji” opisałem podstawowe statystyki w wariancie nieskumulowanym służące inspekcji modelu predykcyjnego. Nieskumulowane prawdopodobieństwo i nieskumulowany lift, choć bardzo przydatne na etapie budowy modelu (praca analityka), sprawdzają się nieco gorzej w kontaktach analityk – odbiorca biznesowy. Odbiorcę biznesowego zazwyczaj interesują informacje takie jak „do jakiej części zainteresowanych produktem dotrę?” lub… Read More Skumulowane miary siły modelu predykcyjnego – czyli ocena jakości klasyfikacji (część 6)