Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Wskaźnik Giniego na bazie wartości oczekiwanej – czyli ocena jakości klasyfikacji (część 19)

W trakcie minionej nocy, około godziny 02:00, miałem nagły przebłysk 🙂 Jakoś tak, nie wiem dlaczego, przypomniałem sobie pewną zależność dla wartości oczekiwanej zmiennej losowej o wartościach nieujemnych. Zdałem sobie sprawę, że na tej podstawie, jestem w stanie opracować twierdzenie dotyczące wskaźnika Giniego (dla modelu predykcyjnego), dające elegancką postać oraz łatwe narzędzie jego estymacji. Wzór,… Read More Wskaźnik Giniego na bazie wartości oczekiwanej – czyli ocena jakości klasyfikacji (część 19)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

TPR i FNR na bazie Liftu Skumulowanego – czyli ocena jakości klasyfikacji (część 18)

Część #18 cyklu „Ocena jakości klasyfikacji” to pogłębienie interpretacji krzywej Liftu Skumulowanego – mam wrażenie, że to już ostatni wpis z serii „Tips & Tricks na krzywych”. TPR (Captured Response) i FNR na bazie Liftu Skumulowanego Dla modelu idealnego krzywa liftu skumulowanego przyjmuje następującą postać: $$Lift.Skum(q)=\begin{cases}\frac{1}{apriori}&\text{dla}\quad q\leq apriori\\\frac{1}{q}&\text{dla}\quad q>apriori\end{cases}$$ $q$ – kwantyl (rząd) bazy (malejąco… Read More TPR i FNR na bazie Liftu Skumulowanego – czyli ocena jakości klasyfikacji (część 18)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

PPV i FDR na bazie TPR (Captured Response) – czyli ocena jakości klasyfikacji (część 17)

W części #17 cyklu „Ocena jakości klasyfikacji” wydobędę kolejne informacje z krzywej Captured Response, która, na pierwszy rzut oka, prezentuje wyłącznie TPR (True-Positive-Rate). Kontynuuję zatem serię „Tips & Tricks na krzywych”. Prawdopodobieństwo skumulowane (PPV, PRECISION) na bazie TPR czyli Captured Response Dla modelu idealnego krzywa Captured Response ma postać $$Capt.Resp(q)=\begin{cases}\frac{q}{apriori}&\text{dla}\quad q\leq apriori\\1&\text{dla}\quad q>apriori\end{cases}$$ $q$ – kwantyl… Read More PPV i FDR na bazie TPR (Captured Response) – czyli ocena jakości klasyfikacji (część 17)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

„Sympatyczny” punkt przecięcia – czyli ocena jakości klasyfikacji (część 16)

Do napisania 16 części cyklu „Ocena jakości klasyfikacji” zainspirował mnie Kolega i dawny współpracownik! Michał – dzięki za „hint” 🙂 Dziś wskażę pewien sympatyczny punkt przecięcia, którego znajomość jest przydatna, a już z pewnością można „zaszpanować” 🙂 Wpis stanowi zdecydowane wzbogacenie serii „Tips & Tricks na krzywych”. Krzywe Captured Response (TPR) i prawdopodobieństwo skumulowane (PPV, Precision)… Read More „Sympatyczny” punkt przecięcia – czyli ocena jakości klasyfikacji (część 16)

Ciekawostki

Personalizowany kubek MathSpace.PL :-)

Kubek na bazie motywu „Matematyka w obrazkach #11 – Dobre argumenty to podstawa”. Kubek wygląda świetnie 🙂 Personalizacja kubka Imię / nick / … w chmurce; Dedykowany wzór / formuła w chmurce; Jak otrzymać kubek? Warunki, które musisz spełnić: Polubienie profilu MathSpace.PL na Facebooku lub Twitterze lub subskrypcja newslettera; Przesłanie wiadomości (Facebook, Twitter, mail) o… Read More Personalizowany kubek MathSpace.PL 🙂

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Dwie klasy, ale jeden wskaźnik Giniego – czyli ocena jakości klasyfikacji (część 15)

Dziś zadałem sobie pytanie: jak mają się do siebie wskaźniki Giniego, gdyby je osobno zdefiniować dla klasy pozytywnej „tzn. klasy 1” oraz klasy negatywnej „tzn. klasy 0”? Odpowiedź uzyskałem, czego efektem jest 15 część cyklu „Ocena jakości klasyfikacji”. Tytuł wpisu nawiązuje do faktu, że separację dwóch klas uzyskujemy jednym (i tym) samym modelem 🙂 co poniekąd sugeruje,… Read More Dwie klasy, ale jeden wskaźnik Giniego – czyli ocena jakości klasyfikacji (część 15)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Wskaźnik KS na bazie Captured Response / Tips & Tricks na krzywych – czyli ocena jakości klasyfikacji (część 14)

Witaj w 14 części cyklu „Ocena jakości klasyfikacji”. Dziś rozwinę wątek oszacowania separacji klas na bazie krzywej Captured Response – będzie to kolejny odcinek z serii „Tips & Tricks na krzywych”. Statystyka KS Kołmogorowa-Smirnowa jako miara różnicy rozkładów Rozważmy dwie rzeczywiste zmienne losowe $X_1$ i $X_2$ oraz ich dystrybuanty odpowiednio $F_{X_1}$ oraz $F_{X_2}$. Statystyką Kołmogorowa-Smirnowa dla… Read More Wskaźnik KS na bazie Captured Response / Tips & Tricks na krzywych – czyli ocena jakości klasyfikacji (część 14)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Lift nieskumulowany jako gęstość, Captured Response jako dystrybuanta – czyli ocena jakości klasyfikacji (część 13)

W 13 części cyklu „Ocena jakości klasyfikacji” przedstawię dodatkowe interpretacje dla krzywej liftu nieskumulowanego i krzywej Captured Response. Obiecuję, że będzie ciekawie 🙂 przecież robimy „deep dive into predictive model assessment curves”. W dzisiejszym odcinku zapomnimy o punktach odcięcia, klasyfikatorach binarnych, rozważając rozkłady populacji jako całość. Chwilkę się do tego przygotowywałem – było warto – seria „Tips… Read More Lift nieskumulowany jako gęstość, Captured Response jako dystrybuanta – czyli ocena jakości klasyfikacji (część 13)