Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

„Sympatyczny” punkt przecięcia – czyli ocena jakości klasyfikacji (część 16)

Do napisania 16 części cyklu „Ocena jakości klasyfikacji” zainspirował mnie Kolega i dawny współpracownik! Michał – dzięki za „hint” 🙂 Dziś wskażę pewien sympatyczny punkt przecięcia, którego znajomość jest przydatna, a już z pewnością można „zaszpanować” 🙂 Wpis stanowi zdecydowane wzbogacenie serii „Tips & Tricks na krzywych”. Krzywe Captured Response (TPR) i prawdopodobieństwo skumulowane (PPV, Precision)… Read More „Sympatyczny” punkt przecięcia – czyli ocena jakości klasyfikacji (część 16)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Wskaźnik Giniego na bazie Captured Response – czyli ocena jakości klasyfikacji (część 12)

Wskaźnik Giniego, który opisałem w części #7 poświęconej krzywej ROC, jest jednym z najważniejszych narzędzi wykorzystywanych w procesie oceny jakości klasyfikacji. Choć krzywa ROC jest ważna i bardzo przydatna, to z mojego doświadczenia wynika, że większość analityków woli wykreślać krzywą Captured Response. Sądzę, że wszyscy intuicyjnie czujemy, że „Gini z ROC” i „Gini z Captured Response”… Read More Wskaźnik Giniego na bazie Captured Response – czyli ocena jakości klasyfikacji (część 12)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Captured Response vs Lift – czyli ocena jakości klasyfikacji (część 11)

W części #8 cyklu „Ocena jakości klasyfikacji” pokazałem, że ROC i Captured Response to te same krzywe, które łączy proste przekształcenie liniowe. W bieżącym odcinku #11, należącym również do serii „Tips & Tricks na krzywych”, przedstawię zależność pomiędzy Captured Response i Lift w wariantach: nieskumulowanym i skumulowanym. !!! Uwaga: dla uproszczenia – wszędzie tam, gdzie… Read More Captured Response vs Lift – czyli ocena jakości klasyfikacji (część 11)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Model teoretycznie idealny – czyli ocena jakości klasyfikacji (część 10)

Kilka kolejnych części cyklu „Ocena jakości klasyfikacji” skupi się na poradach i pewnych trickach (czyli seria „Tips & Tricks na krzywych”), które zastosowane do krzywych: Lift, Captured Response, ROC, znacząco pogłębiają ich interpretację. !!! Uwaga: dla uproszczenia – wszędzie tam, gdzie piszę kwantyl, mam na myśli jego rząd !!! Model teoretycznie idealny a prawdopodobieństwo a-priori… Read More Model teoretycznie idealny – czyli ocena jakości klasyfikacji (część 10)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Analiza estymacji prawdopodobieństwa – czyli ocena jakości klasyfikacji (część 9)

Właśnie czytasz część #9 cyklu „Ocena jakości klasyfikacji” – a to oznacza, że posiadasz już sporą wiedzę – i masz ochotę na więcej – gratuluję! 🙂 Korelacja rangowa … czy to wystarczy? W częściach 1-8 skupiałem się na analizie korelacji rangowej. W tym przypadku korelacja rangowa odpowiada na pytanie „jak dobrze uporządkowany jest target w zależności od… Read More Analiza estymacji prawdopodobieństwa – czyli ocena jakości klasyfikacji (część 9)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Captured Response = ROC x apriori – czyli ocena jakości klasyfikacji (część 8)

W części #6 oraz części #7 cyklu „Ocena jakości klasyfikacji” przedstawiłem krzywą zysku (aka: Gain, Captured Response) oraz krzywą ROC. Dzisiaj skupię się na mało znanej, acz bardzo prostej i przydatnej, relacji pomiędzy tymi krzywymi – okazuje się bowiem, że wykresy są „niemal identyczne” 🙂 Wzór łączący ROC z Captured Response $$X_{cr}=Y_{roc}\times apriori+X_{roc}\times \Big(1-apriori\Big)$$ $$Y_{cr}=Y_{roc}$$ Geometryczne… Read More Captured Response = ROC x apriori – czyli ocena jakości klasyfikacji (część 8)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Receiver Operating Characteristic – Krzywa ROC – czyli ocena jakości klasyfikacji (część 7)

Receiver Operating Characteristic – Krzywa ROC – geneza nazwy Termin „Krzywa ROC” wywodzi się z teorii detekcji sygnałów, której zadaniem jest odróżnienie sygnału będącego informacją (np. sygnały z maszyn / urządzeń elektronicznych, bodźce pochodzące z organizmów żywych) od wzorców przypadkowych nie zawierających informacji (szum, tło, aktywność losowa). Pierwsze wykorzystanie krzywej ROC datuję się na okres II Wojny… Read More Receiver Operating Characteristic – Krzywa ROC – czyli ocena jakości klasyfikacji (część 7)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Skumulowane miary siły modelu predykcyjnego – czyli ocena jakości klasyfikacji (część 6)

W części 4 cyklu „ocena jakości klasyfikacji” opisałem podstawowe statystyki w wariancie nieskumulowanym służące inspekcji modelu predykcyjnego. Nieskumulowane prawdopodobieństwo i nieskumulowany lift, choć bardzo przydatne na etapie budowy modelu (praca analityka), sprawdzają się nieco gorzej w kontaktach analityk – odbiorca biznesowy. Odbiorcę biznesowego zazwyczaj interesują informacje takie jak „do jakiej części zainteresowanych produktem dotrę?” lub… Read More Skumulowane miary siły modelu predykcyjnego – czyli ocena jakości klasyfikacji (część 6)

Customer Intelligence, Matematyka

Strategie doboru punktów odcięcia – czyli ocena jakości klasyfikacji (część 5)

W części 4 cyklu „Ocena jakości klasyfikacji” przedstawiłem podstawowe statystyki prawdopodobieństwa oraz liftu (w wersji nieskumulowanej) służące do inspekcji modelu predykcyjnego w zakresie siły separacji klas. W części 3 skupiłem się na koncepcji punktu odcięcia (cut-off point), który model predykcyjny (z ciągłą zmienną odpowiedzi) transformuje w klasyfikator. Dziś przybliżę strategie doboru punktu odcięcia, celowo pomijając aspekty techniczne związane z… Read More Strategie doboru punktów odcięcia – czyli ocena jakości klasyfikacji (część 5)

Customer Intelligence, Data Mining, Matematyka, Probabilistyka, Statystyka matematyczna

Model predykcyjny i siła separacji klas – czyli ocena jakości klasyfikacji (część 4)

Ze statystyk odwiedzin wynika, że cykl „Ocena jakości klasyfikacji” cieszy się Waszym zainteresowaniem – zatem wracam do tej tematyki. Dziś przedstawię wstęp do analizy jakości modeli predykcyjnych, skupiając się na jednym tylko aspekcie jakości – tzn. na sile modelu w kontekście separacji klas. Zapraszam 🙂 Jakość modelu predykcyjnego Matematyka dostarcza wielu różnych miar służących ocenie siły… Read More Model predykcyjny i siła separacji klas – czyli ocena jakości klasyfikacji (część 4)

Customer Intelligence, Data Mining, Matematyka, Probabilistyka, Statystyka matematyczna

Model predykcyjny i punkt odcięcia (cut-off point) – czyli ocena jakości klasyfikacji (część 3)

W poprzednich częściach omówiliśmy sposób tworzenia macierzy błędu oraz podstawowe miary oceny jakości klasyfikacji: czułość (TPR), specyficzność (TNR), precyzję przewidywania pozytywnego (PPV), precyzję przewidywania negatywnego (NPV). Opisane miary określone są dla klasyfikatora binarnego (klasyfikacja pozytywna bądź negatywna), jednak w praktyce najczęściej stosuje się modele predykcyjne z ciągłą zmienną odpowiedzi (np. estymator prawdopodobieństwa skorzystania z produktu,… Read More Model predykcyjny i punkt odcięcia (cut-off point) – czyli ocena jakości klasyfikacji (część 3)

Data Mining, Matematyka, Statystyka matematyczna

Zasięg (TPR – czułość / TNR – specyficzność) i precyzja (PPV / NPV) – czyli ocena jakości klasyfikacji (część 2)

Wpis z dnia 26 października 2015 „Confusion matrix, Macierz błędu, tablica pomyłek – czyli ocena jakości klasyfikacji (część 1)” przedstawia wstęp do macierzy błędu i jej podstawowych zastosowań. Poniżej prezentujemy kolejne miary jakości klasyfikacji oparte na poznanej macierzy błędu. Przypomnijmy kodowanie klas: 1 – Positive 0 – Negative oraz 4 możliwe wyniki przewidywań: True-Positive (TP –… Read More Zasięg (TPR – czułość / TNR – specyficzność) i precyzja (PPV / NPV) – czyli ocena jakości klasyfikacji (część 2)

Data Mining, Matematyka, Probabilistyka, Statystyka matematyczna

Confusion matrix, Macierz błędu, tablica / macierz pomyłek – czyli ocena jakości klasyfikacji (część 1)

Macierz pomyłek i klasyfikacja binarna Macierz błędu jest podstawowym narzędziem stosowanym do oceny jakości klasyfikacji. Poniżej rozważymy przypadek klasyfikacji binarnej (dwie klasy).Kodowanie klas: 1 – Positive (np.: fakt skorzystania z produktu przez Klienta, pacjent z potwierdzoną chorobą, pacjentka z potwierdzoną ciążą) 0 – Negative (np.: fakt nieskorzystania z produktu przez Klienta, pacjent z wykluczoną chorobą, pacjentka z… Read More Confusion matrix, Macierz błędu, tablica / macierz pomyłek – czyli ocena jakości klasyfikacji (część 1)

Data Mining, Matematyka

Analiza dyskryminacyjna, Rodziny klasyfikatorów, Bagging, Boosting, AdaBoost, Lasy losowe, Porównanie metod

Temat pracy dotyczy problemu dyskryminacji oraz budowy i zastosowań rodzin klasyfikatorów, w tym głównie metody typu bagging, metody typu boosting oraz lasów losowych. Przedmiotem pracy jest zbadanie metematyczno-statystycznych fundamentów, na których opierają się metodologie budowy rodzin klasyfikatorów. Istotną częścią pracy jest analiza rozwiązań podanych zagadnień. W pierwszym rozdziale omówiony został problem klasyfikacji pod nadzorem, zwanej… Read More Analiza dyskryminacyjna, Rodziny klasyfikatorów, Bagging, Boosting, AdaBoost, Lasy losowe, Porównanie metod

Data Mining, Matematyka, Matematyka dyskretna, Probabilistyka, Statystyka matematyczna, Teoria grafów, Topologia

Analiza dyskryminacyjna, Drzewa klasyfikacyjne, Klasyfikatory SLIQ i SPRINT

Temat pracy dotyczy problemu dyskryminacji oraz budowy drzew klasyfikacyjnych w kontekście ich przydatności do rozwiązywania zadań o dużym wymiarze prób losowych i/lub dużym wymiarze wektora obserwacji, w których podstawowego znaczenia nabiera złożoność obliczeniowa drzewa. Radzenie sobie z dużymi zbiorami danych wymaga konstrukcji specjalnych technik sortowania danych w trakcie budowy drzewa, kodowania, organizacji wzrostu i przycinania… Read More Analiza dyskryminacyjna, Drzewa klasyfikacyjne, Klasyfikatory SLIQ i SPRINT