Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Odczarowujemy modele predykcyjne

Prelekcja wygłoszona w dniu 25.04.2017 podczas Konferencji Big Data – Bigger opportunities – zapraszam. Omówione zagadnienia: Analityka Predykcyjna Model Predykcyjny Confusion Matrix / Macierz błędu Strategie doboru punktu odcięcia Ocena jakości klasyfikacji Krzywa zysku Krzywa Lift Krzywa ROC i wskaźnik Giniego Krzywa Zysku vs ROC – równoważność? Modele teoretycznie idealne Pozdrowienia, Mariusz Gromada

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Wskaźnik Giniego na bazie Captured Response – czyli ocena jakości klasyfikacji (część 12)

Wskaźnik Giniego, który opisałem w części #7 poświęconej krzywej ROC, jest jednym z najważniejszych narzędzi wykorzystywanych w procesie oceny jakości klasyfikacji. Choć krzywa ROC jest ważna i bardzo przydatna, to z mojego doświadczenia wynika, że większość analityków woli wykreślać krzywą Captured Response. Sądzę, że wszyscy intuicyjnie czujemy, że „Gini z ROC” i „Gini z Captured Response”… Read More Wskaźnik Giniego na bazie Captured Response – czyli ocena jakości klasyfikacji (część 12)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Captured Response vs Lift – czyli ocena jakości klasyfikacji (część 11)

W części #8 cyklu „Ocena jakości klasyfikacji” pokazałem, że ROC i Captured Response to te same krzywe, które łączy proste przekształcenie liniowe. W bieżącym odcinku #11, należącym również do serii „Tips & Tricks na krzywych”, przedstawię zależność pomiędzy Captured Response i Lift w wariantach: nieskumulowanym i skumulowanym. !!! Uwaga: dla uproszczenia – wszędzie tam, gdzie… Read More Captured Response vs Lift – czyli ocena jakości klasyfikacji (część 11)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Model teoretycznie idealny – czyli ocena jakości klasyfikacji (część 10)

Kilka kolejnych części cyklu „Ocena jakości klasyfikacji” skupi się na poradach i pewnych trickach (czyli seria „Tips & Tricks na krzywych”), które zastosowane do krzywych: Lift, Captured Response, ROC, znacząco pogłębiają ich interpretację. !!! Uwaga: dla uproszczenia – wszędzie tam, gdzie piszę kwantyl, mam na myśli jego rząd !!! Model teoretycznie idealny a prawdopodobieństwo a-priori… Read More Model teoretycznie idealny – czyli ocena jakości klasyfikacji (część 10)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Analiza estymacji prawdopodobieństwa – czyli ocena jakości klasyfikacji (część 9)

Właśnie czytasz część #9 cyklu „Ocena jakości klasyfikacji” – a to oznacza, że posiadasz już sporą wiedzę – i masz ochotę na więcej – gratuluję! 🙂 Korelacja rangowa … czy to wystarczy? W częściach 1-8 skupiałem się na analizie korelacji rangowej. W tym przypadku korelacja rangowa odpowiada na pytanie „jak dobrze uporządkowany jest target w zależności od… Read More Analiza estymacji prawdopodobieństwa – czyli ocena jakości klasyfikacji (część 9)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Captured Response = ROC x apriori – czyli ocena jakości klasyfikacji (część 8)

W części #6 oraz części #7 cyklu „Ocena jakości klasyfikacji” przedstawiłem krzywą zysku (aka: Gain, Captured Response) oraz krzywą ROC. Dzisiaj skupię się na mało znanej, acz bardzo prostej i przydatnej, relacji pomiędzy tymi krzywymi – okazuje się bowiem, że wykresy są „niemal identyczne” 🙂 Wzór łączący ROC z Captured Response $$X_{cr}=Y_{roc}\times apriori+X_{roc}\times \Big(1-apriori\Big)$$ $$Y_{cr}=Y_{roc}$$ Geometryczne… Read More Captured Response = ROC x apriori – czyli ocena jakości klasyfikacji (część 8)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Receiver Operating Characteristic – Krzywa ROC – czyli ocena jakości klasyfikacji (część 7)

Receiver Operating Characteristic – Krzywa ROC – geneza nazwy Termin „Krzywa ROC” wywodzi się z teorii detekcji sygnałów, której zadaniem jest odróżnienie sygnału będącego informacją (np. sygnały z maszyn / urządzeń elektronicznych, bodźce pochodzące z organizmów żywych) od wzorców przypadkowych nie zawierających informacji (szum, tło, aktywność losowa). Pierwsze wykorzystanie krzywej ROC datuję się na okres II Wojny… Read More Receiver Operating Characteristic – Krzywa ROC – czyli ocena jakości klasyfikacji (część 7)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Skumulowane miary siły modelu predykcyjnego – czyli ocena jakości klasyfikacji (część 6)

W części 4 cyklu „ocena jakości klasyfikacji” opisałem podstawowe statystyki w wariancie nieskumulowanym służące inspekcji modelu predykcyjnego. Nieskumulowane prawdopodobieństwo i nieskumulowany lift, choć bardzo przydatne na etapie budowy modelu (praca analityka), sprawdzają się nieco gorzej w kontaktach analityk – odbiorca biznesowy. Odbiorcę biznesowego zazwyczaj interesują informacje takie jak „do jakiej części zainteresowanych produktem dotrę?” lub… Read More Skumulowane miary siły modelu predykcyjnego – czyli ocena jakości klasyfikacji (część 6)

Customer Intelligence, Matematyka

Strategie doboru punktów odcięcia – czyli ocena jakości klasyfikacji (część 5)

W części 4 cyklu „Ocena jakości klasyfikacji” przedstawiłem podstawowe statystyki prawdopodobieństwa oraz liftu (w wersji nieskumulowanej) służące do inspekcji modelu predykcyjnego w zakresie siły separacji klas. W części 3 skupiłem się na koncepcji punktu odcięcia (cut-off point), który model predykcyjny (z ciągłą zmienną odpowiedzi) transformuje w klasyfikator. Dziś przybliżę strategie doboru punktu odcięcia, celowo pomijając aspekty techniczne związane z… Read More Strategie doboru punktów odcięcia – czyli ocena jakości klasyfikacji (część 5)

Customer Intelligence, Data Mining, Matematyka, Probabilistyka, Statystyka matematyczna

Model predykcyjny i siła separacji klas – czyli ocena jakości klasyfikacji (część 4)

Ze statystyk odwiedzin wynika, że cykl „Ocena jakości klasyfikacji” cieszy się Waszym zainteresowaniem – zatem wracam do tej tematyki. Dziś przedstawię wstęp do analizy jakości modeli predykcyjnych, skupiając się na jednym tylko aspekcie jakości – tzn. na sile modelu w kontekście separacji klas. Zapraszam 🙂 Jakość modelu predykcyjnego Matematyka dostarcza wielu różnych miar służących ocenie siły… Read More Model predykcyjny i siła separacji klas – czyli ocena jakości klasyfikacji (część 4)

Customer Intelligence, Data Mining, Matematyka, Probabilistyka, Statystyka matematyczna

Model predykcyjny i punkt odcięcia (cut-off point) – czyli ocena jakości klasyfikacji (część 3)

W poprzednich częściach omówiliśmy sposób tworzenia macierzy błędu oraz podstawowe miary oceny jakości klasyfikacji: czułość (TPR), specyficzność (TNR), precyzję przewidywania pozytywnego (PPV), precyzję przewidywania negatywnego (NPV). Opisane miary określone są dla klasyfikatora binarnego (klasyfikacja pozytywna bądź negatywna), jednak w praktyce najczęściej stosuje się modele predykcyjne z ciągłą zmienną odpowiedzi (np. estymator prawdopodobieństwa skorzystania z produktu,… Read More Model predykcyjny i punkt odcięcia (cut-off point) – czyli ocena jakości klasyfikacji (część 3)