Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Odczarowujemy modele predykcyjne

Prelekcja wygłoszona w dniu 25.04.2017 podczas Konferencji Big Data – Bigger opportunities – zapraszam. Omówione zagadnienia: Analityka Predykcyjna Model Predykcyjny Confusion Matrix / Macierz błędu Strategie doboru punktu odcięcia Ocena jakości klasyfikacji Krzywa zysku Krzywa Lift Krzywa ROC i wskaźnik Giniego Krzywa Zysku vs ROC – równoważność? Modele teoretycznie idealne Pozdrowienia, Mariusz Gromada

Customer Intelligence, Data Mining

Skuteczna operacjonalizacja środowiska analitycznego

Prelekcja wygłoszona w dniu 15.10.2015 podczas IV Konferencji Customer Intelligence – zapraszam. Omówione zagadnienia: Komponenty środowiska analitycznego Cykl analityczny / Integracja Architektura funkcjonalna środowiska – Obszar budowy / odkrywania wiedzy – Obszar wdrażania przygotowanych modeli predykcyjnych – Obszar repozytorium scoringowego – Obszar definicji oraz uruchomienia kampanii – Obszar monitoringu modeli predykcyjnych – Obszar raportowania kampanii… Read More Skuteczna operacjonalizacja środowiska analitycznego

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Wskaźnik Giniego na bazie wartości oczekiwanej – czyli ocena jakości klasyfikacji (część 19)

W trakcie minionej nocy, około godziny 02:00, miałem nagły przebłysk 🙂 Jakoś tak, nie wiem dlaczego, przypomniałem sobie pewną zależność dla wartości oczekiwanej zmiennej losowej o wartościach nieujemnych. Zdałem sobie sprawę, że na tej podstawie, jestem w stanie opracować twierdzenie dotyczące wskaźnika Giniego (dla modelu predykcyjnego), dające elegancką postać oraz łatwe narzędzie jego estymacji. Wzór,… Read More Wskaźnik Giniego na bazie wartości oczekiwanej – czyli ocena jakości klasyfikacji (część 19)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

TPR i FNR na bazie Liftu Skumulowanego – czyli ocena jakości klasyfikacji (część 18)

Część #18 cyklu „Ocena jakości klasyfikacji” to pogłębienie interpretacji krzywej Liftu Skumulowanego – mam wrażenie, że to już ostatni wpis z serii „Tips & Tricks na krzywych”. TPR (Captured Response) i FNR na bazie Liftu Skumulowanego Dla modelu idealnego krzywa liftu skumulowanego przyjmuje następującą postać: $$Lift.Skum(q)=\begin{cases}\frac{1}{apriori}&\text{dla}\quad q\leq apriori\\\frac{1}{q}&\text{dla}\quad q>apriori\end{cases}$$ $q$ – kwantyl (rząd) bazy (malejąco… Read More TPR i FNR na bazie Liftu Skumulowanego – czyli ocena jakości klasyfikacji (część 18)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

PPV i FDR na bazie TPR (Captured Response) – czyli ocena jakości klasyfikacji (część 17)

W części #17 cyklu „Ocena jakości klasyfikacji” wydobędę kolejne informacje z krzywej Captured Response, która, na pierwszy rzut oka, prezentuje wyłącznie TPR (True-Positive-Rate). Kontynuuję zatem serię „Tips & Tricks na krzywych”. Prawdopodobieństwo skumulowane (PPV, PRECISION) na bazie TPR czyli Captured Response Dla modelu idealnego krzywa Captured Response ma postać $$Capt.Resp(q)=\begin{cases}\frac{q}{apriori}&\text{dla}\quad q\leq apriori\\1&\text{dla}\quad q>apriori\end{cases}$$ $q$ – kwantyl… Read More PPV i FDR na bazie TPR (Captured Response) – czyli ocena jakości klasyfikacji (część 17)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

„Sympatyczny” punkt przecięcia – czyli ocena jakości klasyfikacji (część 16)

Do napisania 16 części cyklu „Ocena jakości klasyfikacji” zainspirował mnie Kolega i dawny współpracownik! Michał – dzięki za „hint” 🙂 Dziś wskażę pewien sympatyczny punkt przecięcia, którego znajomość jest przydatna, a już z pewnością można „zaszpanować” 🙂 Wpis stanowi zdecydowane wzbogacenie serii „Tips & Tricks na krzywych”. Krzywe Captured Response (TPR) i prawdopodobieństwo skumulowane (PPV, Precision)… Read More „Sympatyczny” punkt przecięcia – czyli ocena jakości klasyfikacji (część 16)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Dwie klasy, ale jeden wskaźnik Giniego – czyli ocena jakości klasyfikacji (część 15)

Dziś zadałem sobie pytanie: jak mają się do siebie wskaźniki Giniego, gdyby je osobno zdefiniować dla klasy pozytywnej „tzn. klasy 1” oraz klasy negatywnej „tzn. klasy 0”? Odpowiedź uzyskałem, czego efektem jest 15 część cyklu „Ocena jakości klasyfikacji”. Tytuł wpisu nawiązuje do faktu, że separację dwóch klas uzyskujemy jednym (i tym) samym modelem 🙂 co poniekąd sugeruje,… Read More Dwie klasy, ale jeden wskaźnik Giniego – czyli ocena jakości klasyfikacji (część 15)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Wskaźnik KS na bazie Captured Response / Tips & Tricks na krzywych – czyli ocena jakości klasyfikacji (część 14)

Witaj w 14 części cyklu „Ocena jakości klasyfikacji”. Dziś rozwinę wątek oszacowania separacji klas na bazie krzywej Captured Response – będzie to kolejny odcinek z serii „Tips & Tricks na krzywych”. Statystyka KS Kołmogorowa-Smirnowa jako miara różnicy rozkładów Rozważmy dwie rzeczywiste zmienne losowe $X_1$ i $X_2$ oraz ich dystrybuanty odpowiednio $F_{X_1}$ oraz $F_{X_2}$. Statystyką Kołmogorowa-Smirnowa dla… Read More Wskaźnik KS na bazie Captured Response / Tips & Tricks na krzywych – czyli ocena jakości klasyfikacji (część 14)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Lift nieskumulowany jako gęstość, Captured Response jako dystrybuanta – czyli ocena jakości klasyfikacji (część 13)

W 13 części cyklu „Ocena jakości klasyfikacji” przedstawię dodatkowe interpretacje dla krzywej liftu nieskumulowanego i krzywej Captured Response. Obiecuję, że będzie ciekawie 🙂 przecież robimy „deep dive into predictive model assessment curves”. W dzisiejszym odcinku zapomnimy o punktach odcięcia, klasyfikatorach binarnych, rozważając rozkłady populacji jako całość. Chwilkę się do tego przygotowywałem – było warto – seria „Tips… Read More Lift nieskumulowany jako gęstość, Captured Response jako dystrybuanta – czyli ocena jakości klasyfikacji (część 13)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Wskaźnik Giniego na bazie Captured Response – czyli ocena jakości klasyfikacji (część 12)

Wskaźnik Giniego, który opisałem w części #7 poświęconej krzywej ROC, jest jednym z najważniejszych narzędzi wykorzystywanych w procesie oceny jakości klasyfikacji. Choć krzywa ROC jest ważna i bardzo przydatna, to z mojego doświadczenia wynika, że większość analityków woli wykreślać krzywą Captured Response. Sądzę, że wszyscy intuicyjnie czujemy, że „Gini z ROC” i „Gini z Captured Response”… Read More Wskaźnik Giniego na bazie Captured Response – czyli ocena jakości klasyfikacji (część 12)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Captured Response vs Lift – czyli ocena jakości klasyfikacji (część 11)

W części #8 cyklu „Ocena jakości klasyfikacji” pokazałem, że ROC i Captured Response to te same krzywe, które łączy proste przekształcenie liniowe. W bieżącym odcinku #11, należącym również do serii „Tips & Tricks na krzywych”, przedstawię zależność pomiędzy Captured Response i Lift w wariantach: nieskumulowanym i skumulowanym. !!! Uwaga: dla uproszczenia – wszędzie tam, gdzie… Read More Captured Response vs Lift – czyli ocena jakości klasyfikacji (część 11)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Model teoretycznie idealny – czyli ocena jakości klasyfikacji (część 10)

Kilka kolejnych części cyklu „Ocena jakości klasyfikacji” skupi się na poradach i pewnych trickach (czyli seria „Tips & Tricks na krzywych”), które zastosowane do krzywych: Lift, Captured Response, ROC, znacząco pogłębiają ich interpretację. !!! Uwaga: dla uproszczenia – wszędzie tam, gdzie piszę kwantyl, mam na myśli jego rząd !!! Model teoretycznie idealny a prawdopodobieństwo a-priori… Read More Model teoretycznie idealny – czyli ocena jakości klasyfikacji (część 10)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Analiza estymacji prawdopodobieństwa – czyli ocena jakości klasyfikacji (część 9)

Właśnie czytasz część #9 cyklu „Ocena jakości klasyfikacji” – a to oznacza, że posiadasz już sporą wiedzę – i masz ochotę na więcej – gratuluję! 🙂 Korelacja rangowa … czy to wystarczy? W częściach 1-8 skupiałem się na analizie korelacji rangowej. W tym przypadku korelacja rangowa odpowiada na pytanie „jak dobrze uporządkowany jest target w zależności od… Read More Analiza estymacji prawdopodobieństwa – czyli ocena jakości klasyfikacji (część 9)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Captured Response = ROC x apriori – czyli ocena jakości klasyfikacji (część 8)

W części #6 oraz części #7 cyklu „Ocena jakości klasyfikacji” przedstawiłem krzywą zysku (aka: Gain, Captured Response) oraz krzywą ROC. Dzisiaj skupię się na mało znanej, acz bardzo prostej i przydatnej, relacji pomiędzy tymi krzywymi – okazuje się bowiem, że wykresy są „niemal identyczne” 🙂 Wzór łączący ROC z Captured Response $$X_{cr}=Y_{roc}\times apriori+X_{roc}\times \Big(1-apriori\Big)$$ $$Y_{cr}=Y_{roc}$$ Geometryczne… Read More Captured Response = ROC x apriori – czyli ocena jakości klasyfikacji (część 8)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Receiver Operating Characteristic – Krzywa ROC – czyli ocena jakości klasyfikacji (część 7)

Receiver Operating Characteristic – Krzywa ROC – geneza nazwy Termin „Krzywa ROC” wywodzi się z teorii detekcji sygnałów, której zadaniem jest odróżnienie sygnału będącego informacją (np. sygnały z maszyn / urządzeń elektronicznych, bodźce pochodzące z organizmów żywych) od wzorców przypadkowych nie zawierających informacji (szum, tło, aktywność losowa). Pierwsze wykorzystanie krzywej ROC datuję się na okres II Wojny… Read More Receiver Operating Characteristic – Krzywa ROC – czyli ocena jakości klasyfikacji (część 7)

Customer Intelligence, Data Mining, Matematyka, Statystyka matematyczna

Skumulowane miary siły modelu predykcyjnego – czyli ocena jakości klasyfikacji (część 6)

W części 4 cyklu „ocena jakości klasyfikacji” opisałem podstawowe statystyki w wariancie nieskumulowanym służące inspekcji modelu predykcyjnego. Nieskumulowane prawdopodobieństwo i nieskumulowany lift, choć bardzo przydatne na etapie budowy modelu (praca analityka), sprawdzają się nieco gorzej w kontaktach analityk – odbiorca biznesowy. Odbiorcę biznesowego zazwyczaj interesują informacje takie jak „do jakiej części zainteresowanych produktem dotrę?” lub… Read More Skumulowane miary siły modelu predykcyjnego – czyli ocena jakości klasyfikacji (część 6)

Customer Intelligence

[aleBank.pl] Raport Specjalny ANALYTICS w Biznesie Bankowym: Pęd do wiedzy

Serdecznie zapraszam do zapoznania się z „Raportem Specjalnym ANALYTICS w Biznesie Bankowym: Pęd do wiedzy” przygotowanym przez Miesięcznik Finansowy Bank, gdzie miałem przyjemność podzielenia się kilkoma spostrzeżeniami z zakresu Business Intelligence. „Człowiek i maszyna […] Business Intelligence to znacznie więcej niż możliwość raportowania wyników/faktów z przeszłości, dziś to przede wszystkim przewidywanie, prognozowanie i wspieranie działań… Read More [aleBank.pl] Raport Specjalny ANALYTICS w Biznesie Bankowym: Pęd do wiedzy

Customer Intelligence, Matematyka

Strategie doboru punktów odcięcia – czyli ocena jakości klasyfikacji (część 5)

W części 4 cyklu „Ocena jakości klasyfikacji” przedstawiłem podstawowe statystyki prawdopodobieństwa oraz liftu (w wersji nieskumulowanej) służące do inspekcji modelu predykcyjnego w zakresie siły separacji klas. W części 3 skupiłem się na koncepcji punktu odcięcia (cut-off point), który model predykcyjny (z ciągłą zmienną odpowiedzi) transformuje w klasyfikator. Dziś przybliżę strategie doboru punktu odcięcia, celowo pomijając aspekty techniczne związane z… Read More Strategie doboru punktów odcięcia – czyli ocena jakości klasyfikacji (część 5)

Customer Intelligence

Danych trzeba używać – Wywiad dla Miesięcznika Finansowego Bank

W najbliższym wydaniu Miesięcznika Finansowego Bank będą miał okazję odpowiedzieć na kilka bardzo ciekawych pytań z obszaru BI oraz Customer Intelligence. Część wywiadu jest już dostępna pod poniższym linkiem. Serdecznie zapraszam 🙂 „Danych trzeba używać W jaki sposób dbać o jakość danych niezbędnych do przeprowadzania wiarygodnych analiz? Mariusz Gromada, kierownik Zespołu Analitycznego Wsparcia Kampanii, Departament… Read More Danych trzeba używać – Wywiad dla Miesięcznika Finansowego Bank

Customer Intelligence, Data Mining, Matematyka, Probabilistyka, Statystyka matematyczna

Model predykcyjny i siła separacji klas – czyli ocena jakości klasyfikacji (część 4)

Ze statystyk odwiedzin wynika, że cykl „Ocena jakości klasyfikacji” cieszy się Waszym zainteresowaniem – zatem wracam do tej tematyki. Dziś przedstawię wstęp do analizy jakości modeli predykcyjnych, skupiając się na jednym tylko aspekcie jakości – tzn. na sile modelu w kontekście separacji klas. Zapraszam 🙂 Jakość modelu predykcyjnego Matematyka dostarcza wielu różnych miar służących ocenie siły… Read More Model predykcyjny i siła separacji klas – czyli ocena jakości klasyfikacji (część 4)