W części 4 cyklu „Ocena jakości klasyfikacji” przedstawiłem podstawowe statystyki prawdopodobieństwa oraz liftu (w wersji nieskumulowanej) służące do inspekcji modelu predykcyjnego w zakresie siły separacji klas. W części 3 skupiłem się na koncepcji punktu odcięcia (cut-off point), który model predykcyjny (z ciągłą zmienną odpowiedzi) transformuje w klasyfikator. Dziś przybliżę strategie doboru punktu odcięcia, celowo pomijając aspekty techniczne związane z analityką predykcyjną – tym zajmiemy się w kolejnym odcinku (opisując skumulowane prawdopodobieństwo, skumulowany lift, krzywą zysku aka Gain Curve lub Captured Response oraz krzywą ROC).
Dobór punktu odcięcia – strategie (z którymi miałem do czynienia w pracy zawodowej)
- Całkowicie biznesowa – metoda najprostsza, nadal popularna, jednak coraz rzadziej stosowana.
- Wyłącznie analityczna – rzadko stosowane w biznesie, częściej widoczna pracach / badaniach naukowych.
- Hybryda powyższych – wariant dziś preferowany przez różne jednostki CRM.
Dobór całkowicie biznesowy
Nadal częsta praktyka, która przy wnikliwej analizie okazuje się nie być najbardziej optymalną. W strategii „całkowicie biznesowej” dobór punktu odcięcia jest pochodną zasobów (np. dostępność / pojemność kanałów komunikacji). Przykładowo – współpracujemy z call center, które miesięcznie może zadzwonić do 100 tys. Klientów. W takiej sytuacji dosyć naturalnie powstaje potrzeba wybrania „100 tys. najlepszych Klientów” (najlepszych do danej akcji). Model predykcyjny posłuży więc do „posortowania” Klientów, a punkt odcięcia będzie zależny od wskazanej oczekiwanej liczby 100 tys. Problem ze strategią całkowicie biznesową polega na tym, że „najlepszy” mylony jest z „dobry”. Dodatkowo zdarza się, że siła modelu jest błędnie interpretowana jako zdolność do znalezienie większej liczby „dobrych” klientów – w rzeczywistości jest na odwrót – im lepszy model, tym mniejsze optymalne bazy. Równie istotna kwestia to skąd się właściwie wzięła liczba 100 tys?
Dobór wyłącznie analityczny
Dobór wyłącznie analityczny polega na optymalizacji błędów klasyfikacji – w nieco bardziej zgeneralizowanym podejściu optymalizuje się funkcję kosztu błędów (najczęściej jeśli koszty są mocno asymetryczne). Podejście analityczne jest zupełnie poprawna i uzasadnione, jednak w biznesie prawie nieobecne ze względu na brak uwzględnionego aspektu celu biznesowego, priorytetów, zasobów, itp.
Dobór analityczno-biznesowy
Dobór analityczno-biznesowy (jako połączenie powyższych strategii) najlepiej sprawdza się w sytuacji analizy szerszego portfela produktów (tzn. bazy i cut-off’y dobierane do różnych działań stanowią element realizacji szerszej polityki CRM). Zaczynamy od celów biznesowych, priorytetów, analizy zasobów, pojemności kanałów. Następnie weryfikujemy Klientów, ich potrzeby w kontekście możliwie wielu produktów. Ostatecznie – w wyniku kilku iteracji – dążymy do „zmapowania” segmentów Klientów na cele i zasoby, zawsze koniecznie modyfikując obie strony równania. Jest to trudne i wielowymiarowe zadanie, zadanie zawsze „niedokończone”, coraz bardziej opierające się na różnego rodzaju eksperymentach … ale o tym w kolejnych częściach cyklu …
Pozdrowienia,
Mariusz Gromada
Poza Liczbami: Inne Twórcze Przestrzenie
Matematyka i muzyka są ściśle powiązane przez rytm, harmonię i struktury
Matematyka i muzyka są ściśle powiązane przez rytm, harmonię i struktury, które wykorzystują matematyczne wzory i proporcje do tworzenia estetycznych i emocjonalnych doznań. Z nieśmiałą ekscytacją przedstawiam moją pierwszą poważniejszą kompozycję, w której starałem się uchwycić te połączenia.