Strategie doboru punktów odcięcia - czyli ocena jakości klasyfikacji (część 5)

Cut-off point

W części 4 cyklu "Ocena jakości klasyfikacji" przedstawiłem podstawowe statystyki prawdopodobieństwa oraz liftu (w wersji nieskumulowanej) służące do inspekcji modelu predykcyjnego w zakresie siły separacji klas. W części 3 skupiłem się na koncepcji punktu odcięcia (cut-off point), który model predykcyjny (z ciągłą zmienną odpowiedzi) transformuje w klasyfikator. Dziś przybliżę strategie doboru punktu odcięcia, celowo pomijając aspekty techniczne związane z analityką predykcyjną - tym zajmiemy się w kolejnym odcinku (opisując skumulowane prawdopodobieństwo, skumulowany lift, krzywą zysku aka Gain Curve lub Captured Response oraz krzywą ROC).

Dobór punktu odcięcia - strategie (z którymi miałem do czynienia w pracy zawodowej)

  • Całkowicie biznesowa - metoda najprostsza, nadal popularna, jednak coraz rzadziej stosowana.
  • Wyłącznie analityczna - rzadko stosowane w biznesie, częściej widoczna pracach / badaniach naukowych.
  • Hybryda powyższych - wariant dziś preferowany przez różne jednostki CRM.

Dobór całkowicie biznesowy

Nadal częsta praktyka, która przy wnikliwej analizie okazuje się nie być najbardziej optymalną. W strategii "całkowicie biznesowej" dobór punktu odcięcia jest pochodną zasobów (np. dostępność / pojemność kanałów komunikacji). Przykładowo - współpracujemy z call center, które miesięcznie może zadzwonić do 100 tys. Klientów. W takiej sytuacji dosyć naturalnie powstaje potrzeba wybrania "100 tys. najlepszych Klientów" (najlepszych do danej akcji). Model predykcyjny posłuży więc do "posortowania" Klientów, a punkt odcięcia będzie zależny od wskazanej oczekiwanej liczby 100 tys. Problem ze strategią całkowicie biznesową polega na tym, że "najlepszy" mylony jest z "dobry". Dodatkowo zdarza się, że siła modelu jest błędnie interpretowana jako zdolność do znalezienie większej liczby "dobrych" klientów - w rzeczywistości jest na odwrót - im lepszy model, tym mniejsze optymalne bazy. Równie istotna kwestia to skąd się właściwie wzięła liczba 100 tys?

Dobór wyłącznie analityczny

Dobór wyłącznie analityczny polega na optymalizacji błędów klasyfikacji - w nieco bardziej zgeneralizowanym podejściu optymalizuje się funkcję kosztu błędów (najczęściej jeśli koszty są mocno asymetryczne). Podejście analityczne jest zupełnie poprawna i uzasadnione, jednak w biznesie prawie nieobecne ze względu na brak uwzględnionego aspektu celu biznesowego, priorytetów, zasobów, itp.

Dobór analityczno-biznesowy

Dobór analityczno-biznesowy (jako połączenie powyższych strategii) najlepiej sprawdza się w sytuacji analizy szerszego portfela produktów (tzn. bazy i cut-off’y dobierane do różnych działań stanowią element realizacji szerszej polityki CRM). Zaczynamy od celów biznesowych, priorytetów, analizy zasobów, pojemności kanałów. Następnie weryfikujemy Klientów, ich potrzeby w kontekście możliwie wielu produktów. Ostatecznie - w wyniku kilku iteracji - dążymy do "zmapowania" segmentów Klientów na cele i zasoby, zawsze koniecznie modyfikując obie strony równania. Jest to trudne i wielowymiarowe zadanie, zadanie zawsze "niedokończone", coraz bardziej opierające się na różnego rodzaju eksperymentach ... ale o tym w kolejnych częściach cyklu ...

Pozdrowienia,

Mariusz Gromada

Views All Time
Views All Time
600
Views Today
Views Today
1

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *