Strategie doboru punktów odcięcia – czyli ocena jakości klasyfikacji (część 5)

Cut-off point

W części 4 cyklu „Ocena jakości klasyfikacji” przedstawiłem podstawowe statystyki prawdopodobieństwa oraz liftu (w wersji nieskumulowanej) służące do inspekcji modelu predykcyjnego w zakresie siły separacji klas. W części 3 skupiłem się na koncepcji punktu odcięcia (cut-off point), który model predykcyjny (z ciągłą zmienną odpowiedzi) transformuje w klasyfikator. Dziś przybliżę strategie doboru punktu odcięcia, celowo pomijając aspekty techniczne związane z analityką predykcyjną – tym zajmiemy się w kolejnym odcinku (opisując skumulowane prawdopodobieństwo, skumulowany lift, krzywą zysku aka Gain Curve lub Captured Response oraz krzywą ROC).

Dobór punktu odcięcia – strategie (z którymi miałem do czynienia w pracy zawodowej)

  • Całkowicie biznesowa – metoda najprostsza, nadal popularna, jednak coraz rzadziej stosowana.
  • Wyłącznie analityczna – rzadko stosowane w biznesie, częściej widoczna pracach / badaniach naukowych.
  • Hybryda powyższych – wariant dziś preferowany przez różne jednostki CRM.

Dobór całkowicie biznesowy

Nadal częsta praktyka, która przy wnikliwej analizie okazuje się nie być najbardziej optymalną. W strategii „całkowicie biznesowej” dobór punktu odcięcia jest pochodną zasobów (np. dostępność / pojemność kanałów komunikacji). Przykładowo – współpracujemy z call center, które miesięcznie może zadzwonić do 100 tys. Klientów. W takiej sytuacji dosyć naturalnie powstaje potrzeba wybrania „100 tys. najlepszych Klientów” (najlepszych do danej akcji). Model predykcyjny posłuży więc do „posortowania” Klientów, a punkt odcięcia będzie zależny od wskazanej oczekiwanej liczby 100 tys. Problem ze strategią całkowicie biznesową polega na tym, że „najlepszy” mylony jest z „dobry”. Dodatkowo zdarza się, że siła modelu jest błędnie interpretowana jako zdolność do znalezienie większej liczby „dobrych” klientów – w rzeczywistości jest na odwrót – im lepszy model, tym mniejsze optymalne bazy. Równie istotna kwestia to skąd się właściwie wzięła liczba 100 tys?

Dobór wyłącznie analityczny

Dobór wyłącznie analityczny polega na optymalizacji błędów klasyfikacji – w nieco bardziej zgeneralizowanym podejściu optymalizuje się funkcję kosztu błędów (najczęściej jeśli koszty są mocno asymetryczne). Podejście analityczne jest zupełnie poprawna i uzasadnione, jednak w biznesie prawie nieobecne ze względu na brak uwzględnionego aspektu celu biznesowego, priorytetów, zasobów, itp.

Dobór analityczno-biznesowy

Dobór analityczno-biznesowy (jako połączenie powyższych strategii) najlepiej sprawdza się w sytuacji analizy szerszego portfela produktów (tzn. bazy i cut-off’y dobierane do różnych działań stanowią element realizacji szerszej polityki CRM). Zaczynamy od celów biznesowych, priorytetów, analizy zasobów, pojemności kanałów. Następnie weryfikujemy Klientów, ich potrzeby w kontekście możliwie wielu produktów. Ostatecznie – w wyniku kilku iteracji – dążymy do „zmapowania” segmentów Klientów na cele i zasoby, zawsze koniecznie modyfikując obie strony równania. Jest to trudne i wielowymiarowe zadanie, zadanie zawsze „niedokończone”, coraz bardziej opierające się na różnego rodzaju eksperymentach … ale o tym w kolejnych częściach cyklu …

Pozdrowienia,

Mariusz Gromada

Poza Liczbami: Inne Twórcze Przestrzenie

Matematyka i muzyka są ściśle powiązane przez rytm, harmonię i struktury

Matematyka i muzyka są ściśle powiązane przez rytm, harmonię i struktury, które wykorzystują matematyczne wzory i proporcje do tworzenia estetycznych i emocjonalnych doznań. Z nieśmiałą ekscytacją przedstawiam moją pierwszą poważniejszą kompozycję, w której starałem się uchwycić te połączenia.

I Am Here – RELEARN – Mariusz Gromada (2024)
I Am Here – RELEARN – Mariusz Gromada (2024)
Deep Under – RELEARN – Mariusz Gromada (2024)
Deep Under – RELEARN – Mariusz Gromada (2024)

Scalar – zaawansowana aplikacja mobilna z silnikiem matematycznym mojego autorstwa

Views All Time
Views All Time
3338
Views Today
Views Today
1

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *