Lift nieskumulowany jako gęstość, Captured Response jako dystrybuanta – czyli ocena jakości klasyfikacji (część 13)

W 13 części cyklu „Ocena jakości klasyfikacji” przedstawię dodatkowe interpretacje dla krzywej liftu nieskumulowanego i krzywej Captured Response. Obiecuję, że będzie ciekawie 🙂 przecież robimy „deep dive into predictive model assessment curves”. W dzisiejszym odcinku zapomnimy o punktach odcięcia, klasyfikatorach binarnych, rozważając rozkłady populacji jako całość. Chwilkę się do tego przygotowywałem – było warto – seria „Tips & Tricks na krzywych” nabiera rumieńców!

Pole powierzchni pod krzywą liftu nieskumulowanego

Lift nieskumulowany dla modelu losowego to funkcja stała o wartości 1. Pole pod taką krzywą równe jest polu kwadratu o boku 1 i wynosi oczywiście 1. Model losowy „rozrzuca” obserwacje z „klasy 1” równomiernie, tzn. taka sama część otrzymuje wysoki, średni i niski score. Głównym zadaniem modelu predykcyjnego, w pewnym sensie, jest „przepchnąć” obserwacje należące do „klasy 1” z segmentu niskiego score do segmentu wysokiego score – dzięki temu pojawia się separacja klas. Powyższe dobrze obrazuję animacją, gdzie siła modelu utożsamiana jest z „siłą podmuchu wiatru” 🙂

Lift nieskumulowany - całka

Takie „przepchnięcie” nie ma wpływu na ilość „jedynek”, zatem należy podejrzewać, że pole pod krzywą liftu nieskumulowanego zawsze wynosi 1. No to całkujemy:

$$\displaystyle\int_0^1 Lift.Niesk(q)dq$$

Oznaczenia + zależności:

  • $N=N_1+N_0$ – liczba obserwacji: łączna, z „klasy 1”, z „klasy 0”;
  • $k$ – liczba przedziałów, na które dzielimy odcinek $[0;1]$;
  • $p=\frac{1}{k}$ – szerokość pojedynczego przedziału (zakres zmienności rzędu kwantyli);
  • $p\cdot N$ – liczba obserwacji w przedziale (podział po kwantylach, zatem po równo);
  • $i=\{1,2,3,\ldots,k\}$ – numer przedziału;
  • $n_1^i+n_0^i=pN$ – liczba obserwacji w przedziale, osobno „z klasy 1” i „z klasy 0”;
  • $\Delta q^i$ – przedział, na którym wyznaczona jest wartość liftu nieskumulowanego;
  • $\displaystyle\sum_{i=1}^k n_1^i=N_1$
  • $\displaystyle\sum_{i=1}^k n_0^i=N_0$
  • $\displaystyle\sum_{i=1}^k n_1^i+n_0^i=N_1+N_0=N$

Lift nieskumulowany jest funkcją przedziałami stałą:

$$Lift.Niesk(q)=Lift.Niesk(\Delta q^i)\quad\text{dla}\quad q\in\Delta q^i$$

$$Lift.Niesk(\Delta q^i)=\frac{P(1|\Delta q^i)}{P(1)}$$

$$P(1|\Delta q^i)=\frac{n_1^i}{pN}$$ oraz $$P(1)=\frac{N_1}{N}$$

$$Lift.Niesk(\Delta q^i)=\frac{n_1^i}{pN}\cdot \frac{N}{N_1}=\frac{n_1^i}{pN_1}$$

$$Lift.Niesk(\Delta q^i)=\frac{n_1^i}{pN_1}$$

$$\displaystyle\int_0^1 Lift.Niesk(q)dq=\displaystyle\sum_{i=1}^k p\cdot Lift.Niesk(\Delta q^i)$$

$$\displaystyle\sum_{i=1}^k p\cdot Lift.Niesk(\Delta q^i)=\displaystyle\sum_{i=1}^k p\frac{n_1^i}{pN_1}=$$

$$=\displaystyle\sum_{i=1}^k \frac{n_1^i}{N_1}=\frac{\displaystyle\sum_{i=1}^k n_1^i}{N_1}=\frac{N_1}{N_1}=1$$

$$\displaystyle\int_0^1 Lift.Niesk(q)dq=1$$

Lift nieskumulowany jako funkcja gęstości rozkładu prawdopodobieństwa

Funkcja liftu nieskumulowanego jest nieujemna i spełnia warunek „unormowania” (w przeciwieństwie do funkcji nieskumulowanego prawdopodobieństwa) w kontekście gęstości rozkładu prawdopodobieństwa – tzn. pole powierzchni pod krzywą wynosi 1. Taka gęstość opisuje rozkład rzędu kwantyli (kwantyle wyznaczane dla całej populacji „klasa 0 + klasa 1” względem malejącej oceny modelem) w klasie faktycznie pozytywnej – tzn. w „klasie 1”.

Lift nieskumulowany jako gęstość

Jeśli

$$Q=(q_1,q_2)$$

to

$$P(q\in Q|1)=\displaystyle\int_{q_1}^{q_2}Lift.Niesk(q)dq$$

Captured Response jako dystrybuanta rozkładu prawdopodobieństwa

Captured Response jest funkcją niemalejącą, jednostronnie ciągłą (powiedzmy, że prawostronnie), o wartościach z przedziału $[0;1]$, wartości 0 dla $q\leq 0$ oraz wartości 1 dla $q\geq 1$. Tym samym spełnione są warunki bycia dystrybuantą pewnego rozkładu prawdopodobieństwa. W części „#11 – Captured Response vs Lift” wykazałem, że pochodna z Captured Response to lift nieskumulowany. Wniosek: Captured Response i lift nieskumulowany to dystrybuanta i gęstość tego samego rozkładu prawdopodobieństwa.

Lift nieskumulowany jako gęstość, Captured Response jako dystrybuanta

Jeśli

$$Q=(q_1,q_2)$$

to

$$P(q\in Q|1)=\displaystyle\int_{q_1}^{q_2}Lift.Niesk(q)dq=CR(q_2)-CR(q_1)$$

Pozdrowienia,

Mariusz Gromada

Views All Time
Views All Time
1265
Views Today
Views Today
1

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *