Witaj w 14 części cyklu "Ocena jakości klasyfikacji". Dziś rozwinę wątek oszacowania separacji klas na bazie krzywej Captured Response - będzie to kolejny odcinek z serii "Tips & Tricks na krzywych".
Statystyka KS Kołmogorowa-Smirnowa jako miara różnicy rozkładów
Rozważmy dwie rzeczywiste zmienne losowe
i
oraz ich dystrybuanty odpowiednio
oraz
. Statystyką Kołmogorowa-Smirnowa dla zmiennych
oraz
nazywamy odległość
zdefiniowaną następująco:


Jeśli
jest badaną wartością, to odległość KS interpretujemy jako maksymalną różnicę pomiędzy rzędem kwantyla w rozkładzie pierwszym i rzędem kwantyla w rozkładzie drugimi, które to rzędy odpowiadają wspólnej wartości
.
Do tanga trzeba dwojga
Przy modelach predykcyjnych, dla problemu klasyfikacji binarnej, tak naprawdę dysponujemy trzema rozkładami:
- rozkład populacji / próby względem oceny modelem;
- rozkład klasy pozytywnej względem oceny tym samym modelem;
- rozkład klasy negatywnej również względem oceny tym samym modelem.
W części #13 "Lift i Captured Response to gęstość i dystrybuanta tego samego rozkładu" pokazałem jak "wygląda" rozkład klasy pozytywnej. Dziś interesuje nas odległość KS rozkładu "jedynek" od rozkładu "zer", przechodzimy więc do zdefiniowana gęstości i dystrybuanty dla klasy negatywnej.
Lift nieskumulowany dla klasy negatywnej - tzn. "klasy 0"
Załóżmy, że dana jest funkcja
liftu nieskumulowanego dla klasy pozytywnej, gdzie
to przedział rzędu kwantyla (w całej populacji) względem malejącej oceny modelem.





Przykład dla pewnej funkcji liftu nieskumulowanego i apriori = 30%.

Warto zwrócić uwagę na punkt przecięcia tych krzywych - spotykają się w tym samym miejscu, gdzie dochodzi do zrównania z krzywą dla modelu losowego. Dosyć łatwo to uzasadnić: jeśli
to
.
Sprawdźmy jeszcze czy
spełnia warunek "unormowania".






Captured Response dla klasy negatywnej - tzn. "klasy 0"
Załóżmy, że dana jest funkcja
Captured Response dla klasy pozytywnej, gdzie
to rząd kwantyla (w całej populacji) względem malejącej oceny modelem.
Oznaczenia:
- punkt, dla którego wyznaczamy wartość krzywej;
- liczba obserwacji: łączna, z "klasy 1", z "klasy 0";
- liczba obserwacji "na lewo" od
: łączna, z "klasy 1", z "klasy 0";
Wtedy:


Wyprowadzamy
w zależności od
.







Przykład dla pewnej funkcji Captured Response i apriori = 30%.

jest dystrybuantą, gdyż:


- Jest funkcją niemalejącą, co wynika bezpośrednio z jej definicji.
Lift nieskumulowany dla klasy negatywnej to pochodna Captured Response dla klasy negatywnej




Aby w pełni zrozumieć powyższe przejścia zapoznaj się z częścią #11 "Captured Response vs Lift", gdzie uzasadniam, że pochodna Captured Response to lift nieskumulowany.
Wniosek: Lift nieskumulowany dla klasy negatywnej oraz Captured Response dla klasy negatywnej to gęstość i dystrybuanta tego samego rozkładu.
Jeśli

to




Wskaźnik KS dla
i
- czyli miara separacji klas
Wskaźnik KS dla
i
zdefiniujemy następująco:
![D\big(CR_1,CR_0\big)=\displaystyle\sup_{q\in[0,1]}\bigg|CR_1(q)-CR_0(q)\bigg|](http://mathspace.pl/wp-content/plugins/latex/cache/tex_3d06b4e6869b268c58c34227f7f6f6b3.gif)
Równoważnie poszukujemy takiego
, że
![D\big(CR_1,CR_0\big)=\displaystyle\sup_{q\in[0,1]}\bigg|CR_1(q)-CR_0(q)\bigg|=](http://mathspace.pl/wp-content/plugins/latex/cache/tex_fb4ca80161a1bd54e88616ce35621def.gif)

Zauważmy, że

Badamy przebieg zmienności - a konkretnie typujemy punkt maksimum na podstawie pochodnej.
Dla klasy "1":



Dla klasy "0":








Wniosek: odległość
jest maksymalizowana w punkcie, w którym funkcja liftu nieskumulowanego ma wartość 1 - tzn. w punkcie przecięcia z liftem dla modelu losowego.

Powyższy wniosek jest dosyć intuicyjny - jeśli lift nieskumulowany "wchodzi w obszar bycia mniejszym niż 1" oznacza to, że jego efekt jest mniejszy od działania modelu losowego. Dodawanie kolejnych obserwacji zaczyna zmniejszać separację rozkładów.
Pozdrowienia,
Mariusz Gromada