Captured Response vs Lift / Tips & Tricks na krzywych - czyli ocena jakości klasyfikacji (część 11)

W części #8 cyklu "Ocena jakości klasyfikacji" pokazałem, że ROC i Captured Response to te same krzywe, które łączy proste przekształcenie liniowe. W bieżącym odcinku #11, należącym również do serii "Tips & Tricks na krzywych", przedstawię zależność pomiędzy Captured Response i Lift w wariantach: nieskumulowanym i skumulowanym.

Pochodna z Captured Response to Lift nieskumulowany

Pochodna z Captured Response to Lift nieskumulowany

Oznaczamy:

  • N=N_1+N_0 - liczba obiektów (np. klientów): total, z klasy "1", z klasy"0";
  • \Delta q_n - zmiana argumentu (przyrasta kwantyl bazy), czyli przyrost % populacji;
  • n=n_1+n_0 - liczba obiektów składających się na przyrost \Delta q_n: total, z klasy "1", z klasy"0";
  • \Delta q_t - zmiana wartości funkcji (przyrasta kwantyl targetu), czyli przyrost frakcji targetu jako % całości targetu;
  • n_1 - liczba klientów z klasy "1" składających się na przyrost \Delta q_t.
  • \Delta q_n=\frac{n}{N}
  • \Delta q_t=\frac{n_1}{N_1}

CR'=\frac{\Delta q_t}{\Delta q_n}

I wyprowadzamy 🙂

CR'=\frac{\Delta q_t}{\Delta q_n}=\frac{n_1}{N_1}\bigg/\frac{n}{N}=\frac{n_1}{N_1}\cdot\frac{N}{n}=\frac{n_1}{n}\cdot\frac{N}{N_1}=\frac{n_1}{n}\bigg/\frac{N_1}{N}

CR'=\frac{n_1}{n}\bigg/\frac{N_1}{N}=\frac{p(1|\Delta q_n)}{p(1)}=Lift.Niesk

Fajne 🙂 prawda? Lift nieskumulowany można jednoznacznie wyprowadzić z krzywej Captured Response poprzez analizę "lokalnych" przyrostów frakcji bazy \Delta q_n i frakcji targetu \Delta q_t.

Captured Response - stosunek wartości dla badanego modelu oraz wartości dla modelu losowego to Lift skumulowany

Captured Response - stosunek wartości dla badanego modelu oraz wartości dla modelu losowego to Lift skumulowany

Oznaczamy:

  • N=N_1+N_0 - liczba obiektów (np. klientów): total, z klasy "1", z klasy"0";
  • q_n - kwantyl bazy, czyli argument na osi poziomej;
  • n=n_1+n_0 - liczba obiektów składających się na kwantyl q_n: total, z klasy "1", z klasy"0";
  • q_t^m - kwantyl targetu, czyli wartość Captured Response dla badanego modelu;
  • q_t^l - kwantyl targetu, czyli wartość Captured Response dla modelu losowego;
  • q_n=\frac{n}{N}
  • q_t^m=\frac{n_1}{N_1}
  • Zauważmy, że q_t^l=q_n=\frac{n}{N}

\frac{q_t^m}{q_t^l}=\frac{n_1}{N_1}\bigg/\frac{n}{N}=\frac{n_1}{N_1}\cdot\frac{N}{n}=\frac{n_1}{n}\cdot\frac{N}{N_1}=\frac{n_1}{n}\bigg/\frac{N_1}{N}

\frac{q_t^m}{q_t^l}=\frac{n_1}{n}\bigg/\frac{N_1}{N}=\frac{p(1|q_n)}{p(1)}=Lift.Skumul

Kolejny fajny wniosek 🙂 , który można również łatwo uzasadnić na bazie wyżej opisanej zależności pomiędzy Captured Response i Liftem nieskumulowanym. Mianowicie wystarczy "delty liczyć" od punktu (0,0) i zauważyć, że dla modelu losowego q_t = q_n. Pokazałem to na rysunku poniżej.

Captured Response - stosunek wartości dla badanego modelu oraz wartości dla modelu losowego to Lift skumulowany

Lift skumulowany można jednoznacznie wyprowadzić z krzywej Captured Response poprzez analizę "globalnych" przyrostów frakcji bazy \Delta q_n i frakcji targetu \Delta q_t.

Pozdrowienia,

Mariusz Gromada

Model teoretycznie idealny / Tips & Tricks na krzywych - czyli ocena jakości klasyfikacji (część 10)

Kilka kolejnych części cyklu "Ocena jakości klasyfikacji" skupi się na poradach i pewnych trickach (czyli seria "Tips & Tricks na krzywych"), które zastosowane do krzywych: Lift, Captured Response, ROC, znacząco pogłębiają ich interpretację.

Model teoretycznie idealny a prawdopodobieństwo a-priori

Model teoretycznie idealny to taki model, który daje najlepsze możliwe uporządkowanie - inaczej mówiąc najlepszą możliwą separację klas. Taki model nie myli się przy założeniu, że punkt odcięcia odpowiada prawdopodobieństwu a-priori. Wtedy faktycznie cała klasa pozytywna jest po jednej stronie, a cała klasa negatywna po drugiej stronie punktu cut-off.

Model Teoretycznie Idealny - Porządek - Cut-Off - Brak błędu

Przy każdym innym cut-off model teoretycznie idealny popełnia mniejszy lub większy błąd.

Model Teoretycznie Idealny - Porządek - Cut-Off - Błąd

Ile istnieje różnych modeli teoretycznie idealnych?

Liczba różnych modeli teoretycznie idealnych to funkcja liczności klasy faktycznie pozytywnej i liczności klasy faktycznie negatywnej. Liczba ta będzie iloczynem możliwych permutacji w klasie pozytywnej i możliwych permutacji w klasie negatywnej. Takie modele, z punktu widzenia klasycznej oceny jakości klasyfikacji, są nierozróżnialne (dlatego na wykresach oznaczamy tylko jeden). Sytuacja może się zmienić, jeśli, w celu lepszego uporządkowania, rozważymy dodatkowe cechy (oprócz samej przynależności do badanej klasy), takie jak: wartość klienta, oczekiwany life-time, etc...

Model teoretycznie idealny i maksymalny Lift nieskumulowany

Lift nieskumulowany to stosunek prawdopodobieństwa w przedziale bazy \Delta q_n i prawdopodobieństwa a-priori (w całej bazie).

Lift.Nieskum=\frac{p(1|\Delta n)}{p(1)}

Jeśli baza jest uszeregowana malejąco względem oceny modelem, maksymalny możliwy lift nieskumulowany będzie funkcją dwuwartościową.

Lift.Nieskum(q)=\begin{cases}\frac{1}{apriori}&\text{dla}\quad q\leq apriori\\0&\text{dla}\quad q>apriori\end{cases}

q - kwantyl bazy (malejąco względem oceny modelem)

Model Teoretycznie Idealny - Lift Nieskumulowany

Model teoretycznie idealny i maksymalny Lift skumulowany

Również w przypadku skumulowanym, będąc "na lewo od a-priori", maksymalny możliwy lift skumulowany wynosi \frac{1}{apriori} (cały czas mamy do dyspozycji "1-dynki"). Jeśli "cut-off przekroczy kwantyl a-priori", klasyfikacja pozytywna zaczyna być "zaśmiecana" frakcją False-Positive, gdyż nie ma już "1-dynek" - co wynika z najlepszego możliwego porządku (model teoretycznie idealny) - tzn. wszystkie obiekty z klasy faktycznie pozytywnej znajdują się w kwantylach z przedziału [0,apriori].

Lift.Skum(q)=\begin{cases}\frac{1}{apriori}&\text{dla}\quad q\leq apriori\\\frac{1}{q}&\text{dla}\quad q>apriori\end{cases}

q - kwantyl bazy (malejąco względem oceny modelem)

Dlaczego \frac{1}{q}? Przyjmijmy q>apriori, wtedy

  • q to rozmiar "bazy"
  • apriori to rozmiar klasy faktycznie pozytywnej w rozważanej "bazie"

p\big(1\big|~[0,q]~\big)=\frac{apriori}{q}

Lift.Skum(q)=\frac{p\big(1\big|~[0,q]~\big)}{p(1)}=\frac{apriori}{q\times apriori}=\frac{1}{q}

Model Teoretycznie Idealny - Lift Skumulowany

Model teoretycznie idealny i maksymalny Captured Response

Dysponując najlepszym możliwym uporządkowaniem krzywa Captured Response liniowo rośnie dla argumentów "na lewo" od apriori - każdy dodany obiekt, to klasa faktycznie pozytywna. W punkcie "apriori" całość targetu jest już pokryta - zatem wartość krzywej to 100%.

Capt.Resp(q)=\begin{cases}\frac{q}{apriori}&\text{dla}\quad q\leq apriori\\1&\text{dla}\quad q>apriori\end{cases}

q - kwantyl bazy (malejąco względem oceny modelem)

Model Teoretycznie Idealny - Captured Response

Model teoretycznie idealny i ROC

  • Jeśli cut-off jest "na lewo" od a-priori: pokrywamy wyłącznie elementy klasy faktycznie pozytywnej, zatem rośnie wyłącznie TPR, przy zerowym FPR.
  • Dla cut-off odpowiadającego a-priori: pokryto 100% klasy faktycznie pozytywnej (TPR = 100%), jednocześnie nie popełniając żadnego błędu (FPR = 0%).
  • Dla cut-off większego od a-priori: TPR już wcześniej osiągnęło 100%, teraz klasyfikując pozytywnie popełniamy coraz większy błąd - tzn. FPR zaczyna rosnąć.
  • Dla cut-off = 1: pokryliśmy całość klasy faktycznie pozytywnej (TPR=100%), jednak w tym samym kroku wszelkie obiekty faktycznie negatywne zaliczyliśmy do klasy pozytywnej (FPR=100%).

Model Teoretycznie Idealny - ROC

"Przestrzeń na model" - czyli sens budowy modelu

  • Dla dużych a-priori (np. 50-60%) przestrzeń na model (tzn. możliwy do osiągnięcia lift) jest bardzo mała. W takich sytuacjach należy najpierw zadać sobie pytanie co chcemy osiągnąć, czym jest target, czy nie istnieją proste reguły biznesowe odpowiadające naszym potrzebom? Duże a-priori nie jest przypadkiem abstrakcyjnym - szereg pytań dotyczy cech / zdarzeń bardzo częstych w bazach / populacjach, np: czy rodzina ma dziecko?, czy ktoś posiada samochód?, etc..
  • Małe a-priori (np. kilka promili) daje bardzo dużą przestrzeń na model (typowo duży osiągany lift), ale należy pamiętać, że 5 razy 0 daje 0!! Przykładowa kalkulacja:
    • a-priori = 0.5%
    • lift (na którymś niskim centylu) = 10
    • wtedy prawdopodobieństwo targetu na bazie klasyfikowanej pozytywnie = 0.5% * 10 = 5%
    • wtedy w 95% przypadkach mylimy się - owszem możemy pokryć sporą część targetu, ale sami sobie odpowiedzcie czy nieprawidłowy komunikat do 95% grupy ma sens?
  • Pośrednie a-priori (kilka - kilkanaście procent) - sytuacja optymalna 🙂

Pozdrowienia,

Mariusz Gromada

Analiza estymacji prawdopodobieństwa - czyli ocena jakości klasyfikacji (część 9)

Właśnie czytasz część #9 cyklu "Ocena jakości klasyfikacji" - a to oznacza, że posiadasz już sporą wiedzę - i masz ochotę na więcej - gratuluję! 🙂

Korelacja rangowa ... czy to wystarczy?

W częściach 1-8 skupiałem się na analizie korelacji rangowej. W tym przypadku korelacja rangowa odpowiada na pytanie "jak dobrze uporządkowany jest target w zależności od oceny modelem" - tzn. jak silnie monotoniczna jest zależności pomiędzy score i targetem? Innymi słowy - czy wraz ze wzrostem score, rośnie frakcja True-Positive, i jak silny jest to wzrost? Krzywa lift, czy Captured Response, doskonale to obrazują. Jednak to nie wszystko ... W wielu przypadkach niezbędne jest prawidłowe oszacowanie prawdopodobieństwa z jakim zaobserwujemy klasę pozytywną.

Tarcze estymacji prawdopodobieństwa - schemat

Ocena estymacji prawdopodobieństwa - co to?

Załóżmy, że określoną grupę klientów podzieliśmy na dane trenujące i uczące oraz, że na próbie uczącej przygotowaliśmy model predykcyjny szacujący prawdopodobieństwo "bycia klasą pozytywną". Przyjmijmy, że dla pewnego klienta x model zwrócił prawdopodobieństwo 0.3. W tym przypadku wskaźnik 0.3 oznacza, że np. dla 100 klientów, o tych samych cechach, spodziewamy się około 30 z "klasy pozytywnej" oraz około 70 z "klasy negatywnej". Ocena estymacji prawdopodobieństwa to weryfikacja na ile możemy ufać oszacowaniu, tutaj 30 vs 70.

W ogólności - chodzi o stwierdzenie czy estymator (czyli nasz model) jest nieobciążony (czyli wolny od błędu systematycznego), a jeżeli jest obciążony, to na ile i w jakich przypadkach. Statystyka matematyczna dostarcza szeregu różnych wskaźników wyznaczających błąd oszacowania dla zmiennej ciągłej - np. błąd średnio-kwadratowy - w tym tekście nie będę się na nich skupiał. Nasz przypadek jest mniej ogólny, a i samej weryfikacji najwygodniej dokonać "organoleptycznie" - tzn. metodą wizualną w wielu krokach 🙂

Kiedy oceniać jakość estymacji prawdopodobieństwa?

Generalnie zawsze! Często same techniki modelowania optymalizują prawdopodobieństwo - np. regresja logistyczna wykorzystująca metodę największej wiarygodności - tu konieczność badania jest oczywista. Inne metody, takie jak drzewa decyzyjne, wraz ze wzrostem drzewa, starają się zmniejszyć zmienność klas w węzłach potomkach / liściach - tu nadal możemy ocenić finalne prawdopodobieństwo - np. na bazie rozkładu klas (o ile liczności są odpowiednio duże). Zasada jest taka - ocena prawdopodobieństwa daje zawsze dodatkową cenną informację w procesie weryfikacji jakości modelu! Jest jednak kilka szczególnych przypadków, kiedy ocena poprawności prawdopodobieństwa jest absolutnie konieczna:

  • Model będzie stosowany w wyznaczaniu wartości oczekiwanych (np. oczekiwany przychód).
  • Kwestie regulacyjne / modele ryzyka kredytowego  (np. modele PD - Probability Default).
  • Modele Anti-Fraud.
  • Modele churn (np. oczekiwana wartość utracona).
  • Modele up-lift (np. efekt inkrementalny na bazie różnicy dwóch modeli) - o tym opowiemy kiedyś w szczegółach.
  • Rekomendatory na bazie "głosowania" modelami propensity (modelami skłonności do skorzystania z produktu / usługi).
  • I wiele innych ...

Tarcza prawdopodobieństwa - typowe sytuacje w praktyce

Tarcza prawdopodobieństwa - nazwa moja, nie szukajcie po Wikipedii 🙂 - to ciekawe i proste narzędzie obrazujące schematycznie (w dalszej części również praktycznie) typowe przypadki, na jakie z pewnością natkniecie się w pracy z rzeczywistymi modelami. Czasami jeden obraz wart jest znacznie więcej niż potok słów - zatem zaczynamy.

Silny model - schemat

Tarcze estymacji prawdopodobieństwa - model słaby

  • Przypadek 1: Silny model z dobrą estymacją prawdopodobieństwa

Schemat obrazuje sytuację, kiedy model trafia "w punkt" - czyli powtarzalnie i precyzyjnie odróżniany jest "cel" od reszty "tarczy". Świadczy to o wysokiej separacji klas (klasa pozytywna vs klasa negatywna), spodziewany wysoki indeks Giniego, jak też oczekiwana dobra jakość estymacji prawdopodobieństwa. Na schemacie "centrum" jest tym miejscem, w które trafia model.

Akcja: Model gotowy do wykorzystania.

  • Przypadek 2: Silny model z obciążoną estymacją prawdopodobieństwa

Tym razem schemat przedstawia model o wysokim skupieniu - czyli mamy dużą powtarzalność wyników wraz z ich skupieniem, natomiast samo skupienie jest przesunięte w stosunku do punktu środkowego. Interpretacja - mamy do czynienia z silną separacją klas (wysoki indeks Giniego), natomiast szacowanie prawdopodobieństwa obarczone jest systematycznym błędem (obciążeniem).

Akcja: Model wymaga kalibracji, może być warunkowo stosowany w sytuacjach, kiedy opieramy się wyłącznie na korelacji rangowej.

Model z siłą predykcyjną w ograniczeniu do podgrup - schemat

Tarcze estymacji prawdopodobieństwa - przypadek mieszany

  • Przypadek 1: Silny model w ograniczeniu do podgrup

Sytuacja nieco bardziej złożona. Model, jako całość, nie jest zbyt dobry, natomiast w ograniczeniu do pewnych segmentów (np. klient "młody", klient "zamożny", etc…) separacja klas jest wysoka. Niestety, w tych segmentach, estymacja prawdopodobieństwa jest obarczona błędem systematycznym, co skutkuje niską siłą modelu dla całej populacji.

Akcja: Model wymaga dalszych prac, typowo niezbędne jest przygotowanie osobnych modeli dla wskazanych segmentów, następnie połączenie ich w całość.

  • Przypadek 2: Silny model wyłącznie dla wybranych segmentów

Podobnie jak wyżej, z tą różnicą, że istnieją podgrupy, w których model traci siłę separacji klas.

Akcja: Model wymaga dalszych prac, być może został popełniony błąd w kodzie i/lub w przetwarzaniu danych. Sprawdź cały eksperyment.

Słaby model - schemat

Tarcze estymacji prawdopodobieństwa - model słaby

"Model strzela na oślep", trafienia są nieprzewidywalne, nie ma skupienia. Interpretacja - brak separacji klas, indeks Giniego bardzo niski. Samo prawdopodobieństwo może być nieobciążone, tzn. średnia może zgadzać się z oczekiwanym a-priori.

Akcja: Zdecydowanie sytuacja negatywna, należy powtórzyć całość eksperymentu - prawdopodobnie błąd w kodzie, błąd w danych, błąd w założeniach, ewentualnie (choć mniej prawdopodobne) zmienne nie posiadają siły predykcyjnej.

Tarcza prawdopodobieństwa - praktyczna realizacja

Wizualizacja tarczy, aby ocena mogła być dokonana wiarygodnie,  wymaga odpowiedniej liczby "strzałów". Proponuję stosować wykres zawierający 100 punktów, każdy dla osobnego centyla score (przy założeniu, że mamy odpowiednio dużo danych wejściowych).

Kroki:

  • Dane testowe (osobno uczące) dzielimy na 100 grup, gdzie każda grupa to centyl względem rosnącej wartości szacowanego prawdopodobieństwa (score).
  • W każdej grupie wyznaczamy frakcję klasy pozytywnej.
  • W każdej grupie wyznaczamy średnie estymowane prawdopodobieństwo (średni score).
  • Wykres:
    • oś pozioma "X": frakcja klasy pozytywnej
    • oś pionowa "Y" średni score.

Praktyczna Realizacja Tarczy Prawdopodobieństwa

  • TR_i - target rate w grupie "i"
  • P_i - estymowane prawdopodobieństwo w grupie "i"

Interpretacja:

  • Model idealny znajduje się na prostej y = x (tzn. brak błędu estymacji prawdopodobieństwa).
  • Model praktycznie dobry powinien dawać wyniki "w pobliżu" prostej y = x, przy czym "wahania pod / nad prostą" powinny charakteryzować się losowością, co świadczy o braku obciążenia.
  • Przestrzeń nad prostą y = x to obszar, gdzie model zawyża prawdopodobieństwo.
  • Przestrzeń pod prostą y = x to obszar, gdzie model zaniża prawdopodobieństwo.

Typowe proces oceny jakości estymacji prawdopodobieństwa

  1. Ocena dla całej populacji: średni score vs a-priori / target rate całej populacji.
  2. Ocena dla głównych segmentów: jeśli pracujemy na rzeczywistych obiektach (np. zbiór klientów) typowo dysponujemy szeregiem łatwych w interpretacji cech, które generują naturalne segmenty - będą to np.: wiek, płeć, miejsce zamieszkania (populacja), posiadane produkty, klient zamożny, klient indywidualny, i wiele innych. Często model szacuje prawidłowe prawdopodobieństwo dla całej populacji, niestety myląc się w podgrupach.
  3. Ocena na bazie "tarczy prawdopodobieństwa":  tym razem zadajemy pytanie czy błąd estymacji zależy od wartości score? Idealna sytuacja jest tak, że nie zależy, tzn. że błąd pojawia się losowo. Score jest wypadkową szeregu zmiennych, więc pośrednio pokazujemy, że błąd zależy / nie zależy od każdej ze zmiennych osobno.

Przykłady

Przykład 1: Estymacja silnie zawyżona w segmentach wysokiego prawdopodobieństwa (wysokiej skłonności)

Tarcza Prawdopodobieństwa - Przykład 1

Przykład 2: Umiarkowane zawyżenie w segmentach niskiego prawdopodobieństwa

Tarcza Prawdopodobieństwa - Przykład 2

Przykład 3: Widoczne 3 segmenty z obciążeniem: 1. dość istotne zawyżenie, 2. umiarkowane zawyżenie, 3. umiarkowane zaniżenie

Tarcza Prawdopodobieństwa - Przykład 3

Przykład 4: Całkiem niezły model

Tarcza Prawdopodobieństwa - Przykład 4

Pozdrowienia,

Mariusz Gromada

 

Kilka słów o modelu probabilistycznym - czyli sekrety zmiennych losowych (część 1)

Zmienna losowa

Motywacja

Niemal w każdej literaturze z zakresu statystycznej analizy danych, czy też ogólnie analizy danych, spotkać można mniej lub bardziej zaawansowane wykorzystanie terminu zmiennej losowej. Jak sama nazwa wskazuje zmienna losowa stosowana jest typowo tam gdzie zachodzi potrzeba systematyzacji pojęcia cechy losowo obserwowanego obiektu, jego atrybutów, czy też posiadanych własności. Na tym proste intuicje jednak się kończą, szczególnie gdy zaczynamy rozpatrywać rozkłady wskazanych zmiennych, porównując je między sobą, starając się sformułować mniej lub bardziej czytelne wnioski.

Ale o co tak naprawdę chodzi? Dlaczego, w dobie tak szeroko dostępnej informacji w internecie, zdecydowałem się napisać kilka słów o sekretach zmiennych losowych? Motywacja pojawiła się po szeregu rozmów z moimi kolegami po fachu, gdzie okazało się, że jeden wniosek, jedno twierdzenie, często interpretujemy inaczej, może nie diametralnie inaczej, ale jednak pojawiające się różnice dotyczyły fundamentalnych kwestii takich jak "o które prawdopodobieństwo tu chodzi", czy też "a w jakiej przestrzeni probabilistycznej faktycznie jesteśmy", lub "jaka jest faktycznie natura zmienności losowej i czego ta zmienność dotyczy". Zdałem sobie sprawę, że wspomniane różnice wynikają z częstych uproszczeń stosowanych przez autorów różnych opracowań, resztę załatwia pozorna łatwość interpretacji szeregu pojęć, których zrozumienie wymaga wnikliwej obserwacji struktury matematycznych obiektów.

Do kogo adresowany jest cykl? Pomimo, że niemal wszędzie będą prezentowane intuicje i przykłady, to do pełnego zrozumienia potrzebujesz zapoznać się z pojęciami: miary, przestrzeni mierzalnej oraz przestrzeni probabilistycznej. Będę podawał większość niezbędnych definicji, zakładam jednak, że czytelnik zna podstawy teorii mnogości oraz przestrzeni metrycznych.

Uwaga - cykl jest refleksją nad modelem probabilistycznym - pewne subtelności można zauważyć dopiero w szczegółach, a jak wiemy z polskiego przysłowia, możemy tam spotkać nawet diabła 🙂

Model probabilistyczny - kilka słów

Rozkwit probabilistyki jako teorii był możliwy dzięki osiągnięciom w innych gałęziach matematyki, szczególnie w dziedzinie teorii miary i całki. Należy jednak pamiętać, że u podstaw większości współczesnych dyscyplin leży również teoria mnogości - dział matematyki, a zarazem logiki matematycznej, zapoczątkowany przez niemieckiego matematyka Georga Cantora pod koniec XIX wieku - oraz topologia.

W dzisiejszych czasach każdy matematyk (i nie tylko) w sposób naturalny
posługuje się takimi terminami jak zbiór, funkcja czy relacja - nic w tym dziwnego - te pojęcia to esencja teorii mnogości zarazem będąca filarem nauk ścisłych. Nietrudno więc o wniosek, że dziedzina dla matematyki jest tym czym fizyka cząstek elementarnych dla większości nauk przyrodniczych. Ponadto okazało się, że wiele własności obiektów studiowanych w analizie matematycznej (np. ciągłość funkcji) może być scharakteryzowanych bardziej uniwersalnie przy użyciu jedynie własności zbiorów otwartych, bez potrzeby odwoływania się do podstawowego pojęcia odległości pomiędzy punktami. W tym miejscu pojawia się topologia, której domeną jest badanie takich zbiorów. Poniżej wymieniam główne pojęcia wykorzystane w rachunku prawdopodobieństwa i należące do wymienionych wyżej bardziej ogólnych gałęzi:

  • Teoria mnogości
    • Zbiór
    • Relacja
    • Funkcja
  • Teoria miary i całki
    • Zbiór mierzalny
    • Miara zbioru
    • Funkcja mierzalna
    • Całka Lebesgue'a
  • Topologia
    • Zbiór otwarty
    • Zbiór borelowski
  • Probabilistyka
    • Prawdopodobieństwo
    • Zmienna losowa

Probabilistyka - zaleźność

Zmienna losowa - zależność pojęć

Teoria mnogości, topologia oraz teoria miary i całki to mistrzowsko opracowane dziedziny, które stanowiąc fundament probabilistyki, sprawiają, że ta ostatnia jest jedną z najpiękniejszych dyscyplin w matematyce - uwaga - jest to prywatne zdanie autora! 🙂

Pozdrowienia,

Mariusz Gromada

Georg Cantor i trójkowy zbiór Cantora - czyli geometria fraktalna (część 3)

Georg Cantor - źródło Wikipedia.org

Georg Ferdinand Ludwig Philipp Cantor (1845 - 1918) - niemiecki matematyk, który zainicjował (oraz znacząco rozwinął) teorię mnogości. Można powiedzieć, że "Cantor dla teorii mnogości jest tym, kim Mandelbrot dla geometrii fraktalnej". Cantora osobiście zaliczam do grona gigantów matematyki, których koncepcje i wyniki prac znacząco wyprzedzały daną epokę. Cantor jako pierwszy zadał pytanie o rozmiar nieskończoności. Wprawdzie w 17 wieku Newton i Leibniz stosowali pojęcie wielkości nieskończenie małej o niezerowym rozmiarze, co zapoczątkowało rachunek różniczkowy i całkowy - w 2015 roku napisałem na ten temat kilka słów. Ich starania nie były precyzyjne i w zasadzie jedynie "mgliście" wykorzystywały przejście w krok nieskończony, pomijając szereg problemów z tym związanych.

Cantor zajął się prawdziwie aktualną nieskończonością, wprowadzając definicję równoliczności zbiorów (również tych nieskończonych), co pozwoliło uogólnić pojęcie liczności zbioru. Dziś moc zbioru, określana mianem liczby kardynalnej i oznaczana |A|, odnosi się do wskazania zbioru równolicznego (na bazie istnienia bijekcji - czyli jednoznacznego parowania elementów dwóch zbiorów - co działa również w przypadku nieskończonym), którego moc jest znana. Idąc dalej - Cantor w liczbach kardynalnych wprowadził porządek. Powiemy, że |A|\leq |B| jeśli A jest równoliczne z podzbiorem B.

Na mocy twierdzenie Cantora-Bernsteina otrzymujemy, że

jeśli |A|\leq |B| oraz |B|\leq |A| to |A|=|B|

Wynik genialny, gdyż pozwala porządkować również zbiory nieskończone! Cantor uczynił ten krok, wskazał nieskończoność najmniejszą - tj. nieskończoność zbioru liczb naturalnych. Zbiory równoliczne ze zbiorem liczb naturalnych nazywamy dziś nieskończonymi zbiorami przeliczalnymi o mocy \aleph_0 (czyt. aleph zero).

W 1890 roku Cantor udowodnił przełomowe twierdzenie mówiące, że każdy zbiór ma mniejszą moc niż zbiór jego podzbiorów (zbiór potęgowy).

|A|< |2^A|

Kolejny genialny wynik, dający "generator" coraz to "większych" nieskończoności. Tych większych nieskończoności nie trzeba było szukać bardzo daleko. Analizując zbiór liczb rzeczywistych Cantor stwierdził, że jego nieskończoność znacznie przewyższa nieskończoność liczb naturalnych. Nieskończoność zbioru liczb rzeczywistych nazywamy dziś continuum i oznaczamy \mathfrak{c}.

\mathfrak{c}=2^{\aleph_0}

Czy istnieje nieskończoność większa od nieskończoności liczb naturalnych oraz mniejsza od nieskończoności liczb rzeczywistych? To pytanie również postawił Cantor, niestety na swoje nieszczęście... Pytanie, nazywane dziś Hipotezą Continuum, doprowadziło Cantora do choroby psychicznej. Cantor do końca życia przekonany był - na zmianę - o prawdziwości / nieprawdziwości hipotezy, co rusz przesyłając dowody potwierdzające / zaprzeczające. Dopiero w 1963 roku Paul Cohen wykazał, że Hipoteza Coninuum jest niezależna od aksjomatów teorii mnogości - czyli, że na bazie tych aksjomatów, nie można jej ani wykazać ani zaprzeczyć...

Zdecydowałem się na ten nieco długi, nie do końca związany z geometrią fraktalną, wstęp, ze względu na wpływ, jaki wywarły na moją osobę idee Georga Cantora. W 2007 roku napisałem artykuł "Od paradoksów do Hipotezy Continuum czyli - Tajemnice Nieskończoności" - zapraszam do lektury wszystkich pragnących zgłębić pojęcie nieskończoności w matematyce.

Polecam również "A Hierarchy of Infinities" - odcinek z serii "PBS Infinite Series".

Zbiór Cantora

Zbiór Cantora jest podzbiorem jednostkowego odcinka powstającym poprzez:

  • podział odcinka na 3 równe części;
  • usunięcie części środkowej;
  • powtórzenie procedury usuwania dla nowo powstałych odcinków.

Finalny zbiór Cantora jest zbiorem granicznym przy nieskończenie wielu iteracjach wykonanych zgodnie z powyższymi punktami.

Zbiór Cantora

Zbiór Cantora został przez opisany w roku 1883.

Niezwykłe właściwości zbioru Cantora

  • Długość zbioru Cantora jest równa 0 - w języku bardziej formalnym powiemy, że jest to zbiór miary 0 (w sensie miary Lebesgue'a).

Zbiór Cantora powstaje poprzez usuwanie pewnych części - policzmy długość odcinków usuniętych.

1\cdot\frac{1}{3}+2\cdot\frac{1}{9}+4\cdot\frac{1}{27}+\ldots+2^{n-1}\cdot\frac{1}{3^n}+\ldots=

=\displaystyle\sum_{n=1}^{\infty}\frac{2^{n-1}}{3^n}=\displaystyle\sum_{n=1}^{\infty}\frac{2^{n-1}}{3\cdot 3^{n-1}}=

=\displaystyle\sum_{n=1}^{\infty}\frac{1}{3}\bigg(\frac{2}{3}\bigg)^{n-1}=\frac{1}{3}\cdot\frac{1}{1-\frac{2}{3}}=1

Długość odcinków usuniętych jest równa jedności, zatem to co pozostało musi mieć długość równą 0 🙂

  • Zbiór Cantora jest równoliczny ze zbiorem liczb rzeczywistych \mathbb{R} - czyli ma moc continuum \mathfrak{c}.

Jest to dość zaskakująca własność dla zbioru, który nie ma długości (co pokazaliśmy wyżej). Zbiór Cantora ma formę "rozdmuchanego pyłu", mimo to punktów jest znacznie więcej niż liczb naturalnych. Szczegóły dowodu relacji równoliczności znajdziecie tutaj.

  • Zbiór Cantora posiada własność samo-podobieństwa - czyli, że w jego skład wchodzą "jego mniejsze kopie".

Zbiór Cantora i samo-podobieństwo

Własność samo-podobieństwa wynika wprost z definicji zbioru. Powyżej na obrazku zaznaczyłem część zbioru podobną do jego całości.

Zbiór Cantora jako fraktal

Zbiór Cantora posiada nietrywialną strukturę w każdej skali i jest samo-podobny - jest to zatem fraktal, najprostszy z możliwych 🙂

Iloczyn kartezjański zbiorów Cantora

Pył Cantora 2D - źródło Wikipedia

Pył Cantora 2D - źródło Wikipedia

Pył Cantora 3D - źródło Wikipedia

Pył Cantora 3D - źródło Wikipedia

Georg Cantor - ciekawostki

  • Był uczniem Karla Weierstrass'a oraz Leopolda Kronecker'a.
  • Przyjaźnił się z Richardem Dedekind'em - pamiętacie przedziały Dedekinda i liczby rzeczywiste? 🙂
  • Był osobą bardzo wierzącą. Odkrywając tajemnice nieskończoności odnosił wrażenie, że to sam Bóg mu je przekazuje.
  • Z powodu niemożności rozwiązania Hipotezy Continuum popadł w ciężką depresję, był wielokrotnie hospitalizowany, nie odzyskał w pełni zdrowia.
  • W ostatnich latach życia zajmował się mistycyzmem rozwijając koncepcję Absolutnej Nieskończoności, którą utożsamiał z Bogiem.

Pozdrowienia,

Mariusz Gromada

Zero Silnia - czyli dlaczego 0!=1?

Artykuł "Mnożenie liczb ujemnych - czyli dlaczego minus razy minus daje plus?" cieszy się ogromnym zainteresowaniem (np. w piątek 21.10.2016 został pobity rekord, mianowicie tylko w tym jednym dniu 350 unikalnych użytkowników zapoznało się z treścią wpisu). Będąc świadomym, że dla wielu z Was ważne jest zrozumienie motywacji stojącej za podstawowymi definicjami, postanowiłem rozpocząć nowy cykl "Dlaczego?". Nowa seria skupi się na powszechnie znanych zagadnieniach, których wyjaśnienie nie jest już takie oczywiste. 🙂 Dziś na tapetę idzie zero silnia! Przedstawię kilka argumentacji - w tym coś dla mniej i coś dla bardziej zaawansowanych! Będzie hardcorowo 🙂

Zero silnia równa się jeden / 0!=1

Silnia - definicja

W celu przypomnienia

n!=n\times (n-1)\times (n-2)\times \ldots \times 2\times 1

Przykłady

4!=4\cdot 3\cdot 2\cdot 1=24

3!=3\cdot 2\cdot 1=6

2!=2\cdot 1=2

1!=1

0!=??? - no właśnie 🙂 - do tego wrócę za chwilkę!

Silnia jako liczba permutacji

W uproszczeniu permutacja zbioru (mówimy o zbiorach skończonych) to funkcja wyznaczająca kolejność jego elementów. Np. {1,2,3,4}, {2,4,1,3}, {4,3,2,1} ... są różnymi permutacjami zbioru {1,2,3,4}.

W ogólnym przypadku - jeśli mamy do czynienia ze zbiorem n-elementowym otrzymujemy:

  • n sposobów wyboru elementu 1 (bo mamy do dyspozycji cały zbiór)
  • n-1 sposobów wyboru elementu 2 (bo pierwszy jest już wybrany, pozostało n-1)
  • n-2 sposobów wyboru elementu 3 (bo 2 pierwsze są już wybrane, pozostało n-2)
  • ...
  • n-(k-1) sposobów wyboru elementu k (bo k-1 pierwszych jest już wybranych, pozostało n-(k-1) )
  • ...
  • 2 sposoby wyboru elementu n-1 (bo n-2 elementy wybrano, pozostały wolne 2)
  • 1 sposób wyboru elementu n (bo n-1 elementów wybrano, pozostał wolny tylko 1)

i finalnie liczba różnych uporządkowań zbioru n-elementowego wynosi:

{\small n\times (n-1)\times (n-2)\times \ldots \times 2\times 1=n!}

Zatem interpretacja n! to liczba permutacji (czyli liczba różnych uporządkowań) zbioru n-elementowego.

No dobrze - ale jak to pomaga w ustaleniu 0! (zero silnia)? Przecież ciężko mówić o kolejności elementów zbioru pustego... Do tego wrócę również nieco później 🙂

Wariacja bez powtórzeń

Brrr - paskudna ta nazwa - ale ok - spróbujmy. Mówimy, że wybór dokładnie k-różnych elementów, zwracając uwagę na kolejność, ze zbioru n-elementowego, jest k-elementową wariacją bez powtórzeń zbioru n-elementowego. Przykłady różnych 3-elementowych wariacji bez powtórzeń zbioru {1,2,3,4,5} to: {1,2,3}, {3,2,1},{4,5,2},...

Liczbę V_n^k k-elementowych wariacji bez powtórzeń zbioru n-elementowego wyznaczymy na bazie:

  • n sposobów wyboru elementu 1
  • n-1 sposobów wyboru elementu 2
  • n-2 sposobów wyboru elementu 3
  • ...
  • n-(k-1) sposobów wyboru elementu k

i finalnie

{\large V_n^k}={\small n\times (n-1)\times (n-2)\times\ldots\times \bigg(n-(k-1)\bigg)}

ale

{\small n\times (n-1)\times (n-2)\times \ldots\times \big(n-(k-1)\big)}=...

={\small\frac{n\times (n-1)\times (n-2)\times \ldots\times \big(n-(k-1)\big)\times (n-k)\times \ldots \times 2\times 1}{(n-k)\times \ldots \times 2\times 1}}=...

...=\frac{n!}{(n-k)!}

Zatem

{\large V_n^k=}{\Large\frac{n!}{(n-k)!} }

0! = 1 (słownie: zero silnia równa się jeden)

Zauważmy, że n-elementowa wariacja bez powtórzeń zbioru n-elementowego jest w zasadzie jego permutacją, zatem liczba takich wariacji będzie równa liczbie permutacji, co zapisujemy:

{\large V_n^n=n!}

ale

{\large V_n^n=}{\Large \frac{n!}{(n-n)!}}={\Large \frac{n!}{0!}}

w konsekwencji

n!={\large \frac{n!}{0!}}

{0!\cdot n!=n!}

{\Large 0!=1}

Powyższe uzasadnia, że przyjęcie 0!=1 jest wygodne, gdyż zapewnia "spójność" podstawowych wzorów. Ale czy stoi za tym coś więcej?

!!! Dalsza część dla nieco bardziej zaawansowanych czytelników !!!

Funkcja jako odwzorowanie zbiorów

Funkcja "- schemat

Funkcja f:A\to B, gdzie dla każdego a \in A istnieje f(a)=b\in B wyznacza tak naprawdę relację pomiędzy elementami a i b. Przy takim podejściu możemy powiedzieć, że elementy a\in A oraz b\in B są w relacji f wtedy i tylko wtedy gdy f(a)=b.

Funkcja jako podzbiór iloczynu kartezjańskiego

Funkcję f:A\to B możemy potraktować jako podzbiór iloczynu kartezjańskiego zbiorów A i B, co symbolicznie zapiszemy f\subseteq A\times B

(a,b)\in f \subseteq A\times B \iff f(a)=b

Dobrym przykładem jest wykres funkcji rzeczywistej, który jest podzbiorem płaszczyzny.

Iniekcja - czyli funkcja różnowartościowa

Funkcja "1-1" różnowartościowa - Iniekcja

Iniekcja to inaczej funkcja różnowartościowa, tzn. funkcja f:A\to B jest różnowartościowa wtedy i tylko wtedy, gdy dla dowolnych elementów x,y\in A spełniony jest warunek

x\neq y \implies f(x) \neq f(y)

Surjekcja - czyli funkcja "na"

Funkcja "na" - Surjekcja

Surjekcja to taki przypadek funkcji f:A\to B, że każdy element zbioru B ma swój odpowiednik w zbiorze A. Formalnie zapiszemy to tak

{\large \displaystyle\forall_{b \in B} \quad\displaystyle\exists_{a\in A}\quad}f(a)=b

Bijekcja - czyli funkcja odwracalna (wzajemnie jednoznaczna)

Funkcja odwracalna "1-1" i "na" - Bijekcja

Bijekcja to funkcja f:A\to B, która jednocześnie spełnia warunek iniekcji oraz surjekcji, tzn. jest różnowartościowa oraz "na". Bijekcja jest funkcją odwracalną i wyznacza odwzorowanie wzajemnie jednoznaczne zbioru A na zbiór B (każdy element zbioru A jest jednoznacznie przypisany do elementu zbioru B, oraz każdy element zbioru B ma jednoznaczny odpowiednik w zbiorze A).

Bijekcja vs Permutacja

Permutacja jest funkcją zwracająca uporządkowanie zbioru, tzn. jeśli rozważamy n-elementowy zbiór {1, 2, ..., n} to permutacja będzie funkcją

p:\{1, 2, ..., n\}\to\{1, 2, ..., n\}

spełniającą warunek bijekcji. Pytając o liczbę permutacji możemy równoważnie pytać o liczbę różnych bijekcji z danego zbiory w samego siebie.

Funkcja pusta f:\emptyset\to B

Funkcją pustą nazywamy każdą funkcję, której dziedziną jest zbiór pusty.

f:\emptyset\to B

Wykres funkcji pustej jest zbiorem pustym, gdyż iloczyn kartezjański \emptyset\times B=\emptysetFunkcja pusta jest różnowartościowa, gdyż w dziedzinie (czyli w zbiorze pustym) nie istnieją takie dwa różne elementy, dla których wartość funkcji jest równa.

Funkcja pusta f:\emptyset\to \emptyset

Funkcja pusta f:\emptyset\to \emptyset jest bijekcją, gdyż nie istnieje element przeciwdziedziny (przeciwdziedzina jest zbiorem pustym) nie będący w relacji z elementem dziedziny. Zauważmy, że istnieje dokładnie jedna bijekcja f:\emptyset\to \emptyset, co wynika z faktu, że funkcja jest podzbiorem iloczynu kartezjańskiego dziedziny i przeciwdziedziny. W przypadku rozważanej funkcji pustej f:\emptyset\to \emptyset wspominany iloczyn kartezjański to zbiór pusty \emptyset\times\emptyset=\emptyset, który ma dokładnie jeden podzbiór - również zbiór pusty.

0! = 1 vs funkcja pusta f:\emptyset\to \emptyset

Pisałem wyżej, że liczbę permutacji zbioru n-elementowego można utożsamiać z liczbą bijekcji z tego zbioru w samego siebie. Tym samym permutacjom zbioru 0-elementowego odpowiadają bijekcje ze zbioru pustego w zbiór pusty - a taka funkcja jest dokładnie jedna! 🙂 Trochę abstrakcyjne, ale się zgadza 🙂

Funkcja Gamma (zwana również gammą Eulera) - czyli silnia dla liczb rzeczywistych i zespolonych

Funkcja Gamma - źródło Wikipedia

Funkcja Gamma jest funkcją, która rozszerza pojęcie silni na cały zbiór liczb rzeczywistych, a nawet zespolonych!

\Gamma(z)=\displaystyle\int_0^{+\infty}t^{z-1}e^{-t}dt

 Okazuje się (po scałkowaniu przez części), że

\Gamma(z+1)=z\cdot\Gamma(z)

oraz

\Gamma(1)=\displaystyle\int_0^{+\infty}e^{-t}dt=...

...=\displaystyle\int_{-\infty}^{0}e^{t}dt=...

...=[e^{t}]_{-\infty}^{0}=...

...=e^0-e^{-\infty}=1-0=1

 \Gamma(1)=1

Z powyższego wynika, że dla wszystkich całkowitych liczb n\geq 0 zachodzi

 {\Gamma(n+1)=n!}

 {\large0!=\Gamma(1)=1}

Kolejne bardzo ciekawe spostrzeżenie, że {0!} ma związek z funkcją eksponencjalną!!

Funkcja eksponencjalna

Zwięzek liczby e oraz silni jest nawet większy!

e=\displaystyle\sum_{n=0}^\infty\frac{1}{n!}=\frac{1}{0!}+\frac{1}{1!}+\frac{1}{2!}+\frac{1}{3!}+\ldots

Obiecałem, że będzie hardcorowo - i było 🙂

Pozdrowienia,

Mariusz Gromada

Pierwsze urodziny MathSpace.pl

MathSpace.pl - pierwsze urodziny!

Pierwszy wpis pojawił się 20 października 2015.

Przez rok opublikowałem 57 artykułów, znaczna część zamieszczona w 6 seriach:

Każdego dnia blog odwiedza około 40-50 osób - to niezły wynik zważywszy na raczej niełatwą tematykę 🙂

Google docenił MathSpace.pl, w efekcie dla szeregu zapytań blog pozycjonowany jest bardzo wysoko.

Dziękuję! 🙂

Pozdrowienia,

Mariusz Gromada

Karl Weierstrass i Funkcja Weierstrassa - czyli geometria fraktalna (część 2)

Karl Weierstrass - źródło Wikipedia: https://pl.wikipedia.org/wiki/Karl_Weierstrass

Karl Theodor Wilhelm Weierstrass (1815 - 1897) niemiecki matematyk uznawany za "ojca współczesnej analizy matematycznej". Choć minęło już 17 lat, to nadal doskonale pamiętam pierwszy semestr studiów matematycznych i ekspozycję na podstawowe "bardziej abstrakcyjne" twierdzenia, w tym Twierdzenie Bolzano-Weierstrassa. Twierdzenie mówi, że "każdy rzeczywisty ciąg ograniczony zawiera podciąg zbieżny", i choć brzmi prosto i ogólnie, jest niezwykle przydatnym narzędziem dowodzenia innych wyników metodą nie-wprost (zgodnie ze schematem "załóżmy, że ... wtedy istnieje ciąg ograniczony, że ..., wtedy istnieje podciąg zbieżny, że ..., i z własności ... wynika sprzeczność z założeniem"). Pięknie to (i nie tylko to) wykładał Pan Prof. Dr Hab. Tadeusz Rzeżuchowski - wielkie dzięki Panie Profesorze!

Funkcja Weierstrassa

Większość matematyków z okresu XVIII i XIX wieku uważało, że wszystkie rzeczywiste funkcje ciągłe są różniczkowalne w znaczącej części swej dziedziny (poza zbiorem izolowanych punktów). Dosyć naturalny pogląd okazał się jednak fałszywy, co wykazał Weierstrass w 1872 roku, a wcześniej podejrzewali Bernhard Riemann oraz Bernard Bolzano (prawdopodobnie w roku 1830 Bolzano podał kontrprzykład, którego nie opublikował). Funkcja Weierstrassa jest przykładem rzeczywistej funkcji ciągłej nieróżniczkowalnej w całej dziedzinie (tzn. nie istnieje ani jeden punkt dziedziny, w otoczeniu którego funkcja zachowuje się "normalnie" - np. monotonicznie). Własność nietypowa, a nawet patologiczna! Jednak nie dla fraktali, zatem i nie dla otaczającej nas natury (analogia do nieintuicyjnej mechaniki kwantowej zaskakująco precyzyjnie opisującej rzeczywistość).

{\Large f(x)=\displaystyle\sum_{n=0}^\infty a^n\cos(b^n\pi x)}

gdzie

{\large 0<a<1\qquad ab>1+\frac{3}{2}\pi}

Warto zauważyć, że funkcję Weierstrassa można zapisać w postaci analitycznej (w uproszczeniu - podając wzór).

Funkcja Weierstrassa i fraktale

Poniżej wykres funkcji Weierstrassa na przedziale [-2; 2].

Funkcja Weierstrassa - By Eeyore22 (Own work) [Public domain], via Wikimedia Commons

Benoit Mandelbrot mawiał, że "fraktal to zbiór matematyczny (lub inny obiekt ) charakteryzujący się w każdej skali wysoką nieregularnością oraz dużą fragmentacją." W części pierwszej cyklu o "geometrii fraktalnej"odnosząc się do słów Mandelbrota, pisałem, że cechą fraktalną jest nietrywialna struktura obiektu w każdej skali - tzn. powiększanie ujawnia kolejne równie skomplikowane formy. Wspomniałem również o samo-podobieństwie - tzn. sytuacji, gdy w skład obiektu wchodzą jego "mniejsze" kopie. Wykres funkcji Weierstrassa zdaje się spełniać te kryteria - był to pierwszy odkryty fraktal!

Karl Weierstrass - ciekawostki

Weierstrass wykładał w Wałczu oraz w Braniewie. Wikipedia wymienia, że jego uczniami byli: Georg Cantor, Otto Holder, Georg Frobenius, Felix Klein, Hermann Minkowski.

 

Pozdrowienia,

Mariusz Gromada