Odczarowujemy modele predykcyjne

Prelekcja wygłoszona w dniu 25.04.2017 podczas Konferencji Big Data – Bigger opportunities – zapraszam.

Omówione zagadnienia:

  • Analityka Predykcyjna
  • Model Predykcyjny
  • Confusion Matrix / Macierz błędu
  • Strategie doboru punktu odcięcia
  • Ocena jakości klasyfikacji
  • Krzywa zysku
  • Krzywa Lift
  • Krzywa ROC i wskaźnik Giniego
  • Krzywa Zysku vs ROC – równoważność?
  • Modele teoretycznie idealne

Odczarowujemy modele predykcyjne

Pozdrowienia,

Mariusz Gromada

Skuteczna operacjonalizacja środowiska analitycznego

Prelekcja wygłoszona w dniu 15.10.2015 podczas IV Konferencji Customer Intelligence – zapraszam.

Omówione zagadnienia:

  • Komponenty środowiska analitycznego
  • Cykl analityczny / Integracja
  • Architektura funkcjonalna środowiska
    – Obszar budowy / odkrywania wiedzy
    – Obszar wdrażania przygotowanych modeli predykcyjnych
    – Obszar repozytorium scoringowego
    – Obszar definicji oraz uruchomienia kampanii
    – Obszar monitoringu modeli predykcyjnych
    – Obszar raportowania kampanii
  • Pełny (360st) obraz klienta
  • Pomiar wartości – wpływ inkrementalny
  • Analityka – kilka ważnych rad

Skuteczna operacjonalizacja środowiska analitycznego

Pozdrowienia,

Mariusz Gromada

MaCDRG-yver – czyli generacja liczb pseudolosowych na bazie zadanej funkcji gęstości prawdopodobieństwa

Inverse Transform Sampling to typowy sposób generowania liczb pseudolosowych z zadanego rozkładu, który opiera się na funkcji odwrotnej $$F^{-1}$$ do dystrybuanty $$F$$ tego rozkładu. Procedura jest banalna, wystarczy wylosować $$Y\sim U(0,1)$$ i zwrócić $$F^{-1}(Y)$$. Niestety nie zawsze łatwe jest wyznaczenie jawnej postaci dystrybuanty, tym bardziej dotyczy to funkcji do niej odwrotnej. Dla przykładu – powszechny rozkład normalny charakteryzuje się funkcją gęstości w postaci „elementarnej”, natomiast jego dystrybuanta (i funkcja do niej odwrotna) wymagają zastosowania funkcji specjalnych – w tym przypadku funkcji błędu Gaussa.

Kiedyś kolega (pozdrowienia Marcin!) pokazał mi nieskomplikowany sposób generacji liczb losowych z rozkładu opisanego histogramem. Zwyczajnie „kładziemy” (skalując) słupki histogramu na odcinek $$(0,1)$$, losujemy $$X\sim U(0,1)$$, weryfikujemy „do którego słupka wpadło X”, zwracamy „właśnie ten słupek”. Genialne w swojej prostocie, i działa. Histogram to dyskretna reprezentacja rozkładu, dlatego postanowiłem metodę uogólnić na klasę rozkładów ciągłych opisanych zadaną funkcją gęstości. Otrzymaną metodę nazwałem „MaCDRG-yver” 🙂

MaCDRG-yver - Monte Carlo Density based Random Generator

Czytaj dalej

Liczba e ukryta w sumie rozkładów jednostajnych

Rozkład jednostajny na odcinku $$(0,1)$$, chyba najprostszy z możliwych rozkładów ciągłych, z pozoru niezbyt interesujący, a jednak 🙂 Dziś ciekawostka wiążąca rozkład sumy rozkładów jednostajnych z liczbą Eulera e.

Uniform Sum Distribution

Rozkład jednostajny ciągły na odcinku (a,b)

Rozkład jednostajny ciągły na odcinku $$(a,b)$$ jest opisany poniższą funkcją gęstości.

$$f(x)=\begin{cases}\frac{1}{b-a}&&\text{dla }a\leq x\leq b\\0&&\text{w p.p.}\end{cases}$$

Pisząc $$X\sim U(a,b)$$ oznaczamy, że zmienna losowa $$X$$ ma rozkład jednostajny ciągły na odcinku $$(a,b)$$. Jest to rozkład ciągły, zatem przyjęcie wartości $$0$$ lub $$\frac{1}{b-a}$$ w punktach $$x=a$$ i $$x=b$$ jest umowne i nie ma zwykle wpływu na własności i rozważania.

Czytaj dalej

Matematyka w obrazkach #20 – Optimus Prime

W nawiązaniu do liczb pierwszych, którym poświęcony był wczorajszy wpis „Liczba π ukryta w liczbach pierwszych”, prezentuję postać z uniwersum Transfomers. Szanowni Czytelnicy – w cyklu „Matematyka w obrazkach”„Jego Królewska Mość”Optimus Prime – przywódca Autobotów 🙂

Optimus Prime Numbers

Pozdrowienia 🙂

Mariusz Gromada

Liczba π (Pi) ukryta w liczbach pierwszych

Liczba $$\pi$$ ukryta w liczbach pierwszych? Jak to możliwe? Przecież liczby pierwsze to „chaos”, a $$\pi$$ ma ścisły związek z najbardziej regularnym obiektem geometrycznym – tzn. z okręgiem / kołem.

Prime Pi

Czym jest $$\pi$$?

  • $$\pi$$ to stosunek obwodu koła do jego średnicy.
  • $$\pi$$ to pole powierzchni koła o promieniu $$1$$.
  • $$\pi$$ to połowa obwodu koła o promieniu $$1$$.
  • $$\pi$$ to $$\frac{1}{4}$$ pola powierzchni sfery o promieniu $$1$$.
  • $$\pi$$ to $$\frac{3}{4}$$ objętości kuli o promieniu $$1$$.
  • $$k\pi$$ dla całkowitych $$k$$ to miejsca zerowe funkcji $$\sin x$$.
  • … i wiele innych …

Czym są liczby pierwsze?

  • Liczba pierwsza to liczba naturalna $$n\in\mathbb{N}$$ większa od $$1$$, której jednymi dzielnikami są $$1$$ oraz $$n$$.
  • Liczby pierwsze to „atomy” w teorii liczb, tzn. każdą liczbę naturalną można rozłożyć na iloczyn liczb pierwszych.
  • Rozmieszczenie liczb pierwszych wśród liczb naturalnych spełnia pewne zależności statystyczne, jednak nie jest znany żaden precyzyjny wzór dla określenia $$n-tej$$ liczby pierwszej. Ciekawskich odsyłam do artykułu „Prime-counting function”.

Czytaj dalej

Genialny wzór Taylora – czyli o informacji zakodowanej w pochodnych

„Co to jest różniczka? – zapytano  matematyka.
Różniczka to wyniczek odejmowanka – odpowiedział”
🙂

Wzór Taylora to jeden z elementów, które stanowią esencję rachunku różniczkowego i całkowego. Oto, w magiczny sposób, na bazie sekwencji informacji o funkcji, dotyczących tylko jednego jej wybranego punktu, możliwe jest bardzo precyzyjne odtworzenie zmienności funkcji w pobliżu ustalonego punktu. Wzór Taylora, nazywamy często rozwinięciem Taylora funkcji $$f(x)$$ w otoczeniu punktu $$x_0$$, faktycznie „rozwija” funkcję do postaci sumy funkcji elementarnych $$a_n(x-x_0)^n$$, stanowiących atomy wielomianów. W efekcie otrzymujemy nie tylko efektywną aproksymację wartości funkcji, ale również nową „łatwiejszą” jej formę.

Wielomian Taylora

Twierdzenie Taylora: Dla funkcji $$f:\mathbb{R}\to\mathbb{R}$$ $$n$$-razy różniczkowalnej $$(n\geq 1)$$ w punkcie $$x_0\in\mathbb{R}$$, istnieje funkcja $$h_n:\mathbb{R}\to\mathbb{R}$$, że

$$f(x)=\underbrace{\displaystyle\sum_{k=0}^n\frac{f^{(k)}(x_0)}{k!}(x-x_0)^k}_{wielomian-aproksymacja~f(x)}+\underbrace{h_n(x)(x-x_0)^n}_{reszta}$$

$$f(x)=f(x_0)+\frac{f^{(1)}(x_0)}{1!}(x-x_0)^1+\frac{f^{(2)}(x_0)}{2!}(x-x_0)^2+\ldots$$

$$\ldots+\frac{f^{(n)}(x_0)}{n!}(x-x_0)^n+h_n(x)(x-x_0)^n$$

oraz

$$\displaystyle\lim_{x\to x_0}h_n(x)=0$$

Przez $$f^{(k)}(x)$$ oznaczamy pochodną rzędu $$k$$ funkcji $$f(x)$$.

Twierdzenie Taylora nosi nazwę od angielskiego matematyka Brooka Taylora, który opracował je w 1712 roku. Samą własność wcześniej odkrył James Gregory – dokonał tego w 1671 roku.

Czytaj dalej