Odczarowujemy modele predykcyjne

Prelekcja wygłoszona w dniu 25.04.2017 podczas Konferencji Big Data – Bigger opportunities – zapraszam.

Omówione zagadnienia:

  • Analityka Predykcyjna
  • Model Predykcyjny
  • Confusion Matrix / Macierz błędu
  • Strategie doboru punktu odcięcia
  • Ocena jakości klasyfikacji
  • Krzywa zysku
  • Krzywa Lift
  • Krzywa ROC i wskaźnik Giniego
  • Krzywa Zysku vs ROC – równoważność?
  • Modele teoretycznie idealne

Odczarowujemy modele predykcyjne

Pozdrowienia,

Mariusz Gromada

Skuteczna operacjonalizacja środowiska analitycznego

Prelekcja wygłoszona w dniu 15.10.2015 podczas IV Konferencji Customer Intelligence – zapraszam.

Omówione zagadnienia:

  • Komponenty środowiska analitycznego
  • Cykl analityczny / Integracja
  • Architektura funkcjonalna środowiska
    – Obszar budowy / odkrywania wiedzy
    – Obszar wdrażania przygotowanych modeli predykcyjnych
    – Obszar repozytorium scoringowego
    – Obszar definicji oraz uruchomienia kampanii
    – Obszar monitoringu modeli predykcyjnych
    – Obszar raportowania kampanii
  • Pełny (360st) obraz klienta
  • Pomiar wartości – wpływ inkrementalny
  • Analityka – kilka ważnych rad

Skuteczna operacjonalizacja środowiska analitycznego

Pozdrowienia,

Mariusz Gromada

MaCDRG-yver – czyli generacja liczb pseudolosowych na bazie zadanej funkcji gęstości prawdopodobieństwa

Inverse Transform Sampling to typowy sposób generowania liczb pseudolosowych z zadanego rozkładu, który opiera się na funkcji odwrotnej $F^{-1}$ do dystrybuanty $F$ tego rozkładu. Procedura jest banalna, wystarczy wylosować $Y\sim U(0,1)$ i zwrócić $F^{-1}(Y)$. Niestety nie zawsze łatwe jest wyznaczenie jawnej postaci dystrybuanty, tym bardziej dotyczy to funkcji do niej odwrotnej. Dla przykładu – powszechny rozkład normalny charakteryzuje się funkcją gęstości w postaci „elementarnej”, natomiast jego dystrybuanta (i funkcja do niej odwrotna) wymagają zastosowania funkcji specjalnych – w tym przypadku funkcji błędu Gaussa.

Kiedyś kolega (pozdrowienia Marcin!) pokazał mi nieskomplikowany sposób generacji liczb losowych z rozkładu opisanego histogramem. Zwyczajnie „kładziemy” (skalując) słupki histogramu na odcinek $(0,1)$, losujemy $X\sim U(0,1)$, weryfikujemy „do którego słupka wpadło X”, zwracamy „właśnie ten słupek”. Genialne w swojej prostocie, i działa. Histogram to dyskretna reprezentacja rozkładu, dlatego postanowiłem metodę uogólnić na klasę rozkładów ciągłych opisanych zadaną funkcją gęstości. Otrzymaną metodę nazwałem „MaCDRG-yver” 🙂

MaCDRG-yver - Monte Carlo Density based Random Generator

Czytaj dalej

Liczba e ukryta w sumie rozkładów jednostajnych

Rozkład jednostajny na odcinku $$(0,1)$$, chyba najprostszy z możliwych rozkładów ciągłych, z pozoru niezbyt interesujący, a jednak 🙂 Dziś ciekawostka wiążąca rozkład sumy rozkładów jednostajnych z liczbą Eulera e.

Uniform Sum Distribution

Rozkład jednostajny ciągły na odcinku (a,b)

Rozkład jednostajny ciągły na odcinku $$(a,b)$$ jest opisany poniższą funkcją gęstości.

$$f(x)=\begin{cases}\frac{1}{b-a}&&\text{dla }a\leq x\leq b\\0&&\text{w p.p.}\end{cases}$$

Pisząc $$X\sim U(a,b)$$ oznaczamy, że zmienna losowa $$X$$ ma rozkład jednostajny ciągły na odcinku $$(a,b)$$. Jest to rozkład ciągły, zatem przyjęcie wartości $$0$$ lub $$\frac{1}{b-a}$$ w punktach $$x=a$$ i $$x=b$$ jest umowne i nie ma zwykle wpływu na własności i rozważania.

Czytaj dalej

Matematyka w obrazkach #20 – Optimus Prime

W nawiązaniu do liczb pierwszych, którym poświęcony był wczorajszy wpis „Liczba π ukryta w liczbach pierwszych”, prezentuję postać z uniwersum Transfomers. Szanowni Czytelnicy – w cyklu „Matematyka w obrazkach”„Jego Królewska Mość”Optimus Prime – przywódca Autobotów 🙂

Optimus Prime Numbers

Pozdrowienia 🙂

Mariusz Gromada

Liczba π (Pi) ukryta w liczbach pierwszych

Liczba $\pi$ ukryta w liczbach pierwszych? Jak to możliwe? Przecież liczby pierwsze to „chaos”, a $\pi$ ma ścisły związek z najbardziej regularnym obiektem geometrycznym – tzn. z okręgiem / kołem.

Prime Pi

Czym jest $\pi$?

  • $\pi$ to stosunek obwodu koła do jego średnicy.
  • $\pi$ to pole powierzchni koła o promieniu $1$.
  • $\pi$ to połowa obwodu koła o promieniu $1$.
  • $\pi$ to $\frac{1}{4}$ pola powierzchni sfery o promieniu $1$.
  • $\pi$ to $\frac{3}{4}$ objętości kuli o promieniu $1$.
  • $k\pi$ dla całkowitych $k$ to miejsca zerowe funkcji $\sin x$.
  • … i wiele innych …

Czym są liczby pierwsze?

  • Liczba pierwsza to liczba naturalna $n\in\mathbb{N}$ większa od $1$, której jednymi dzielnikami są $1$ oraz $n$.
  • Liczby pierwsze to „atomy” w teorii liczb, tzn. każdą liczbę naturalną można rozłożyć na iloczyn liczb pierwszych.
  • Rozmieszczenie liczb pierwszych wśród liczb naturalnych spełnia pewne zależności statystyczne, jednak nie jest znany żaden precyzyjny wzór dla określenia $n-tej$ liczby pierwszej. Ciekawskich odsyłam do artykułu „Prime-counting function”.

Czytaj dalej

Genialny wzór Taylora – czyli o informacji zakodowanej w pochodnych

„Co to jest różniczka? – zapytano  matematyka.
Różniczka to wyniczek odejmowanka – odpowiedział”
🙂

Wzór Taylora to jeden z elementów, które stanowią esencję rachunku różniczkowego i całkowego. Oto, w magiczny sposób, na bazie sekwencji informacji o funkcji, dotyczących tylko jednego jej wybranego punktu, możliwe jest bardzo precyzyjne odtworzenie zmienności funkcji w pobliżu ustalonego punktu. Wzór Taylora, nazywamy często rozwinięciem Taylora funkcji $f(x)$ w otoczeniu punktu $x_0$, faktycznie „rozwija” funkcję do postaci sumy funkcji elementarnych $a_n(x-x_0)^n$, stanowiących atomy wielomianów. W efekcie otrzymujemy nie tylko efektywną aproksymację wartości funkcji, ale również nową „łatwiejszą” jej formę.

Wielomian Taylora

Twierdzenie Taylora: Dla funkcji $f:\mathbb{R}\to\mathbb{R}$ $n$-razy różniczkowalnej $(n\geq 1)$ w punkcie $x_0\in\mathbb{R}$, istnieje funkcja $h_n:\mathbb{R}\to\mathbb{R}$, że

$$f(x)=\underbrace{\displaystyle\sum_{k=0}^n\frac{f^{(k)}(x_0)}{k!}(x-x_0)^k}_{wielomian-aproksymacja~f(x)}+\underbrace{h_n(x)(x-x_0)^n}_{reszta}$$

$$f(x)=f(x_0)+\frac{f^{(1)}(x_0)}{1!}(x-x_0)^1+\frac{f^{(2)}(x_0)}{2!}(x-x_0)^2+\ldots$$

$$\ldots+\frac{f^{(n)}(x_0)}{n!}(x-x_0)^n+h_n(x)(x-x_0)^n$$

oraz

$$\displaystyle\lim_{x\to x_0}h_n(x)=0$$

Przez $f^{(k)}(x)$ oznaczamy pochodną rzędu $k$ funkcji $f(x)$.

Twierdzenie Taylora nosi nazwę od angielskiego matematyka Brooka Taylora, który opracował je w 1712 roku. Samą własność wcześniej odkrył James Gregory – dokonał tego w 1671 roku.

Czytaj dalej