Matematyka, Probabilistyka, Statystyka matematyczna

Standaryzacja gęstości oraz dystrybuanty (+ odwrotnej) rozkładu prawdopodobieństwa

Standaryzacja zmiennej losowej $X$ to proces jej „normalizacji”, którego wynikiem jest taka zmienna losowa $Z$, że $$\text{E}Z=0$$ $$\text{Var}(Z)=1$$ Standaryzację łatwo wyobrazić sobie jako działanie, które obywa się w dwóch krokach: adekwatne „przesunięcie” zmiennej – tu chodzi o uzyskanie zerowej miary położenia, którą jest wartość oczekiwana (wartość średnia) zmiennej odpowiednia „zmiana skali wartości” zmiennej – w… Read More Standaryzacja gęstości oraz dystrybuanty (+ odwrotnej) rozkładu prawdopodobieństwa

Matematyka, Probabilistyka

MaCDRG-yver – czyli generacja liczb pseudolosowych na bazie zadanej funkcji gęstości prawdopodobieństwa

Inverse Transform Sampling to typowy sposób generowania liczb pseudolosowych z zadanego rozkładu, który opiera się na funkcji odwrotnej $F^{-1}$ do dystrybuanty $F$ tego rozkładu. Procedura jest banalna, wystarczy wylosować $Y\sim U(0,1)$ i zwrócić $F^{-1}(Y)$. Niestety nie zawsze łatwe jest wyznaczenie jawnej postaci dystrybuanty, tym bardziej dotyczy to funkcji do niej odwrotnej. Dla przykładu – powszechny… Read More MaCDRG-yver – czyli generacja liczb pseudolosowych na bazie zadanej funkcji gęstości prawdopodobieństwa

Ciekawostki, Matematyka, Probabilistyka

Liczba e ukryta w sumie rozkładów jednostajnych

Rozkład jednostajny na odcinku $(0,1)$, chyba najprostszy z możliwych rozkładów ciągłych, z pozoru niezbyt interesujący, a jednak 🙂 Dziś ciekawostka wiążąca rozkład sumy rozkładów jednostajnych z liczbą Eulera e. Rozkład jednostajny ciągły na odcinku (a,b) Rozkład jednostajny ciągły na odcinku $(a,b)$ jest opisany poniższą funkcją gęstości. $$f(x)=\begin{cases}\frac{1}{b-a}&&\text{dla }a\leq x\leq b\\0&&\text{w p.p.}\end{cases}$$ Pisząc $X\sim U(a,b)$ oznaczamy,… Read More Liczba e ukryta w sumie rozkładów jednostajnych

Matematyka, Probabilistyka

Kilka słów o modelu probabilistycznym – czyli sekrety zmiennych losowych (część 1)

Motywacja Niemal w każdej literaturze z zakresu statystycznej analizy danych, czy też ogólnie analizy danych, spotkać można mniej lub bardziej zaawansowane wykorzystanie terminu zmiennej losowej. Jak sama nazwa wskazuje zmienna losowa stosowana jest typowo tam gdzie zachodzi potrzeba systematyzacji pojęcia cechy losowo obserwowanego obiektu, jego atrybutów, czy też posiadanych własności. Na tym proste intuicje jednak… Read More Kilka słów o modelu probabilistycznym – czyli sekrety zmiennych losowych (część 1)

Matematyka, Probabilistyka

Matematyka w obrazkach #7 – Błądzenie losowe :-)

Błądzenie losowe Błądzenie losowe jest dosyć podstawowym przykładem procesu stochastycznego. Poniżej wykres 20 błądzeń losowych, każda ścieżka o długości 200. Wszystkie ścieżki rozpoczynają w tym samym punkcie, następnie w każdym kolejnym kroku podejmowana jest losowa decyzja odnośnie kierunku „dół / góra”. Każdy kierunek jest równo prawdopodobny, wybór kierunku w danym kroku nie zależy od decyzji dokonanych poprzednio.… Read More Matematyka w obrazkach #7 – Błądzenie losowe 🙂

Customer Intelligence, Data Mining, Matematyka, Probabilistyka, Statystyka matematyczna

Model predykcyjny i siła separacji klas – czyli ocena jakości klasyfikacji (część 4)

Ze statystyk odwiedzin wynika, że cykl „Ocena jakości klasyfikacji” cieszy się Waszym zainteresowaniem – zatem wracam do tej tematyki. Dziś przedstawię wstęp do analizy jakości modeli predykcyjnych, skupiając się na jednym tylko aspekcie jakości – tzn. na sile modelu w kontekście separacji klas. Zapraszam 🙂 Jakość modelu predykcyjnego Matematyka dostarcza wielu różnych miar służących ocenie siły… Read More Model predykcyjny i siła separacji klas – czyli ocena jakości klasyfikacji (część 4)

Customer Intelligence, Data Mining, Matematyka, Probabilistyka, Statystyka matematyczna

Model predykcyjny i punkt odcięcia (cut-off point) – czyli ocena jakości klasyfikacji (część 3)

W poprzednich częściach omówiliśmy sposób tworzenia macierzy błędu oraz podstawowe miary oceny jakości klasyfikacji: czułość (TPR), specyficzność (TNR), precyzję przewidywania pozytywnego (PPV), precyzję przewidywania negatywnego (NPV). Opisane miary określone są dla klasyfikatora binarnego (klasyfikacja pozytywna bądź negatywna), jednak w praktyce najczęściej stosuje się modele predykcyjne z ciągłą zmienną odpowiedzi (np. estymator prawdopodobieństwa skorzystania z produktu,… Read More Model predykcyjny i punkt odcięcia (cut-off point) – czyli ocena jakości klasyfikacji (część 3)

Książki, Matematyka, Probabilistyka, Teoria miary i całki

Miara zbioru jako przykład potęgi matematycznych uogólnień

Osiągnięcia matematyczne są tym większe im bardziej uogólnione rezultaty są przedstawiane. Teorie matematyczne zawsze dążą do systematyzowania i generalizowania pojęć, umożliwiając ich aplikację w znacznie szerszej klasie problemów. Przykładowo matematyk nie zgłosi trudności z wyobrażeniem sobie 4 wymiarów, zwyczajnie analizuje n-wymiarów i podstawia n = 4 🙂 . Teoria miary i całki Jednym z ciekawszych przejawów tego… Read More Miara zbioru jako przykład potęgi matematycznych uogólnień

Kombinatoryka, Matematyka, Probabilistyka, Teoria liczb

Liczba Stirlinga II rodzaju i losowanie ze zwracaniem

Jakiś czas temu rozważałem problem losowania ze zwracaniem dokładnie $n$-elementów z $n$-elementowego zbioru (dla uściślenia w zbiorze wyjściowym znajduje się dokładnie $n$ różnych elementów). W wyniku takiej operacji, w wylosowanej próbie, mogą pojawić się duplikaty – załóżmy zatem, że otrzymaliśmy $k$ unikalnych rezultatów (oczywiście $1\leq k\leq n$). Naturalnie pojawia się pytanie kombinatoryczne. Ile istnieje sposobów… Read More Liczba Stirlinga II rodzaju i losowanie ze zwracaniem

Data Mining, Matematyka, Probabilistyka, Statystyka matematyczna

Confusion matrix, Macierz błędu, tablica / macierz pomyłek – czyli ocena jakości klasyfikacji (część 1)

Macierz pomyłek i klasyfikacja binarna Macierz błędu jest podstawowym narzędziem stosowanym do oceny jakości klasyfikacji. Poniżej rozważymy przypadek klasyfikacji binarnej (dwie klasy).Kodowanie klas: 1 – Positive (np.: fakt skorzystania z produktu przez Klienta, pacjent z potwierdzoną chorobą, pacjentka z potwierdzoną ciążą) 0 – Negative (np.: fakt nieskorzystania z produktu przez Klienta, pacjent z wykluczoną chorobą, pacjentka z… Read More Confusion matrix, Macierz błędu, tablica / macierz pomyłek – czyli ocena jakości klasyfikacji (część 1)

Data Mining, Matematyka, Matematyka dyskretna, Probabilistyka, Statystyka matematyczna, Teoria grafów, Topologia

Analiza dyskryminacyjna, Drzewa klasyfikacyjne, Klasyfikatory SLIQ i SPRINT

Temat pracy dotyczy problemu dyskryminacji oraz budowy drzew klasyfikacyjnych w kontekście ich przydatności do rozwiązywania zadań o dużym wymiarze prób losowych i/lub dużym wymiarze wektora obserwacji, w których podstawowego znaczenia nabiera złożoność obliczeniowa drzewa. Radzenie sobie z dużymi zbiorami danych wymaga konstrukcji specjalnych technik sortowania danych w trakcie budowy drzewa, kodowania, organizacji wzrostu i przycinania… Read More Analiza dyskryminacyjna, Drzewa klasyfikacyjne, Klasyfikatory SLIQ i SPRINT

Matematyka, Probabilistyka

„Prawie na pewno” vs „Na pewno” – czyli jedna z subtelności probabilistyki

Interpretacja słów niemożliwe i pewne nie sprawia na ogół żadnego kłopotu. Mówiąc, że coś jest niemożliwe, bądź pewne, mocno i zdecydowanym tonem akcentujemy fakt rozumiany jako coś niepodważalnego. W życiu codziennym rzadko dysponujemy takimi faktami, częściej posiadamy dobrze umotywowane przypuszczenia, że coś jest prawie niemożliwe lub prawie pewne. Rozumienie wyrażeń prawie niemożliwe i prawie pewne… Read More „Prawie na pewno” vs „Na pewno” – czyli jedna z subtelności probabilistyki