"Sympatyczny" punkt przecięcia / Tips & Tricks na krzywych - czyli ocena jakości klasyfikacji (część 16)

Do napisania 16 części cyklu "Ocena jakości klasyfikacji" zainspirował mnie Kolega i dawny współpracownik! Michał - dzięki za "hint" 🙂 Dziś wskażę pewien sympatyczny punkt przecięcia, którego znajomość jest przydatna, a już z pewnością można "zaszpanować" 🙂 Wpis stanowi zdecydowane wzbogacenie serii "Tips & Tricks na krzywych".

Krzywe Captured Response (TPR) i prawdopodobieństwo skumulowane (PPV, Precision) przecinają się w punkcie a-priori 🙂

TPR vs Precision

Dowód: zaczynamy od oznaczeń:

  • N=N_1+N_0 - liczba obiektów w populacji: total, z klasy pozytywnej "1", z klasy negatywnej "0";
  • q - cut-off (jako kwantyl - a dokładnie jego rząd - względem malejącej oceny modelem);
  • [0,q] - klasyfikacja pozytywna;
  • (q,1] - klasyfikacja negatywna;
  • n_1(q) - true positive;
  • n_0(q) - false positive;
  • n(q)=n_1(q)+n_0(q)=q\cdot N

Wtedy

TPR(q)=CR_1(q)=\frac{n_1(q)}{N_1}=\frac{n_1(q)}{apriori\times N}

PPV(q)=P\big(~1~|~[0,q]~\big)=\frac{n_1(q)}{n(q)}=\frac{n_1(q)}{qN}

Porównując

PPV(q)=TPR(q)

\frac{n_1(q)}{qN}=\frac{n_1(q)}{apriori\times N}

Zakładając, że n_1(q)\neq 0

q=apriori

cbdo 🙂

Do czego "sympatyczny" punkt przecięcia może się przydać?

Znajomość punktu przecięcia może się przydać do weryfikacji poprawności analizowanych wykresów i ich spójności z założeniami. Przykładowo - jeśli analityk na jednym wykresie naniesie Captured Response wraz z modelem idealnym, następnie do wykresu doda p-ństwo skumulowane (czyli PPV), i jeśli te krzywe przetną się w innym punkcie niż "aprirori", to gdzieś mamy błąd! Być może prezentowane wykresy przedstawiają różne modele?

Pozdrowienia,

Mariusz Gromada

Matematyka w obrazkach #16 - Mathistopheles - Atraktor Lorenza :-)

Dziś, przeglądając Twittera, natknąłem się na profil @Mathistopheles - Thomas Oléron Evans. Zdjęcie profilowe jest genialne - wykonane na bazie Atraktora Lorenza - musiałem dodać do cyklu "Matematyka w obrazkach" 🙂 Równie ciekawe jest zdjęcie w tle 🙂

Atraktor Lorenza

Pozdrowienia,

Mariusz Gromada

Personalizowany kubek MathSpace.PL :-)

Kubek na bazie motywu "Matematyka w obrazkach #11 - Dobre argumenty to podstawa". Kubek wygląda świetnie 🙂

Personalizowany kubek MathSpace.PL

Personalizacja kubka

  • Imię / nick / ... w chmurce;
  • Dedykowany wzór / formuła w chmurce;

Jak otrzymać kubek?

Warunki, które musisz spełnić:

  • Polubienie profilu MathSpace.PL na Facebooku lub Twitterze lub subskrypcja newslettera;
  • Przesłanie wiadomości (Facebook, Twitter, mail) o chęci zamówienia kubka + opis personalizacji;
  • Zapoznanie się z procesem zamówienia kubka.

Jak wygląda proces zamówienia kubka?

  • Jestem autorem projektu + dokonuję wskazanej personalizacji;
  • Kubki zamawiam w Waszym imieniu poprzez fotokubek.net: kubek biały reklamowy 330 ml z nadrukiem;
  • Nie zarabiam na kubkach!!! Zamawiając poniesiesz opłatę zgodnie z cennikiem fotokubek.net + koszt wysyłki;
  • Otrzymujesz kubek, nie udostępniam projektu (graficznego) kubka;
  • Dodatkowe informacje w indywidualnej korespondencji.

Pozdrowienia,

Mariusz Gromada

Dwie klasy, ale jeden wskaźnik Giniego / Tips & Tricks na krzywych - czyli ocena jakości klasyfikacji (część 15)

Dziś zadałem sobie pytanie: jak mają się do siebie wskaźniki Giniego, gdyby je osobno zdefiniować dla klasy pozytywnej "tzn. klasy 1" oraz klasy negatywnej "tzn. klasy 0"? Odpowiedź uzyskałem, czego efektem jest 15 część cyklu "Ocena jakości klasyfikacji". Tytuł wpisu nawiązuje do faktu, że separację dwóch klas uzyskujemy jednym (i tym) samym modelem 🙂 co poniekąd sugeruje, że ... 🙂

... wskaźniki Giniego dla klasy pozytywnej i klasy negatywnej są sobie równe!

Wskaźnik Giniego dla klasy pozytywnej + Wskaźnik Giniego dla klasy negatywnej 0

Gini_1=\frac{G_1}{G_1+P_1}

Gini_0=\frac{G_0}{G_0+P_0}

Gini_1=Gini_0

Dowód:

Wykorzystując wzór na pole trójkąta zapisujemy:

Gini_1=\frac{G_1}{\quad\frac{1-apriori}{2}\quad}=\frac{2G_1}{1-apriori}

Gini_0=\frac{G_0}{\quad\frac{apriori}{2}\quad}=\frac{2G_0}{apriori}

Zauważamy, że pole G_0 można wyznaczyć na bazie różnicy pomiędzy polem trójkąta i polem powierzchni pod krzywą CR_0:

G_0=\frac{1}{2}-\displaystyle\int_0^1 CR_0(q)dq

Korzystając z zależności pomiędzy CR_1 oraz CR_0 wyprowadzonej w części 14 "Captured Response dla klasy negatywnej" przekształcamy

G_0=\frac{1}{2}-\displaystyle\int_0^1\bigg(\frac{q-apriori\times CR_1(q)}{1-apriori}\bigg)dq=

=\frac{1}{2}-\frac{1}{1-apriori}\displaystyle\int_0^1\bigg(q-apriori\times CR_1(q)\bigg)dq=

=\frac{1}{2}-\frac{1}{1-apriori}\Bigg(\displaystyle\int_0^1 qdq-apriori\displaystyle\int_0^1 CR_1(q)dq\Bigg)=

=\frac{1}{2}-\frac{1}{1-apriori}\Bigg[\frac{q^2}{2}\bigg|_0^1-apriori\bigg(G_1+\frac{1}{2}\bigg)\Bigg]=

=\frac{1}{2}-\frac{1}{1-apriori}\bigg(\frac{1}{2}-apriori\times G_1-\frac{apriori}{2}\bigg)

=\frac{1}{2}-\frac{1}{2(1-apriori)}+\frac{apriori\times G_1}{1-apriori}+\frac{apriori}{2(1-apriori)}=

=\frac{1-apriori}{2(1-apriori)}-\frac{1}{2(1-apriori)}+

+\frac{apriori\times 2G_1}{2(1-apriori)}+\frac{apriori}{2(1-apriori)}=

=\frac{1-apriori-1+apriori\times 2G_1+apriori}{2(1-apriori)}=

=\frac{apriori\times 2G_1}{2(1-apriori)}=

=\frac{apriori}{2}\times\frac{2G_1}{1-apriori}=

=\frac{apriori}{2}\times Gini_1

G_0=\frac{apriori}{2}\times Gini_1

Ale

Gini_0=\frac{2G_0}{apriori}=

=\frac{2}{apriori}\times G_0=\frac{2}{apriori}\times\frac{apriori}{2}\times Gini_1

Gini_0=Gini_1

cbdo 🙂

Pozdrowienia,

Mariusz Gromada

Wskaźnik KS na bazie Captured Response / Tips & Tricks na krzywych - czyli ocena jakości klasyfikacji (część 14)

Witaj w 14 części cyklu "Ocena jakości klasyfikacji". Dziś rozwinę wątek oszacowania separacji klas na bazie krzywej Captured Response - będzie to kolejny odcinek z serii "Tips & Tricks na krzywych".

Statystyka KS Kołmogorowa-Smirnowa jako miara różnicy rozkładów

Rozważmy dwie rzeczywiste zmienne losowe X_1 i X_2 oraz ich dystrybuanty odpowiednio F_{X_1} oraz F_{X_2}. Statystyką Kołmogorowa-Smirnowa dla zmiennych X_1 oraz X_2 nazywamy odległość D\big(X_1,X_2\big) zdefiniowaną następująco:

D\big(X_1,X_2\big)=\displaystyle\sup_{x\in\mathbb{R}}\bigg|F_{X_1}(x)-F_{X_2}(x)\bigg|

Statystyka KS Kołmogorowa-Smirnowa

Jeśli x jest badaną wartością, to odległość KS interpretujemy jako maksymalną różnicę pomiędzy rzędem kwantyla w rozkładzie pierwszym i rzędem kwantyla w rozkładzie drugimi, które to rzędy odpowiadają wspólnej wartości x.

Do tanga trzeba dwojga

Przy modelach predykcyjnych, dla problemu klasyfikacji binarnej, tak naprawdę dysponujemy trzema rozkładami:

  • rozkład populacji / próby względem oceny modelem;
  • rozkład klasy pozytywnej względem oceny tym samym modelem;
  • rozkład klasy negatywnej również względem oceny tym samym modelem.

W części #13 "Lift i Captured Response to gęstość i dystrybuanta tego samego rozkładu" pokazałem jak "wygląda" rozkład klasy pozytywnej. Dziś interesuje nas odległość KS rozkładu "jedynek" od rozkładu "zer", przechodzimy więc do zdefiniowana gęstości i dystrybuanty dla klasy negatywnej.

Lift nieskumulowany dla klasy negatywnej - tzn. "klasy 0"

Załóżmy, że dana jest funkcja Lift.Niesk_1(\Delta q) liftu nieskumulowanego dla klasy pozytywnej, gdzie \Delta q to przedział rzędu kwantyla (w całej populacji) względem malejącej oceny modelem.

Lift.Niesk_0(\Delta q)=\frac{P(0|\Delta q)}{P(0)}

Lift.Niesk_0(\Delta q)=\frac{1-P(1|\Delta q)}{1-P(1)}=

=\frac{1-P(1)\frac{P(1|\Delta q)}{P(1)}}{1-P(1)}=

=\frac{1-P(1)\cdot Lift.Niesk_1(\Delta q)}{1-P(1)}

Lift.Niesk_0(\Delta q)=\frac{1-apriori\times Lift.Niesk_1(\Delta q)}{1-apriori}

Przykład dla pewnej funkcji liftu nieskumulowanego i apriori = 30%.

Lift nieskumulowany - klasa "1" + klasa "0"

Warto zwrócić uwagę na punkt przecięcia tych krzywych - spotykają się w tym samym miejscu, gdzie dochodzi do zrównania z krzywą dla modelu losowego. Dosyć łatwo to uzasadnić: jeśli P(1|\Delta q^i)=apriori to P(0|\Delta q^i)=1-apriori.

Sprawdźmy jeszcze czy Lift.Niesk_0(\Delta q) spełnia warunek "unormowania".

\displaystyle\int_0^1 Lift.Niesk_0(q)dq=

=\displaystyle\int_0^1 \frac{1-apriori\times Lift.Niesk_1(q)}{1-apriori}dq=

=\frac{1}{1-apriori}\displaystyle\int_0^1 \bigg(1-apriori\times Lift.Niesk_1(q)\bigg)dq=

=\frac{1}{1-apriori}\bigg(\displaystyle\int_0^1 1dq-apriori\displaystyle\int_0^1Lift.Niesk_1(q)dq\bigg)=

=\frac{1}{1-apriori}(1-apriori)=1

\displaystyle\int_0^1 Lift.Niesk_0(q)dq=1

Captured Response dla klasy negatywnej - tzn. "klasy 0"

Załóżmy, że dana jest funkcja CR_1(q) Captured Response dla klasy pozytywnej, gdzie q to rząd kwantyla (w całej populacji) względem malejącej oceny modelem.

Oznaczenia:

  • q - punkt, dla którego wyznaczamy wartość krzywej;
  • N=N_1+N_0 - liczba obserwacji: łączna, z "klasy 1", z "klasy 0";
  • n=n_1+n_2=q\cdot N - liczba obserwacji "na lewo" od q: łączna, z "klasy 1", z "klasy 0";

Wtedy:

CR_1(q)=\frac{n_1}{N_1}

CR_0(q)=\frac{n_0}{N_0}

Wyprowadzamy CR_0(q) w zależności od CR_1(q).

CR_0(q)=\frac{n_0}{N_0}=\frac{n-n_1}{N_0}=\frac{n-N_1\frac{n_1}{N_1}}{N_0}=

=\frac{n-N_1 CR_1(q)}{N_0}=\frac{qN-N_1 CR_1(q)}{N_0}=

=\frac{qN}{N_0}+\frac{N_1 CR_1(q)}{N_0}=q\bigg(\frac{N_0}{N}\bigg)^{-1}-\frac{N_1}{N_0}CR_1(q)=

=\frac{q}{1-apriori}-\frac{N_1 N}{NN_0}CR_1(q)=0

=\frac{q}{1-apriori}-\frac{N_1}{N}\bigg(\frac{N_0}{N}\bigg)^{-1}CR_1(q)=

=\frac{q}{1-apriori}-apriori\frac{1}{1-apriori}CR_1(q)

CR_0(q)=\frac{q-apriori\times CR_1(q)}{1-apriori}

Przykład dla pewnej funkcji Captured Response i apriori = 30%.

Captured Response - klasa klasa pozytywna i klasa negatywna

CR_0(q) jest dystrybuantą, gdyż:

  • CR_0(0)=\frac{0-apriori\times CR_1(0)}{1-apriori}=\frac{0-apriori\times 0}{1-apriori}=0
  • CR_0(1)=\frac{1-apriori\times CR_1(1)}{1-apriori}=\frac{1-apriori\times 1}{1-apriori}=1
  • Jest funkcją niemalejącą, co wynika bezpośrednio z jej definicji.

Lift nieskumulowany dla klasy negatywnej to pochodna Captured Response dla klasy negatywnej

CR_0^\prime(q)=\bigg(\frac{q-apriori\times CR_1(q)}{1-apriori}\bigg)^\prime=

=\frac{\big(q-apriori\times CR_1(q)\big)^\prime}{1-apriori}=\frac{1-apriori\times CR_1^\prime(q)}{1-apriori}=

=\frac{1-apriori\times Lift.Niesk_1(q)}{1-apriori}=Lift.Niesk_0(q)

CR_0^\prime(q)=Lift.Niesk_0(q)

Aby w pełni zrozumieć powyższe przejścia zapoznaj się z częścią #11 "Captured Response vs Lift", gdzie uzasadniam, że pochodna Captured Response to lift nieskumulowany.

Wniosek: Lift nieskumulowany dla klasy negatywnej oraz Captured Response dla klasy negatywnej to gęstość i dystrybuanta tego samego rozkładu.

Jeśli

Q=(q_1,q_2)

to

P(q\in Q|0)=\displaystyle\int_{q_1}^{q_2}Lift.Niesk_0(q)dq=

=CR_0(q_2)-CR_0(q_1)

P(q\in Q|1)=\displaystyle\int_{q_1}^{q_2}Lift.Niesk_1(q)dq=

=CR_1(q_2)-CR_1(q_1)

Wskaźnik KS dla CR_1 i CR_0 - czyli miara separacji klas

Wskaźnik KS dla CR_1 i CR_0 zdefiniujemy następująco:

D\big(CR_1,CR_0\big)=\displaystyle\sup_{q\in[0,1]}\bigg|CR_1(q)-CR_0(q)\bigg|

Równoważnie poszukujemy takiego q_{max}\in[0,1], że

D\big(CR_1,CR_0\big)=\displaystyle\sup_{q\in[0,1]}\bigg|CR_1(q)-CR_0(q)\bigg|=

=CR_1(q_{max})-CR_0(q_{max})

Zauważmy, że

CR_1(q)-CR_0(q)=\bigg(CR_1(q)-q\bigg)+\bigg(q-CR_0(q)\bigg)

Badamy przebieg zmienności - a konkretnie typujemy punkt maksimum na podstawie pochodnej.

Dla klasy "1":

\bigg(CR_1(q)-q\bigg)^\prime=0

CR_1^\prime(q)=1

Lift.Niesk_1(q)=1

Dla klasy "0":

\bigg(q-CR_0(q)\bigg)^\prime=0

CR_0^\prime(q)=1

Lift.Niesk_0(q)=1

\frac{1-apriori\times Lift.Niesk_1(q)}{1-apriori}=1

1-apriori\times Lift.Niesk_1(q)=1-apriori

-apriori\times Lift.Niesk_1(q)=-apriori

apriori\times Lift.Niesk_1(q)=apriori

Lift.Niesk_1(q)=1

Wniosek: odległość CR_1(q)-CR_0(q) jest maksymalizowana w punkcie, w którym funkcja liftu nieskumulowanego ma wartość 1 - tzn. w punkcie przecięcia z liftem dla modelu losowego.

Captured Response - klasa klasa pozytywna i klasa negatywna - Statystyka KS Kołmogorowa-Smirnowa

Powyższy wniosek jest dosyć intuicyjny - jeśli lift nieskumulowany "wchodzi w obszar bycia mniejszym niż 1" oznacza to, że jego efekt jest mniejszy od działania modelu losowego. Dodawanie kolejnych obserwacji zaczyna zmniejszać separację rozkładów.

Pozdrowienia,

Mariusz Gromada

Lift nieskumulowany jako gęstość, Captured Response jako dystrybuanta / Tips & Tricks na krzywych - czyli ocena jakości klasyfikacji (część 13)

W 13 części cyklu "Ocena jakości klasyfikacji" przedstawię dodatkowe interpretacje dla krzywej liftu nieskumulowanego i krzywej Captured Response. Obiecuję, że będzie ciekawie 🙂 przecież robimy "deep dive into predictive model assessment curves". W dzisiejszym odcinku zapomnimy o punktach odcięcia, klasyfikatorach binarnych, rozważając rozkłady populacji jako całość. Chwilkę się do tego przygotowywałem - było warto - seria "Tips & Tricks na krzywych" nabiera rumieńców!

Pole powierzchni pod krzywą liftu nieskumulowanego

Lift nieskumulowany dla modelu losowego to funkcja stała o wartości 1. Pole pod taką krzywą równe jest polu kwadratu o boku 1 i wynosi oczywiście 1. Model losowy "rozrzuca" obserwacje z "klasy 1" równomiernie, tzn. taka sama część otrzymuje wysoki, średni i niski score. Głównym zadaniem modelu predykcyjnego, w pewnym sensie, jest "przepchnąć" obserwacje należące do "klasy 1" z segmentu niskiego score do segmentu wysokiego score - dzięki temu pojawia się separacja klas. Powyższe dobrze obrazuję animacją, gdzie siła modelu utożsamiana jest z "siłą podmuchu wiatru" 🙂

Lift nieskumulowany - całka

Takie "przepchnięcie" nie ma wpływu na ilość "jedynek", zatem należy podejrzewać, że pole pod krzywą liftu nieskumulowanego zawsze wynosi 1. No to całkujemy:

\displaystyle\int_0^1 Lift.Niesk(q)dq

Oznaczenia + zależności:

  • N=N_1+N_0 - liczba obserwacji: łączna, z "klasy 1", z "klasy 0";
  • k - liczba przedziałów, na które dzielimy odcinek [0;1];
  • p=\frac{1}{k} - szerokość pojedynczego przedziału (zakres zmienności rzędu kwantyli);
  • p\cdot N - liczba obserwacji w przedziale (podział po kwantylach, zatem po równo);
  • i=\{1,2,3,\ldots,k\} - numer przedziału;
  • n_1^i+n_0^i=pN - liczba obserwacji w przedziale, osobno "z klasy 1" i "z klasy 0";
  • \Delta q^i - przedział, na którym wyznaczona jest wartość liftu nieskumulowanego;
  • \displaystyle\sum_{i=1}^k n_1^i=N_1
  • \displaystyle\sum_{i=1}^k n_0^i=N_0
  • \displaystyle\sum_{i=1}^k n_1^i+n_0^i=N_1+N_0=N

Lift nieskumulowany jest funkcją przedziałami stałą:

Lift.Niesk(q)=Lift.Niesk(\Delta q^i)\quad\text{dla}\quad q\in\Delta q^i

Lift.Niesk(\Delta q^i)=\frac{P(1|\Delta q^i)}{P(1)}

P(1|\Delta q^i)=\frac{n_1^i}{pN} oraz P(1)=\frac{N_1}{N}

Lift.Niesk(\Delta q^i)=\frac{n_1^i}{pN}\cdot \frac{N}{N_1}=\frac{n_1^i}{pN_1}

Lift.Niesk(\Delta q^i)=\frac{n_1^i}{pN_1}

\displaystyle\int_0^1 Lift.Niesk(q)dq=\displaystyle\sum_{i=1}^k p\cdot Lift.Niesk(\Delta q^i)

\displaystyle\sum_{i=1}^k p\cdot Lift.Niesk(\Delta q^i)=\displaystyle\sum_{i=1}^k p\frac{n_1^i}{pN_1}=

=\displaystyle\sum_{i=1}^k \frac{n_1^i}{N_1}=\frac{\displaystyle\sum_{i=1}^k n_1^i}{N_1}=\frac{N_1}{N_1}=1

\displaystyle\int_0^1 Lift.Niesk(q)dq=1

Lift nieskumulowany jako funkcja gęstości rozkładu prawdopodobieństwa

Funkcja liftu nieskumulowanego jest nieujemna i spełnia warunek "unormowania" (w przeciwieństwie do funkcji nieskumulowanego prawdopodobieństwa) w kontekście gęstości rozkładu prawdopodobieństwa - tzn. pole powierzchni pod krzywą wynosi 1. Taka gęstość opisuje rozkład rzędu kwantyli (kwantyle wyznaczane dla całej populacji "klasa 0 + klasa 1" względem malejącej oceny modelem) w klasie faktycznie pozytywnej - tzn. w "klasie 1".

Lift nieskumulowany jako gęstość

Jeśli

Q=(q_1,q_2)

to

P(q\in Q|1)=\displaystyle\int_{q_1}^{q_2}Lift.Niesk(q)dq

Captured Response jako dystrybuanta rozkładu prawdopodobieństwa

Captured Response jest funkcją niemalejącą, jednostronnie ciągłą (powiedzmy, że prawostronnie), o wartościach z przedziału [0;1], wartości 0 dla q\leq 0 oraz wartości 1 dla q\geq 1. Tym samym spełnione są warunki bycia dystrybuantą pewnego rozkładu prawdopodobieństwa. W części "#11 - Captured Response vs Lift" wykazałem, że pochodna z Captured Response to lift nieskumulowany. Wniosek: Captured Response i lift nieskumulowany to dystrybuanta i gęstość tego samego rozkładu prawdopodobieństwa.

Lift nieskumulowany jako gęstość, Captured Response jako dystrybuanta

Jeśli

Q=(q_1,q_2)

to

P(q\in Q|1)=\displaystyle\int_{q_1}^{q_2}Lift.Niesk(q)dq=CR(q_2)-CR(q_1)

Pozdrowienia,

Mariusz Gromada

Dlaczego pole powierzchni koła wynosi π·r²?

P=\pi r^2 to chyba najbardziej znany wzór, będący zarazem rzadko rozumianym 🙂 Choć wzór na pole powierzchni koła, bo o nim tu mowa, znany był już w Starożytnej Grecji, to jego uzasadnienie wcale nie jest łatwe. Jest to zatem świetny temat do wzbogacenia cyklu "Dlaczego?" 🙂 Do dzieła! 🙂

Pole powierzchni koła - wzór

Pole powierzchni koła - wzór

P=\pi r^2

Jak widać powyżej - kwadrat i koło, o tej samej powierzchni, nie są "jakoś intuicyjnie łatwo" powiązane. Więcej - wykazano nawet, że kwadratura koła (procedura wykonywana przy użyciu cyrkla i linijki bez podziałki) jest niewykonalna! I tu pojawia się genialny pomysł z prostokątem 🙂 Nim powiem o co chodzi przyjrzyjmy się co tak naprawdę mówi wzór \pi r^2.

Pole powierzchni kola - Pi r kwadrat

\pi\times r^2 - czyli w kole mieszczą się nieco ponad 3 kwadraty o boku r 🙂

Pole powierzchni koła - dowód przez animację 🙂

Koło - pole powierzchni - animacja

Trochę się napracowałem przy tej animacji 🙂

Pole powierzchni koła - wielokąty foremne

Uwaga - poniższe nie jest dowodem, a obrazuje jedynie sposób wnioskowania stosowany przez Starożytnych Greków (tak np. Archimedes wyznaczał liczbę pi).

Pole powierzchni koła - wielokąt foremny

Można zauważyć, że obwód n-kąta foremnego opisanego na kole wynosi

O_n=na

a jego pole to suma pól trójkątów o podstawie a i wysokości równej promieniowi koła r.

P_n=n\frac{ar}{2}=\frac{nar}{2}

Podstawiając

P_n=\frac{O_nr}{2}

Gdy n jest coraz większe, P_n coraz dokładniej przybliża pole koła, a O_n jego obwód. W "kroku granicznym" (zagadnienie wielkości nieskończenie małej) otrzymujemy

O_n\to 2\pi r - tu z definicji liczby \pi

P_n\to\frac{2\pi rr}{2}=\pi r^2

Pole powierzchni koła - dowód nieco bardziej formalny

Dowód, który przeprowadzę, nie będzie oparty na całkowaniu równania okręgu. Wykorzystam ciągi i ich granice oraz twierdzenie o trzech ciągach.

Twierdzenie o trzech ciągach

Niech będą dane trzy ciągi rzeczywiste a_n, b_n i c_n. Jeśli "prawie wszędzie" (tzn. pomijając co najwyżej skończenie wiele wyrazów) zachodzi zależność

a_n\leq b_n\leq c_n

oraz

\lim a_n = \lim c_n = g

to

\lim b_n = g

Twierdzenie o trzech ciągach - strona na Wikipedii.

Przyda się również \lim_{x\to 0}\frac{\sin x}{x} = 1

Pamiętam jak w szkole średniej, na lekcjach fizyki, mój nauczyciel wielokrotnie przyjmował, że dla małych x funkcję \sin x dobrze przybliża właśnie x. Wynika to z rozwinięcia \sin x w szereg Taylora - wyjaśnienie pomijam. Wyznaczę jednak samą granicę - bo się przyda 🙂

\lim_{x\to 0}\frac{\sin x}{x}=\big(\frac{0}{0}\big)\text{ reg. de l`Hospitala}=

=\lim_{x\to 0}\frac{(\sin x)\prime}{x\prime}=\lim_{x\to 0}\frac{\cos x}{1}=

=\frac{\cos 0}{1}=\frac{1}{1}=1

\lim_{x\to 0}\frac{\sin x}{x} = 1

Reguła de l’Hospitala - Wikipedia

Pole powierzchni koła - dowód

Rozważmy n-kąty foremne opisane na kole i wpisane w koło. Pole n-kąta opisanego nazwijmy "polem zewnętrznym" i oznaczmy Z_n. Analogicznie pole n-kąta wpisanego nazwiemy "polem wewnętrznym" oznaczając je W_n.

Pole powierzchni koła - wielokąt foremny wpisany i opisany

Oczywiście

W_n\leq P\leq Z_n

gdzie P oznacza pole koła.

W kolejnym kroku dzielimy n-kąty na n-trójkątów. Zauważmy, że w ten sposób kąt pełny został również podzielony na n równych części. Pole "trójkąta zewnętrznego" oznaczymy przez T_n, a trójkąta wewnętrznego t_n.

Pole powierzchni koła - awielokąt foremny wpisany i opisany

Z_n=nT_n

W_n=nt_n

Wyznaczamy pole trójkąta "zewnętrznego"

T_n=Ar

ale

\frac{A}{r}=\text{tg}\beta=\frac{\sin\beta}{\cos\beta}

\frac{A}{r}r^2=r^2\frac{\sin\beta}{\cos\beta}

Ar=r^2\frac{\sin\beta}{\cos\beta}

T_n=r^2\frac{\sin\beta}{\cos\beta}=r^2\frac{\sin\frac{\pi}{n}}{\cos\frac{\pi}{n}}

Wyznaczamy pole trójkąta "wewnętrznego"

t_n=ah

ale

\frac{a}{r}=\sin\beta

a=r\sin\beta

oraz

\frac{h}{r}=\cos\beta

h=r\cos\beta

podstawiając

t_n=r\sin\beta\cdot r\cos\beta=r^2\sin\beta\cos\beta

stosując tożsamości trygonometryczne

t_n=r^2\sin\beta\cos\beta=\frac{r^2}{2}2\sin\beta\cos\beta=

=\frac{r^2}{2}\sin2\beta=\frac{r^2}{2}\sin\alpha

t_n=\frac{r^2}{2}\sin\alpha=\frac{r^2}{2}\sin\frac{2\pi}{n}

Finalne ciągi

Z_n=nT_n=nr^2\frac{\sin\frac{\pi}{n}}{\cos\frac{\pi}{n}}

W_n=nt_n=\frac{nr^2}{2}\sin\frac{2\pi}{n}

Granice ciągów

\lim Z_n=\lim nr^2\frac{\sin\frac{\pi}{n}}{\cos\frac{\pi}{n}}=

=\lim \frac{nr^2}{\cos\frac{\pi}{n}}\cdot\frac{\pi}{n}\cdot\frac{\sin\frac{\pi}{n}}{\frac{\pi}{n}}=

=\lim \frac{\pi r^2}{\cos\frac{\pi}{n}}\cdot\frac{\sin\frac{\pi}{n}}{\frac{\pi}{n}}=\frac{\pi r^2}{\cos 0}\cdot 1=

=\frac{\pi r^2}{1}=\pi r^2

\lim Z_n=\pi r^2

\lim W_n=\lim\frac{nr^2}{2}\sin\frac{2\pi}{n}=

\lim \frac{nr^2}{2}\cdot \frac{2\pi}{n}\cdot\frac{\sin\frac{2\pi}{n}}{\frac{2\pi}{n}}=

\lim \pi r^2\cdot\frac{\sin\frac{2\pi}{n}}{\frac{2\pi}{n}}=\pi r^2\cdot 1=\pi r^2

\lim W_n=\pi r^2

Wniosek

Z twierdzenia o trzech ciągach wnioskujemy, że pole koła to

P=\lim W_n=\lim Z_n=\pi r^2

Tempo zbieżności ciągów W_n oraz Z_n

Pole powierzchni koła - tempo zbieżności ciągów

🙂

Pozdrowienia,

Mariusz Gromada