Jest to dość wszechobecne niezrozumienie centralnego twierdzenia granicznego, z którym również spotkałem się w moim nauczaniu statystycznym. Przez lata napotykałem ten problem tak często, że opracowałem sokratejską metodę radzenia sobie z nim. Identyfikuję ucznia, który zaakceptował ten pomysł, a następnie angażuję go, aby wywnioskował, co by to logicznie oznaczało. Dość łatwo jest dojść do reductio ad absurdum fałszywej wersji twierdzenia, zgodnie z którą każda sekwencja zmiennych losowych IID ma rozkład normalny . Typowa rozmowa wyglądałaby mniej więcej tak.
Teacher: W tym zadaniu zauważyłem, że powiedziałeś, że ponieważ $ n $ jest duży, dane mają w przybliżeniu normalny rozkład. Czy możesz przeprowadzić mnie przez swoje rozumowanie tego fragmentu?
Student: Czy to źle?
Teacher: Nie wiem. Przyjrzyjmy się temu.
Student: Cóż, użyłem tego twierdzenia, o którym mówiłeś na zajęciach; ten główny, o którym wspominałeś kilka razy. Zapomniałem nazwy.
Teacher: Centralne twierdzenie graniczne?
Student: Tak, centralne twierdzenie graniczne.
Teacher: Świetnie, a kiedy ma zastosowanie to twierdzenie?
Student: Myślę, że jeśli zmienne to IID.
Teacher: I mają skończoną wariancję.
Student: Tak, i skończona wariancja.
Teacher: OK, więc zmienne losowe mają jakiś stały rozkład ze skończoną wariancją, zgadza się?
Student: Tak.
Teacher: A dystrybucja się nie zmienia ani nic?
Student: Nie, to IID ze stałą dystrybucją.
Teacher: Dobrze, więc zobaczę, czy mogę sformułować twierdzenie. Centralne twierdzenie graniczne mówi, że jeśli masz sekwencję IID zmiennych losowych o skończonej wariancji i pobierasz próbkę $ n $ z nich, to jako wielkość próbki $ n $ staje się duży, rozkład zmiennych losowych jest zbieżny do rozkładu normalnego. Czy to prawda?
Student: Tak, tak myślę.
Teacher: Dobrze, więc zastanówmy się, co to by znaczyło. Załóżmy, że mam taką sekwencję. Jeśli weźmiemy powiedzmy tysiąc wartości próbek, jaki jest rozkład tych zmiennych losowych?
Student: To w przybliżeniu rozkład normalny.
Teacher: Jak blisko?
Student: Myślę, że całkiem blisko.
Teacher: Dobrze, a co jeśli wezmę miliard wartości próbek. Jak blisko teraz?
Student: Powiedziałbym, że naprawdę blisko.
Teacher: A jeśli mamy sekwencję tych rzeczy, to teoretycznie możemy wziąć $ n $ tak wysoko, jak chcemy, prawda? Więc możemy uczynić rozkład tak blisko normalnego, jak chcemy.
Student: Tak.
Teacher: Powiedzmy, że bierzemy $ n $ na tyle duże, że z przyjemnością stwierdzamy, że zmienne losowe mają w zasadzie rozkład normalny. I to jest stała dystrybucja, prawda?
Student: Tak.
Teacher: I oni są IID, prawda? Te zmienne losowe to IID?
Student: Tak, to IID.
Teacher: OK, więc wszystkie mają tę samą dystrybucję.
Student: Tak.
Teacher: OK, to znaczy pierwsza wartość w sekwencji, ma również rozkład normalny. Czy to prawda?
Student: Tak. To znaczy, to przybliżenie, ale tak, jeśli $ n $ jest naprawdę duży, to faktycznie ma rozkład normalny.
Teacher: Dobrze. A więc druga wartość w sekwencji i tak dalej, prawda?
Student: Tak.
Teacher: Dobra, więc tak naprawdę, gdy tylko zaczęliśmy próbkować, otrzymywaliśmy już wartości o zasadniczo normalnym rozkładzie. Tak naprawdę nie musieliśmy czekać, aż $ n $ stanie się duży, zanim to się zaczęło.
Student: Hmmm. Nie jestem pewny. To brzmi źle. Twierdzenie mówi, że potrzebujesz dużego $ n $ , więc myślę, że nie możesz go zastosować, jeśli samplujesz tylko niewielką liczbę wartości.
Teacher: Dobra, powiedzmy, że próbujemy miliard wartości. Mamy wtedy duży $ n $ . Ustaliliśmy, że oznacza to, że kilka pierwszych zmiennych losowych w sekwencji ma rozkład normalny, z bardzo bliskim przybliżeniem. Jeśli to prawda, czy nie możemy po prostu przestać samplować wcześniej? Powiedzmy, że będziemy próbkować miliard wartości, ale potem zatrzymamy próbkowanie po pierwszej wartości. Czy ta zmienna losowa nadal miała rozkład normalny?
Student: Myślę, że może nie jest.
Teacher: OK, więc w pewnym momencie jego dystrybucja się zmieni?
Student: Nie jestem pewien. Jestem teraz trochę zdezorientowany.
Teacher: Hmmm, wygląda na to, że dzieje się tu coś dziwnego. Dlaczego nie przeczytasz jeszcze raz materiału na temat centralnego twierdzenia granicznego i zobaczysz, czy możesz dowiedzieć się, jak rozwiązać tę sprzeczność. Porozmawiajmy więc o tym więcej.
Jest to jedno z możliwych podejść, które dąży do zredukowania fałszywego twierdzenia do reductio , które mówi, że każda sekwencja IID (ze skończoną wariancją) musi składać się z normalnych zmiennych losowych. Albo uczeń dojdzie do tego wniosku i zda sobie sprawę, że coś jest nie tak, albo będzie bronił się przed tym wnioskiem, mówiąc, że dystrybucja zmienia się, gdy $ n $ staje się duży. Tak czy inaczej, zwykle prowokuje to do dalszych przemyśleń, które mogą doprowadzić do ponownego odczytania twierdzenia. Oto inne podejście:
Teacher: Spójrzmy na to w inny sposób. Załóżmy, że mamy sekwencję zmiennych losowych IID z innego rozkładu; taki, który jest not z rozkładem normalnym. Czy to jest możliwe? Na przykład, czy moglibyśmy mieć sekwencję zmiennych losowych reprezentujących wynik rzutu monetą z rozkładu Bernoulliego?
Student: Tak, możemy to mieć.
Teacher: OK, świetnie. I to są wszystkie wartości IID, więc znowu wszystkie mają ten sam rozkład. Więc każda zmienna losowa w tej sekwencji będzie miała rozkład, który nie jest rozkładem normalnym, prawda?
Student: Tak.
Teacher: W rzeczywistości w tym przypadku każda wartość w sekwencji będzie wynikiem rzutu monetą, który ustawiamy jako zero lub jeden. Czy to prawda?
Student: Tak, o ile nazywamy je w ten sposób.
Teacher: OK, świetnie. Jeśli więc wszystkie wartości w sekwencji są zerami lub jedynkami,
bez względu na to, ile z nich próbkujemy, zawsze otrzymamy histogram pokazujący wartości zero i jeden, prawda?
Student: Tak.
Teacher: OK. Czy myślisz, że jeśli będziemy próbkować coraz więcej wartości, będziemy coraz bliżej prawdziwego rozkładu? Na przykład, jeśli jest to uczciwa moneta, czy histogram ostatecznie zbiegnie się do miejsca, w którym słupki częstotliwości względnej mają tę samą wysokość?
Student: Tak mi się wydaje. Myślę, że tak.
Teacher: Myślę, że masz rację. W rzeczywistości wynik ten nazywamy „prawem wielkich liczb”. W każdym razie wygląda na to, że mamy tu mały problem, prawda? Jeśli próbkujemy dużą liczbę wartości, to centralne twierdzenie graniczne mówi, że zbiegamy się do rozkładu normalnego, ale wygląda na to, że „prawo dużych liczb” mówi, że w rzeczywistości zbieżność do rozkładu rzeczywistego nie jest rozkładem normalnym. W rzeczywistości jest to rozkład będący po prostu prawdopodobieństwami dla wartości zerowej i jednej wartości, która w niczym nie przypomina rozkładu normalnego. Więc o co chodzi?
Student: Myślę, że kiedy $ n $ jest duży, wygląda na normalną dystrybucję.
Teacher: Więc opisz mi to. Powiedzmy, że rzuciliśmy monetą miliard razy. Opisz rozkład wyników i wyjaśnij, dlaczego wygląda to na rozkład normalny.
Student: Nie bardzo wiem, jak to zrobić.
Teacher: OK. Czy zgadzasz się, że jeśli mamy miliard rzutów monetą, wszystkie te wyniki to zera i jedynki?
Student: Tak.
Teacher: OK, więc opisz, jak wygląda jego histogram.
Student: To tylko dwie kreski na tych wartościach.
Teacher: OK, więc nie ma kształtu „dzwonka”?
Student: Tak, chyba nie.
Teacher: Hmmm, więc być może centralne twierdzenie graniczne nie mówi, co myśleliśmy.Dlaczego nie przeczytasz ponownie materiału na temat centralnego twierdzenia granicznego i zobaczysz, czy możesz dowiedzieć się, co ono mówi.Porozmawiajmy więc o tym więcej.