Pytanie:
Podważanie błędnej instrukcji CLT
Dave
2020-06-22 21:14:34 UTC
view on stackexchange narkive permalink

Centralne twierdzenie graniczne (CLT) podaje kilka fajnych właściwości dotyczących zbieżności do rozkładu normalnego. Przed formalnym przestudiowaniem statystyk miałem bardzo mylne wrażenie, że CLT powiedział, że dane zbliżają się do normalności.

Teraz kłócę się o to ze współpracownikami. Twierdzę, że 68 $ \% $ danych nie musi mieścić się w jednym odchyleniu standardowym średniej, gdy mamy rozkłady inne niż normalne. Zgadzają się, ale potem mówią, że według CLT, ponieważ mamy wiele obserwacji (prawdopodobnie 50 000), nasze dane są bardzo zbliżone do normalnych, więc możemy użyć reguły empirycznej i powiedzieć, że 68 USD \% $ danych mieści się w granicach jednego odchylenia standardowego średniej. To oczywiście nieprawda. Ludność nie dba o to, ile obserwacji jest z niego wyciąganych; populacja to populacja, niezależnie od tego, czy z niej próbujemy, czy nie!

Jaki byłby dobry sposób na wyjaśnienie, dlaczego centralne twierdzenie graniczne nie dotyczy zbieżności rozkładu empirycznego?

Cóż, rozkład próbkowania (rozkład $ X_1, X_2, \ cdots, X_n $ lub $ \ bar {X} $, średnia próbki w tym przypadku) również nie jest zbieżny z rozkładem normalnym.Musisz więc być bardziej precyzyjny, jeśli chodzi o to, nad czym chcesz się urągać.
Edytowano @DilipSarwate.Z satysfakcją mogę powiedzieć współpracownikom, że CLT mówi, że coś zbliżonego do próbki oznacza zbieżność do normalności (wiem, że to nieprawda, ale prawdopodobnie jest wystarczająco blisko, aby przeprowadzić nieformalną dyskusję ... Nie muszę też wyjaśniać, dlaczego zbieżność w dystrybucji oznacza również), ale staram się wyjaśnić, dlaczego populacja nie zbliża się do normalności.
skup się na tym, co jest dokładnie zbieżne do normalnego zgodnie z CLT.w ten sposób łatwo wskazujesz, co * nie * jest zbieżne
Poproś współpracowników, aby sprawdzili swoje wnioski, gdy dane są binarne, takie jak wskaźnik rzutu uczciwej monety.
Myślę, że nie ma dobrego sposobu, aby wyjaśnić to ludziom, którzy nie są w stanie podążać za logicznym rozumowaniem.Więc może po prostu naucz się żyć ze swoimi współpracownikami
Rozkład próby rozbiega się w kierunku rozkładu populacji, gdy liczby rosną (i można to wykazać za pomocą kilku symulacji / testów / przykładów).Wydaje się, że dyskusja między tobą a twoimi współpracownikami dotyczy raczej pomieszania definicji / terminów.Co oznacza „nasze dane są bardzo zbliżone do normalnych”?Może warto wyjaśnić, w jakiej podstawowej dyskusji zostało to wykorzystane?Jaki jest problem, do którego koledzy stosują przybliżenie z rozkładem normalnym?Jakie masz dane, dlaczego nie pozwalają one łatwo wykazać, że $ 68 \% \ neq 1sd $?Co jest porównywane?
Więc to, co próbuję powiedzieć, to to, że może twoi koledzy nie mają racji w swoich słowach (a może nie poprawnie ich parafrazujesz), ale nie powinniśmy mocno doceniać tych słów (nie możemy winić myśli za nimikiedy nie są wyrażane zbyt rygorystycznie) i zamiast tego powinniśmy spróbować zrozumieć ukryte myśli.W związku z tym dlaczego nie miałbyś wyjaśnić podstawowej kwestii i udostępnić problem, do którego ma mieć zastosowanie ta CLT?Jest to o wiele bardziej jasne niż jednostronny pogląd na dyskusję między tobą a twoimi współpracownikami.https://en.wikipedia.org/wiki/XY_problem
@Dave, czy mógłbyś opisać podstawowy problem.Piszesz wyraźnie, że twoi koledzy się z tym zgadzają.Dlatego nie jest jasne, do czego się odnoszą, gdy używasz słowa dane dwukrotnie.* „Mówię, że 68% danych nie musi mieścić się w jednym odchyleniu standardowym średniej” * w porównaniu z * ”Zgadzają się, ale potem mówią… że 68% danych mieści się w zakresie jednego odchylenia standardowego średniej” *.Wydaje mi się, że mogą oznaczać coś innego (uważam, że ich odniesienie do „danych” jest „średnią z danych”), ale nie jest jasne, czy mogę to powiedzieć, nie znając podstawowego problemu.
Czy to odpowiada na twoje pytanie?[Jakie jest intuicyjne wyjaśnienie centralnego twierdzenia granicznego?] (Https://stats.stackexchange.com/questions/3734/what-intuitive-explanation-is-there-for-the-central-limit-theorem)
Sześć odpowiedzi:
Stephan Kolassa
2020-06-23 01:57:23 UTC
view on stackexchange narkive permalink

Jak zauważasz, zawsze możesz wskazać współpracownikom dyskretną dystrybucję binarną. Ale mogą rozważyć to „oszustwo” i wycofać się do słabszego twierdzenia, że ​​proponowane stwierdzenie odnosi się tylko do ciągłych dystrybucji.

Więc użyj równomiernego rozkładu w przedziale jednostek $ [0,1] $ . Ma średnią $ \ mu = 0,5 $ , odchylenie $ \ frac {1} {12} $ , czyli odchylenie standardowe $ \ sigma = \ frac {1} {\ sqrt {12}} \ około 0,289 $ . Ale oczywiście przedział $ [\ mu- \ sigma, \ mu + \ sigma] \ ok. [0.211,0.789] $ długości 57,7 \% $ Twoich danych (a dokładniej: wraz ze wzrostem rozmiaru próbki proporcja zbliża się do 0,577 $ ), a nie 68 $ \% $ , bez względu na liczbę próbkowanych punktów danych.

W Twoim jednolitym przykładzie, korzystając ze statystyk próby, odsetek obserwacji w $ [m-s, m + s] $ zbliża się do 0,577 $ wraz ze wzrostem wielkości próby
@Henry: dziękuję.Moje oświadczenie było trochę bardziej precyzyjne.
@Alexis: dzięki!Nie jestem do końca pewien, gdzie Twoim zdaniem „ponieważ” miałoby sens… czy chcesz go po prostu edytować?
Jeśli dobrze rozumiem intencje Alexisa, myślę, że * ponieważ * zmieniłoby znaczenie w złym kierunku.
@Alexis, przepraszam, źle zrozumiałem o co ci chodzi.Teraz wyjaśnione.
@Alexis: dzięki za opracowanie.Właściwie nie sądzę, żeby było tu coś szczególnie interesującego.Po prostu często jest tak, że A składa fałszywe twierdzenie, B podaje kontrprzykład (jak tutaj Whubera), a następnie A wycofuje się do słabszego (i wciąż fałszywego) twierdzenia.„Nie wygłupiaj się, * oczywiście * nie mówię tutaj o dyskretnych dystrybucjach!”Właściwie byłaby to interesująca rozmowa, gdyby pierwotne twierdzenie i jego słabsza wersja nie zawierały tak głębokiego nieporozumienia.
Ben
2020-06-23 15:25:09 UTC
view on stackexchange narkive permalink

Jest to dość wszechobecne niezrozumienie centralnego twierdzenia granicznego, z którym również spotkałem się w moim nauczaniu statystycznym. Przez lata napotykałem ten problem tak często, że opracowałem sokratejską metodę radzenia sobie z nim. Identyfikuję ucznia, który zaakceptował ten pomysł, a następnie angażuję go, aby wywnioskował, co by to logicznie oznaczało. Dość łatwo jest dojść do reductio ad absurdum fałszywej wersji twierdzenia, zgodnie z którą każda sekwencja zmiennych losowych IID ma rozkład normalny . Typowa rozmowa wyglądałaby mniej więcej tak.

Teacher: W tym zadaniu zauważyłem, że powiedziałeś, że ponieważ $ n $ jest duży, dane mają w przybliżeniu normalny rozkład. Czy możesz przeprowadzić mnie przez swoje rozumowanie tego fragmentu?

Student: Czy to źle?

Teacher: Nie wiem. Przyjrzyjmy się temu.

Student: Cóż, użyłem tego twierdzenia, o którym mówiłeś na zajęciach; ten główny, o którym wspominałeś kilka razy. Zapomniałem nazwy.

Teacher: Centralne twierdzenie graniczne?

Student: Tak, centralne twierdzenie graniczne.

Teacher: Świetnie, a kiedy ma zastosowanie to twierdzenie?

Student: Myślę, że jeśli zmienne to IID.

Teacher: I mają skończoną wariancję.

Student: Tak, i skończona wariancja.

Teacher: OK, więc zmienne losowe mają jakiś stały rozkład ze skończoną wariancją, zgadza się?

Student: Tak.

Teacher: A dystrybucja się nie zmienia ani nic?

Student: Nie, to IID ze stałą dystrybucją.

Teacher: Dobrze, więc zobaczę, czy mogę sformułować twierdzenie. Centralne twierdzenie graniczne mówi, że jeśli masz sekwencję IID zmiennych losowych o skończonej wariancji i pobierasz próbkę $ n $ z nich, to jako wielkość próbki $ n $ staje się duży, rozkład zmiennych losowych jest zbieżny do rozkładu normalnego. Czy to prawda?

Student: Tak, tak myślę.

Teacher: Dobrze, więc zastanówmy się, co to by znaczyło. Załóżmy, że mam taką sekwencję. Jeśli weźmiemy powiedzmy tysiąc wartości próbek, jaki jest rozkład tych zmiennych losowych?

Student: To w przybliżeniu rozkład normalny.

Teacher: Jak blisko?

Student: Myślę, że całkiem blisko.

Teacher: Dobrze, a co jeśli wezmę miliard wartości próbek. Jak blisko teraz?

Student: Powiedziałbym, że naprawdę blisko.

Teacher: A jeśli mamy sekwencję tych rzeczy, to teoretycznie możemy wziąć $ n $ tak wysoko, jak chcemy, prawda? Więc możemy uczynić rozkład tak blisko normalnego, jak chcemy.

Student: Tak.

Teacher: Powiedzmy, że bierzemy $ n $ na tyle duże, że z przyjemnością stwierdzamy, że zmienne losowe mają w zasadzie rozkład normalny. I to jest stała dystrybucja, prawda?

Student: Tak.

Teacher: I oni są IID, prawda? Te zmienne losowe to IID?

Student: Tak, to IID.

Teacher: OK, więc wszystkie mają tę samą dystrybucję.

Student: Tak.

Teacher: OK, to znaczy pierwsza wartość w sekwencji, ma również rozkład normalny. Czy to prawda?

Student: Tak. To znaczy, to przybliżenie, ale tak, jeśli $ n $ jest naprawdę duży, to faktycznie ma rozkład normalny.

Teacher: Dobrze. A więc druga wartość w sekwencji i tak dalej, prawda?

Student: Tak.

Teacher: Dobra, więc tak naprawdę, gdy tylko zaczęliśmy próbkować, otrzymywaliśmy już wartości o zasadniczo normalnym rozkładzie. Tak naprawdę nie musieliśmy czekać, aż $ n $ stanie się duży, zanim to się zaczęło.

Student: Hmmm. Nie jestem pewny. To brzmi źle. Twierdzenie mówi, że potrzebujesz dużego $ n $ , więc myślę, że nie możesz go zastosować, jeśli samplujesz tylko niewielką liczbę wartości.

Teacher: Dobra, powiedzmy, że próbujemy miliard wartości. Mamy wtedy duży $ n $ . Ustaliliśmy, że oznacza to, że kilka pierwszych zmiennych losowych w sekwencji ma rozkład normalny, z bardzo bliskim przybliżeniem. Jeśli to prawda, czy nie możemy po prostu przestać samplować wcześniej? Powiedzmy, że będziemy próbkować miliard wartości, ale potem zatrzymamy próbkowanie po pierwszej wartości. Czy ta zmienna losowa nadal miała rozkład normalny?

Student: Myślę, że może nie jest.

Teacher: OK, więc w pewnym momencie jego dystrybucja się zmieni?

Student: Nie jestem pewien. Jestem teraz trochę zdezorientowany.

Teacher: Hmmm, wygląda na to, że dzieje się tu coś dziwnego. Dlaczego nie przeczytasz jeszcze raz materiału na temat centralnego twierdzenia granicznego i zobaczysz, czy możesz dowiedzieć się, jak rozwiązać tę sprzeczność. Porozmawiajmy więc o tym więcej.

Jest to jedno z możliwych podejść, które dąży do zredukowania fałszywego twierdzenia do reductio , które mówi, że każda sekwencja IID (ze skończoną wariancją) musi składać się z normalnych zmiennych losowych. Albo uczeń dojdzie do tego wniosku i zda sobie sprawę, że coś jest nie tak, albo będzie bronił się przed tym wnioskiem, mówiąc, że dystrybucja zmienia się, gdy $ n $ staje się duży. Tak czy inaczej, zwykle prowokuje to do dalszych przemyśleń, które mogą doprowadzić do ponownego odczytania twierdzenia. Oto inne podejście:

Teacher: Spójrzmy na to w inny sposób. Załóżmy, że mamy sekwencję zmiennych losowych IID z innego rozkładu; taki, który jest not z rozkładem normalnym. Czy to jest możliwe? Na przykład, czy moglibyśmy mieć sekwencję zmiennych losowych reprezentujących wynik rzutu monetą z rozkładu Bernoulliego?

Student: Tak, możemy to mieć.

Teacher: OK, świetnie. I to są wszystkie wartości IID, więc znowu wszystkie mają ten sam rozkład. Więc każda zmienna losowa w tej sekwencji będzie miała rozkład, który nie jest rozkładem normalnym, prawda?

Student: Tak.

Teacher: W rzeczywistości w tym przypadku każda wartość w sekwencji będzie wynikiem rzutu monetą, który ustawiamy jako zero lub jeden. Czy to prawda?

Student: Tak, o ile nazywamy je w ten sposób.

Teacher: OK, świetnie. Jeśli więc wszystkie wartości w sekwencji są zerami lub jedynkami, bez względu na to, ile z nich próbkujemy, zawsze otrzymamy histogram pokazujący wartości zero i jeden, prawda?

Student: Tak.

Teacher: OK. Czy myślisz, że jeśli będziemy próbkować coraz więcej wartości, będziemy coraz bliżej prawdziwego rozkładu? Na przykład, jeśli jest to uczciwa moneta, czy histogram ostatecznie zbiegnie się do miejsca, w którym słupki częstotliwości względnej mają tę samą wysokość?

Student: Tak mi się wydaje. Myślę, że tak.

Teacher: Myślę, że masz rację. W rzeczywistości wynik ten nazywamy „prawem wielkich liczb”. W każdym razie wygląda na to, że mamy tu mały problem, prawda? Jeśli próbkujemy dużą liczbę wartości, to centralne twierdzenie graniczne mówi, że zbiegamy się do rozkładu normalnego, ale wygląda na to, że „prawo dużych liczb” mówi, że w rzeczywistości zbieżność do rozkładu rzeczywistego nie jest rozkładem normalnym. W rzeczywistości jest to rozkład będący po prostu prawdopodobieństwami dla wartości zerowej i jednej wartości, która w niczym nie przypomina rozkładu normalnego. Więc o co chodzi?

Student: Myślę, że kiedy $ n $ jest duży, wygląda na normalną dystrybucję.

Teacher: Więc opisz mi to. Powiedzmy, że rzuciliśmy monetą miliard razy. Opisz rozkład wyników i wyjaśnij, dlaczego wygląda to na rozkład normalny.

Student: Nie bardzo wiem, jak to zrobić.

Teacher: OK. Czy zgadzasz się, że jeśli mamy miliard rzutów monetą, wszystkie te wyniki to zera i jedynki?

Student: Tak.

Teacher: OK, więc opisz, jak wygląda jego histogram.

Student: To tylko dwie kreski na tych wartościach.

Teacher: OK, więc nie ma kształtu „dzwonka”?

Student: Tak, chyba nie.

Teacher: Hmmm, więc być może centralne twierdzenie graniczne nie mówi, co myśleliśmy.Dlaczego nie przeczytasz ponownie materiału na temat centralnego twierdzenia granicznego i zobaczysz, czy możesz dowiedzieć się, co ono mówi.Porozmawiajmy więc o tym więcej.

Lubię dialogi.Ale myślę, że pierwszy z nich nie rozpoznaje błędnego postrzegania ucznia.Wygląda na to, że rozumieli ideę, że * empiryczna * dystrybucja małej próbki prawdopodobnie znacznie odbiega od * podstawowej dystrybucji *. Pierwsze okno dialogowe wydaje się tańczyć wokół tego - głównie poprzez niezmodyfikowane powtórzenie jednegopróba wyjaśnienia - bez zajęcia się tym.
Ten nauczyciel jest bardzo cierpliwy.Myślę, że musisz być podczas nauczania na studiach licencjackich
@whuber: Ogólną ideą tych dialogów jest * nie * rozwiązanie problemu, ale raczej zwrócenie uwagi na pewne sprzeczności, tak aby uczeń był zmotywowany do ponownego przeczytania twierdzenia, aby spróbować rozwiązać pozorny paradoks.W pierwszej kolejności zwracasz uwagę na fakt, że założenie IID wymusza takie same rozkłady zmiennych losowych, więc jeśli „zbiegają się w rozkładzie do normy”, to wszystkie muszą być normalne.Te rozważania zwykle powtarzają się, aby pomóc uczniowi.
Cole
2020-06-23 11:31:37 UTC
view on stackexchange narkive permalink

Centralne twierdzenie graniczne stwierdza, że ​​mean danych będzie rozkładać się normalnie wraz ze wzrostem wielkości próby, mówi nothing o samych danych. Innym sposobem wyrażenia tego jest to, że rozkład parametru (średniej) jest normalny, ale jest to całkowicie niezależne od rozkładu podstawowych danych .

Większość wartości z CLT pochodzi z faktu, że można porównać próbki, które mają normalny rozkład not między sobą (wyłącznie na podstawie faktu, że dzięki CLT wiesz, jak ich środki powinny się zachowywać).

Myślę, że to jest mylące, ponieważ tylko dlatego, że można porównać ze sobą dwie przykładowe średnie na podstawie jakiegoś testu, który zakłada normalność (np. test t), nie oznacza, że ​​ powinien . (np. porównanie średnich z dwóch rozkładów wykładniczych może nie powiedzieć ci, co myślisz, że robi, lub dwóch rozkładów dwumodalnych lub dwumodalnych z rozkładem jednomodalnym, itd.).

Pytanie, które większość ludzi powinna zadać, brzmi: „czy średnia (lub różnica w średnich) jest użytecznym wskaźnikiem, biorąc pod uwagę rozkład moich danych”. Tylko jeśli odpowiedź na to pytanie brzmi tak, należy przystąpić do porównania średnich (w ten sposób opierając się na CLT).

Nie zadając tego pytania, wiele osób popada w następujący (z grubsza określony) błąd logiczny:

CLT ma zastosowanie, więc mogę porównać średnie. Mogę porównać średnie, ponieważ mają one rozkład normalny. To porównanie musi być znaczące, ponieważ CLT mówi, że mogę to zrobić (a CLT jest bardzo potężny). Porównanie / test, którego używam najbardziej intuicyjnie (tylko /), ma sens, gdy dane mają rozkład normalny, a przecież średnia ma rozkład normalny, więc moje dane również muszą mieć rozkład normalny!

Aby bezpośrednio odpowiedzieć na pytanie, możesz:

  1. Pokaż definicję, zwróć uwagę, że CLT twierdzi tylko o rozkładzie średniej zbliżającej się do normalności, podkreśl, że rozkład parametru może się bardzo różnić od rozkładu danych, z których pochodzi .

  2. Pokaż im ten film, który zapewnia ładną wizualną reprezentację działania CLT przy użyciu kilku różnych dystrybucji danych bazowych. (to trochę dziwaczne, ale bardzo wyraźnie przekazane)

Dodatek:

Przeanalizowałem kilka szczegółów technicznych w moim wyjaśnieniu, aby uczynić je bardziej zrozumiałym dla osoby mniej obeznanej ze statystykami. Zwróciło na to uwagę kilku komentatorów, więc pomyślałem, że zamieszczę ich opinie tutaj:

  • Dokładniejsze określenie CLT byłoby następujące:

" Centralne twierdzenie graniczne stwierdza, że ​​średnia z danych będzie miała rozkład normalny (a dokładniej różnica między średnią danych / próbki a prawdziwą średnią pomnożoną przez pierwiastek kwadratowy z wielkości próbki $ \ sqrt {n} $ jest dystrybuowany normalnie) "

Widziałem również, jak wyjaśniono to jako „ odpowiednio znormalizowana suma zmierza do rozkładu normalnego

Warto również zwrócić uwagę, że dane muszą składać się z niezależnych i identycznie rozłożonych zmiennych losowych o skończonej wariancji, aby CLT miało zastosowanie.

  • Bardziej dokładnym i / lub mniej bayesowskim sposobem powiedzenia „ rozkład parametru (średnia) ” byłby „ rozkład oszacowania parametru przez zwykłą średnią z próby
Czy CTL nie ma również zastosowania do rozkładu dowolnego oszacowania parametru?Jak średnia, ale także mediana, odchylenie standardowe lub inne parametry podsumowujące, takie jak współczynnik regresji i powiązana miara błędu?
Czy to IMO jest podstawową teorią stojącą za testowaniem hipotez parametrycznych?
Uważam, że to tylko średnia.Wiele testów hipotez parametrycznych opiera się na normalnym rozkładzie średniej (lub niektórych metrykach wyprowadzonych ze średniej).Wracam do mojego punktu na temat can vs powinien.Tylko dlatego, że CLT umożliwia wykonanie testu parametrycznego, nie oznacza, że test da Ci "znaczące" wyniki z twoich danych, co bardziej zależy od tego, jak odpowiednia jest metryka średnia dla rodzaju porównania, do którego próbujeszrobić.
Jeśli błąd standardowy współczynników regresji nie jest oparty na założeniu, że współczynniki regresji mają rozkład normalny, to z jakiego podstawowego rozkładu mają pochodzić?
To zależy od rodzaju regresji, którą wykonujesz.Klasyczna regresja liniowa polega na dopasowywaniu linii do danych przy założeniu, że błędy mają rozkład normalny.Istnieją jednak inne formy, takie jak dopasowywanie linii przy założeniu, że błędy są rozkładane zgodnie z ujemnym rozkładem dwumianowym, itp.
Myślę, że jest tu słowo źle zrozumiane.Mówię o rozkładzie poszczególnych parametrów regresji (średnia jest między innymi jednym parametrem regresji).Słusznie powiedziałeś o tym w swojej odpowiedzi.Jednak w swoim ostatnim komentarzu mówisz o rozkładzie reszt, który jest zupełnie inny i, jak powiedziałeś, nie ma na niego wpływu CTL.
* "stwierdza, że średnia danych ..." * to trochę bardziej przypomina prawo lub duże liczby, średnia danych zbliża się do zdegenerowanego rozkładu.Bardziej eleganckie byłoby dodanie uwagi dodatkowej stwierdzającej, że dokładniej przeskalowana i przesunięta średnia próbki zbliża się do rozkładu normalnego * "Centralne twierdzenie graniczne stwierdza, że średnia z danych będzie miała rozkład normalny (a dokładniej różnica między średniądanych / próbki i prawdziwej średniej pomnożonej przez pierwiastek kwadratowy z rozmiaru próbki $ \ sqrt {n} $ ma rozkład normalny) "* ....
Jestem z @SextusEmpiricus.Rozważmy $ U (0,1) $.$ \ bar {X} $ nie może mieć gęstości poza $ [0,1] $, a prawo dużych liczb daje jeszcze większą zbieżność prawdopodobieństwa (CLT to zbieżność w rozkładzie) $ \ bar {X}$ do prawdziwej oczekiwanej wartości.Również „rozkład parametru” jest kontrowersyjnym komentarzem z natury bayesowskim.Myślę, że miałeś na myśli rozkład oszacowania parametru przez średnią z próby zwykłej.
@SextusEmpiricus i @ Dave Zgadzam się z wami obojgiem.Chciałem uniknąć niektórych szczegółów technicznych, aby uczynić go bardziej zrozumiałym dla kogoś, kto nie ma doświadczenia w statystykach (jak to się wydaje w przypadku wspomnianych współpracowników).
@Dave i @ SextusEmpiricus Dodałem Twoją opinię do mojego postu, dzięki!
Myślę, że to najlepsza jak dotąd odpowiedź.Jest to jedyny, który faktycznie wyjaśnia, co mówi CLT (iz pytania jest całkiem możliwe, że pytający jest również zdezorientowany, nie tylko koledzy).
mpiktas
2020-06-24 01:53:38 UTC
view on stackexchange narkive permalink

CLT dotyczy zbieżności sumy zmiennych losowych. Jeśli mamy próbkę iid $ X_1, ..., X_n $ , gdzie $ EX_i = \ mu $ span > i $ Var (X_i) < \ infty $ , a następnie

$$ \ frac {1} {\ sqrt {n}} \ left (X_1 + ... + X_n-n \ mu \ right) \ to N (0, Var (X_i)) $$

To stwierdzenie dotyczy wyłącznie bliskości rozkładu odpowiednio znormalizowanej sumy $ (X_1 + ... + X_n) $ do rozkładu normalnego. Nie mówi, że nic o zbieżności dystrybucji $ X_i $ . Ponieważ $ X_i $ nie zależą od $ n $ , dlaczego miałyby się gdziekolwiek zbiegać?

Empiryczny rozkład próbki $ X_i $ będzie faktycznie zbieżny (wraz ze wzrostem rozmiaru próbki) do rzeczywistego rozkładu $ X_i $ zgodnie z twierdzeniem Donskera, więc jeśli rzeczywisty rozkład nie jest zbliżony do normalnego, rozkład empiryczny również nie będzie bliski.

Wydaje się, że Donsker dotyczy procesów stochastycznych.Czy chodziło Ci o Glivenko – Cantelli?
Glivenko-Cantelli to prawo wielkich liczb dla procesów stochastycznych, a Donsker jest centralnym twierdzeniem granicznym.Pierwsza dotyczy zbieżności prawdopodobieństwa, druga zbieżności w rozkładzie.
dariober
2020-06-23 15:50:52 UTC
view on stackexchange narkive permalink

W ten sposób lubię wizualizować CLT.Nie jestem jednak w 100% pewien, czy argument jest poprawny, sprawdź.

Zacznij od populacji wartości, których rozkład nie jest bliski normalnego. Np. jednolita dystrybucja:

  X <- runif (n = 50000)
hist (X)
 

enter image description here

Teraz weź $ n $ próbek z tej populacji, oblicz średnią z każdej próbki, przesuń średnią próbki o średnią populacji i przeskaluj ją przez $ \ sqrt {n} $ , wykreśl histogram tych $ n $ . Ten histogram jest (prawie) normalny:

  mu <- 1/2 # Średnia populacji X
x < - rep (NA, 1000)
rozmiar <- 10
for (i in 1: length (x)) {
    x [i] <- sqrt (rozmiar) * (średnia (próbka (X, rozmiar = rozmiar)) - mu)
}
 

enter image description here

W CLT nie chodzi o średnie z próby, które są zbieżne pod względem prawdopodobieństwa (a zatem w rozkładzie, takim jak zbieżność CLT) do średniej populacji.CLT mówi $ \ sqrt {n} (\ bar {X} _n- \ mu) \ overset {d} {\ rightarrow} N (0, \ sigma ^ 2) $.
@Dave, dzięki - wiedziałem, że sam byłem zdezorientowany.Czytałem jednak z [tutaj] (https://sphweb.bumc.bu.edu/otlt/MPH-Modules/BS/BS704_Probability/BS704_Probability12.html): * CLT stwierdza, że jeśli masz populację o średniej μ iodchylenie standardowe σ i weź wystarczająco duże losowe próbki z populacji z wymianą, a następnie rozkład średnich z próby będzie w przybliżeniu normalny * Czy nie jest to to, co zrobiłem powyżej?
Zadaj sobie pytanie, w jaki sposób średnia z próby rozkładu Bernoulliego może mieć rozkład normalny, gdy średnia z próby dosłownie nigdy nie może wynosić -1 $.Ta strona internetowa podaje błędne stwierdzenie centralnego twierdzenia granicznego.
@Dave (próbuję zrozumieć - nie kłócę się).Jeśli zamienię `runif (n = 50000)` na `rbinom (n = 50000, size = 1, prob = 0.5)` (50 tys. Rzutów monetą), to histogram 1000 średnich próbek nadal okaże się mniej więcej normalny
W szczególności dwumianowy można zmusić, aby zbiegał się do normy, więc rozważ $ U (0,1) $, aby ułatwić życie.Dosłownie nie możesz mieć przykładowej średniej -1 $.Próbka oznacza skupienie wokół 1/2 $ i, zgodnie z prawem dużych liczb (nie CLT), $ \ bar {X} $ zbiega się do 1/2 $.Moja sugestia jest taka, aby usunąć ten post, aby nowicjusze go nie czytali i nie byli zdezorientowani co do centralnego twierdzenia granicznego, a następnie opublikuj o swoim pomieszaniu jako odrębne pytanie.Jak widać, nie jesteś jedyną osobą, która opublikowała odpowiedź, która ma takie samo zdezorientowanie.
-1
Niezupełnie, ale dochodzisz do rzeczywistego stwierdzenia centralnego twierdzenia granicznego.Należy odjąć (znaną) średnią populacji, a nie oszacować średnią populacji.Twoja populacja to $ U (0,1) $, więc wiesz, że populacja to 1/2 $.
Dobry chwyt - ponownie edytowano post.To niesamowite, ile jest napisów
@Dave, czy jesteś pewien, że średnie próby są zbieżne pod względem prawdopodobieństwa, a więc w rozkładzie, do średnich populacji?Średnia populacji (jeśli istnieje) to tylko liczba, prawda?Myślę, że prawdziwy problem to: czy $ \ sqrt {n} (\ overline {X} _n- \ mu) \ overset {d} {\ rightarrow} N (0, \ sigma ^ 2) $ implikuje $ \ overline {X} _n \ overset {d} {\ rightarrow} N (\ mu, \ sigma ^ 2 / n) $?Jeśli odpowiedź brzmi „tak”, możesz powiedzieć, że jeśli „weźmiesz wystarczająco duże losowe próbki z populacji z wymianą, wówczas rozkład średnich z próby będzie w przybliżeniu normalny”.
@Sergio Prawo wielkich liczb
@Dave, Tak, ale jaki jest * rozkład * $ \ mu $?Czy to ma znaczenie?Powiedziałbym, że CLT * jest * o średnich próbkach i ich asymptotycznie normalnym rozkładzie, ponieważ $ \ sqrt {n} (\ overline {X} _n- \ mu) \ overset {d} {\ rightarrow} N (0,\ sigma ^ 2) $ oznacza $ \ overline {X} _n \ overset {d} {\ rightarrow} N (\ mu, \ sigma ^ 2 / n) $.
@Sergio to, co piszesz, jest niepoprawne, a jeśli nie rozumiesz, dlaczego, to brzmi jak dobre pytanie do opublikowania na Cross Validated.Symboliczna manipulacja przesunięciem $ n $ na drugą stronę wygląda dobrze i daje intuicję, dlaczego próbka średnia zbiega się z prawdziwą wartością $ \ mu $, ale myślę, że napotkasz problemy potwierdzające zbieżność, jeśli wartość, do której zbiegaszzależy od wielkości próby.
@Dave Ok, masz rację, byłem zbyt pochopny, ale zawsze mogę użyć CLT, aby powiedzieć, że $ \ overline {X} _n \ overset {\ cdot} {\ sim} N (\ mu, \ sigma ^ 2 / n)$ kiedy $ 1 \ ll n <\ infty $ nawet jeśli $ n $ jest ogromne.
@Sergio Nie rozumiem twojej niechęci do korzystania z prawa wielkich liczb ani twojego nalegania na użycie centralnego twierdzenia granicznego.To brzmi jak zamieszanie, które uzasadnia wysłanie jako osobne pytanie.
@Dave Eg, http://www.math.utah.edu/~anna/Sum12/LessonPlans/Section54.pdf, http://www.stat.yale.edu/Courses/1997-98/101/sampmn.htm,http://homepages.math.uic.edu/~bpower6/stat101/Sampling%20Distributions.pdf itp.
@Sergio To brzmi jak zamieszanie, które uzasadnia wysłanie jako osobnego pytania.
Wygląda na to, że nie zauważyłeś kropki nad symbolem $ \ sim $ :)
@dariober Tak trzymaj!Dziękujemy za udział, strona potrzebuje więcej chętnych do odpowiedzi!Nie zrażałabym się krytyką.Uważam, że to ogromna kwestia techniczna.Co, jak sądzę, jest w porządku, biorąc pod uwagę, że robimy matematykę, ale dla wszystkich praktycznych intencji i celów średnia próbna ma rozkład normalny.Wszystkie inferencyjne statystyki są z tego zbudowane.Użyłem dokładnie twojego podejścia do próbkowania, aby pokazać innym CLT.
ajax2112
2020-06-25 10:53:38 UTC
view on stackexchange narkive permalink

Nieporozumienie polega tutaj na tym, co w rzeczywistości jest zbieżne do rozkładu normalnego.Myślę, że najłatwiejszym sposobem przezwyciężenia tego jest wyjaśnienie przykładów skrajności rozkładu próbkowania, jednego z jednym pomiarem na próbkę (tak jak przy wykonywaniu pomiarów prosto z populacji, tak jak opisujesz) i takiego, w którym każda próbka jest całą populacją.Stamtąd łatwiej jest zrozumieć, co dzieje się na środku pola.



To pytanie i odpowiedź zostało automatycznie przetłumaczone z języka angielskiego.Oryginalna treść jest dostępna na stackexchange, za co dziękujemy za licencję cc by-sa 4.0, w ramach której jest rozpowszechniana.
Loading...