Pytanie:
Czy potrzebujemy testowania hipotez, gdy mamy całą populację?
Siddhi Kiran Bajracharya
2020-07-21 09:27:12 UTC
view on stackexchange narkive permalink

Z tego, co rozumiem, testowanie hipotez ma na celu określenie, czy wynik w populacji próbki jest istotny statystycznie.Ale jeśli mam dane ze spisu powszechnego, czy naprawdę potrzebujemy testowania hipotez?

Pomyślałem, że może powinienem przeprowadzić wielokrotne losowe pobieranie próbek na podstawie danych ze spisu i sprawdzić, czy jest jakieś przypadkowe zachowanie.

Nie, nie ma testowania hipotez, jeśli masz całą populację, jest dokładnie tak, jak pokazują dane.Decyzja, czy jest to „znaczące”, zależy od Ciebie.
Ale możesz użyć pomysłów statystycznych, aby podsumować lub wykreślić dane.
Ile spisów powszechnych zawiera idealnie dokładne dane?
Jak duże są Twoje dane?To może mieć znaczenie [praktyczne znaczenie] (https://online.stat.psu.edu/stat200/lesson/6/6.4#:~:text=Practical%20ssequance%20refers%20to%20the,may%20depend%20on%20% 20context.)
Sprawdź wnioskowanie o randomizacji.Jest to doskonały przykład wnioskowania statystycznego, który nie dotyczy pobierania próbek z większej populacji osób, ale raczej próbkowania możliwych przydziałów leczenia zastosowanych do tego samego zestawu osobników, czy to populacji, czy próby.
Załóżmy, że mam wiarygodne pomiary dotyczące * każdego * mieszkańca wszystkich 50 Stanów Zjednoczonych.Co więcej, załóżmy, że mam te miary dla każdego roku, powiedzmy, do, powiedzmy, 1962 r. ** Nadal potrzebuję wnioskowania statystycznego, ponieważ * nie * mam żadnych miar * przyszłych * lat w tych (i żadnych przyszłych) stanach USA,i zależy mi na * przewidywaniu * lub * wyjaśnianiu * przyszłych doświadczeń. ** (Oczywiście wnioskowanie statystyczne nie ogranicza się do wartości p, ale kwestia ta jest nadal aktualna).
Siedem odpowiedzi:
Sergio
2020-07-21 11:36:44 UTC
view on stackexchange narkive permalink

Wszystko zależy od Twojego celu

Jeśli chcesz wiedzieć, ile osób pali i ile osób umiera na raka płuc, możesz je policzyć, ale jeśli chcesz wiedzieć, czy palenie zwiększa ryzyko raka płuc, potrzebujesz wnioskowania statystycznego.

Jeśli chcesz poznać osiągnięcia edukacyjne uczniów szkół średnich, wystarczy spojrzeć na pełne dane, ale jeśli chcesz poznać wpływ pochodzenia rodzinnego uczniów szkół średnich i ich zdolności umysłowych na ich ostateczne osiągnięcia edukacyjne, potrzebujesz wnioskowania statystycznego .

Jeśli chcesz poznać zarobki pracowników, możesz po prostu spojrzeć na dane ze spisu ludności, ale jeśli chcesz zbadać wpływ wykształcenia na zarobki, potrzebujesz wnioskowania statystycznego (więcej przykładów znajdziesz w Morgan & Winship, Kontrfakty i wnioskowanie przyczynowe: metody i zasady badań społecznych .)

Ogólnie rzecz biorąc, jeśli szukasz tylko statystyk podsumowujących, aby przekazać jak największą ilość informacji tak prosto, jak to możliwe, możesz po prostu policzyć, zsumować, podzielić, wykreślić itp.

Ale jeśli chcesz przewidzieć, co się stanie, lub zrozumieć, co powoduje co, potrzebujesz wnioskowania statystycznego: założenia, paradygmaty, oszacowanie, testowanie hipotez, model walidacja itp.

Dobra odpowiedź, ale twierdzę, że w przypadkach, w których próbujesz wygenerować prognozy lub opracować model przyczynowy, zazwyczaj stosujesz go do niewidocznych danych, więc tak naprawdę nie są to przypadki, w których „masz całą populację”.Generowanie „prognoz” na podstawie danych, w przypadku których już znasz odpowiedź, jest ćwiczeniem czysto akademickim - w praktyce wykonuje się je tylko wtedy, gdy w populacji są niewidoczni.To, czy palenie jest związane z rakiem płuc, jest interesujące głównie dlatego, że możemy wywnioskować coś o niewidocznych członkach populacji o nieznanym statusie raka.
Czy uwzględniłbyś przewidywanie, co już się wydarzyło w zbiorze rzeczy, które wymagają wnioskowania?Załóżmy, że populacja sprzedaży wraca do $ t = 0 $.Próbuję zdecydować, czy dzisiejsza sprzedaż jest niska, biorąc pod uwagę tę historię.Czy potrzebowałbym wnioskowania, aby odpowiedzieć na to czysto opisowe pytanie niezwiązane z przyczyną?
@DimitriyV.Masterov Co oznacza „niski”?Nie jest to pytanie czysto opisowe.Są też pytania predykcyjne i pytania przyczynowe.Jeśli „niska” oznacza „mniej niż oczekiwano”, powinienem był przewidzieć wyższą sprzedaż, a prognoza nie jest opisem.
Dla mnie „niski” oznacza po lewej stronie jakiegoś przedziału przewidywań dla dzisiejszych danych, co obiecuje jego pokrycie.Nie wydaje mi się to przyczynowe i nie jest to do końca przepowiednia dotycząca przyszłości.
Biorąc pod uwagę, że OP ma dane ze spisu powszechnego, możemy stwierdzić, że „próba” jest duża, a jeśli jest duża, wszelkie testy hipotez są prawdopodobnie bezcelowe, ponieważ wszystkie wyniki mogą być bardzo istotne (punkt o praktycznym znaczeniu).
@NuclearWang: Albo z innej perspektywy, nasza populacja (w sensie statystycznym) nie jest obecną populacją (w sensie demograficznym), ale wszystkimi możliwymi przyszłymi populacjami (demograficznymi) przy pewnych założeniach (takich jak równe spożycie tytoniu).
Myślę, że ta odpowiedź byłaby jeszcze lepsza, gdyby zawierała bardziej odpowiednią definicję populacji statystycznej, jak podaje @Wrzlprmft.Chodzi o to, że w rzeczywistości niemożliwe jest posiadanie całej populacji statystycznej w twoich przykładach, chyba że masz wszystkie zarejestrowane dane na koniec czasu.
@Fnguyen To bardzo proste: mogę zastosować prognozy lub modele przyczynowe do niewidocznych danych, ale dzieje się tak, ponieważ _Mogę_.Nie można przewidzieć ani szukać przyczyn, po prostu podsumowując dane.Statystyki podsumowującej nie można zastosować do niewidocznych danych.Potrzebujesz wnioskowania statystycznego.A wnioskowanie statystyczne zawsze opiera się na dostępnych danych, a nie na przyszłych, nieznanych danych :)
@Sergio W pełni rozumiem. Właśnie dodałem, że twoja odpowiedź byłaby jeszcze lepsza, gdybyś dodał do niej definicję populacji.OP zasadniczo zastanawia się, dlaczego w „danych dotyczących populacji” (jak w populacji spisowej) są niewidoczne dane, które nie są populacją statystyczną.Twoja odpowiedź bardzo dobrze wyjaśnia różnicę między podsumowaniem a interferencją, ale nie wyjaśnia, dlaczego nadal potrzebujemy ingerencji, nawet jeśli badamy całą (demograficzną) populację.Więc nie musisz mi tego ponownie wyjaśniać, tylko sugestia, aby poprawić swoją odpowiedź.
@Fnguyen Może być, ale „w rzeczywistości niemożliwe jest uwzględnienie całej populacji statystycznej w twoich przykładach, chyba że masz wszystkie zarejestrowane dane na koniec czasu” nie ma dla mnie sensu :)
@Sergio weź przykład z palenia i raka.Dlaczego w ogóle są niewidoczne dane?Ponieważ „populacja” to nie wszyscy żyjący obecnie, ale raczej każdy palacz, który kiedykolwiek żył lub będzie żył do końca czasów.Gdybyśmy faktycznie mieli te dane, nie mielibyśmy interferencji netto, naprawdę mielibyśmy całą populację, a zatem statystyki podsumowujące byłyby wszystkim, czego potrzebowalibyśmy.Ponieważ nie potrzebujemy ingerencji, aby podejmować decyzje, jak najlepiej radzić sobie z niepewnością statystyczną i jak przewidywać niewidoczne dane.
@Fnguyen Widać ciągłą korelację między paleniem a rakiem płuc, ale to nie byłby związek przyczynowy, ponieważ może istnieć zakłócająca zmienna (zarzut Fishera).Nie mogę się z tobą zgodzić.Przepraszam.
@Sergio Wystarczająco sprawiedliwe, aby zatrzymać to w tym momencie, ale trudno mi zobaczyć, że mnie nie rozumiesz, ponieważ w 100% się z tobą zgadzam i po prostu dodam inny aspekt, którego nie wziąłeś pod uwagę, wyjaśniając, czego OP nie rozumie.
Opublikowałem odpowiedź rozszerzającą mój tok myślenia (CC @Fnguyen).
„Jeśli chcesz wiedzieć, ile osób pali, a ile osób umiera na raka płuc, możesz je policzyć, ale jeśli chcesz wiedzieć, czy palenie zwiększa ryzyko raka płuc, potrzebujesz wnioskowania statystycznego”.Zwróć uwagę, że powodem tego jest to, że prawdopodobnie chcesz wykorzystać te wyniki, aby porozmawiać o innej populacji w przyszłości, i używasz bieżącej populacji jako próbki populacji „wszystkich potencjalnych ludzi, którzy mogą istnieć”
Wrzlprmft
2020-07-23 13:05:59 UTC
view on stackexchange narkive permalink

Aby zilustrować moje uwagi, przyjmuję, że każdy został zapytany, czy woli Star Trek czy Doctor Who i musi wybrać jeden z nich (nie ma neutralnej opcja). Aby uprościć sprawę, załóżmy również, że dane ze spisu powszechnego są w rzeczywistości kompletne i dokładne (co rzadko się zdarza).

Jest kilka ważnych zastrzeżeń dotyczących Twojej sytuacji:

  1. Twoja populacja demograficzna prawie nigdy nie jest populacją statystyczną. W rzeczywistości nie przychodzi mi do głowy ani jeden przykład, w którym rozsądne byłoby zadawanie pytań, na które odpowiadają testy statystyczne, dotyczących populacji statystycznej, która jest populacją demograficzną.

    Załóżmy na przykład, że chcesz raz na zawsze rozstrzygnąć kwestię, czy Star Trek czy Doctor Who jest lepszy, i definiujesz lepiej poprzez preferencje wszystkich żyjących w czasie spisu. Okazuje się, że 1234567 osób woli Star Trek , a 1234569 - Doctor Who. Jeśli chcesz zaakceptować ten werdykt bez zmian, nie jest potrzebny żaden test statystyczny.

    Jeśli jednak chcesz się dowiedzieć, czy ta różnica odzwierciedla rzeczywiste preferencje, czy też można ją wyjaśnić zmuszając niezdecydowanych ludzi do dokonania przypadkowego wyboru. Na przykład możesz teraz zbadać model zerowy, który ludzie wybierają losowo między dwoma, i zobaczyć, jak ekstremalna jest różnica 2 dla wielkości populacji demograficznej. W takim przypadku populacja statystyczna nie jest populacją demograficzną, ale zagregowanym wynikiem nieskończonej liczby spisów powszechnych przeprowadzonych na bieżącej populacji demograficznej.

  2. Jeśli dysponujesz danymi na temat wielkości populacji w regionie administracyjnym o rozsądnej wielkości i w przypadku pytań, na które zwykle odpowiada ten region, należy skupić się na wielkości efektu, a nie na istotności.

    Na przykład nie ma praktycznych implikacji, czy Star Trek jest lepszy z niewielkim marginesem niż Doctor Who , ale chcesz zdecydować o praktycznych kwestiach, takich jak czas przeznaczyć na programy w telewizji krajowej. Jeśli 1234567 osób woli Star Trek , a 1234569 osób woli Doctor Who , zdecydowałbyś, aby przydzielić obu równą ilość czasu przed ekranem, niezależnie od tego, czy ta niewielka różnica jest statystycznie istotna, czy nie.

    Na marginesie, kiedy już zależy Ci na wielkości efektu, możesz chcieć poznać margines błędu w tym przypadku, a można to rzeczywiście określić za pomocą losowego próbkowania, o którym nawiązujesz w swoim pytaniu, a mianowicie ładowanie początkowe.

  3. Używanie populacji demograficznych prowadzi zwykle do pseudoreplikacji. Twój typowy test statystyczny zakłada nieskorelowane próbki. W niektórych przypadkach możesz uniknąć tego wymagania, jeśli masz dobre informacje na temat struktury korelacji i zbudujesz na jej podstawie model zerowy, ale to raczej wyjątek. Zamiast tego w przypadku mniejszych próbek unikasz prób skorelowanych, wyraźnie unikając próbkowania dwóch osób z tego samego gospodarstwa domowego lub podobnego. Kiedy twoja próbka obejmuje całą populację demograficzną, nie możesz tego zrobić, a zatem nieuchronnie masz korelacje. Jeśli mimo wszystko potraktujesz je jako niezależne próbki, popełnisz pseudoreplikację.

    W naszym przykładzie ludzie nie preferują niezależnie Star Trek lub Doctor Who , ale zamiast tego są pod wpływem rodziców, przyjaciół, partnerów itp. a ich losy są zgodne. Jeśli matriarcha jakiegoś popularnego klanu woli Doctor Who , wpłynie to na wiele innych ludzi, prowadząc do pseudoreplikacji. Lub, jeśli czterech fanów zginie w wypadku samochodowym w drodze na konwencję Star Trek , boom, pseudoreplikacja.

Aby spojrzeć na to z innej perspektywy, rozważmy inny przykład, który pozwala uniknąć drugiego i trzeciego problemu w jak największym stopniu i jest nieco bardziej praktyczny: Załóżmy, że zarządzasz rezerwatem dzikiej przyrody, w którym znajdują się jedyne pozostałe różowe słonie na świecie. Ponieważ wyróżniają się różowe słonie (zgadnij, dlaczego są zagrożone), możesz łatwo przeprowadzić ich spis. Zauważasz, że masz 50 samic i 42 samców i zastanawiasz się, czy to wskazuje na prawdziwy brak równowagi, czy też można to wytłumaczyć przypadkowymi fluktuacjami. Możesz przeprowadzić test statystyczny z hipotezą zerową, że płeć różowych słoni jest losowa (z równym prawdopodobieństwem) i nieskorelowana (np. Brak bliźniąt jednojajowych). Ale tutaj znowu, twoja statystyczna populacja nie jest twoją populacją ekologiczną, ale wszystkie różowe słonie kiedykolwiek w multiwersie, tj. Zawiera nieskończone hipotetyczne powtórzenia eksperymentu prowadzenia twojego rezerwatu dzikiej przyrody przez sto lat (szczegóły zależą od zakresu twojego pytania naukowego ).

Dziękuję za dodanie tego wyjaśnienia i perspektywy!Myślę, że to doprowadza do zamieszania w OP, dlaczego posiadanie „populacji” nie wystarczy.
Brzmi dobrze, ale - co z New Who vs. Old Who?
@HagenvonEitzen: To się komplikuje z powodu zależności wiekowej i nie jestem pewien, czy preferencje Elizabeth Mountbatten-Windsor są znane.
+1 za Twój punkt (1).Populacja statystyczna oznacza „populację wszystkich możliwych Amerykanów”, a nie tylko skończoną liczbę Amerykanów, którzy akurat istnieją (EDYCJA: ooops, założyłem, że OP pochodzi z USA. Teraz zdaj sobie sprawę, że tak naprawdę nigdy tego nie stwierdzili)
@MichaelReid W danych spisowych faktycznie masz skończoną liczbę Amerykanów, którzy akurat istnieją.Wnioskowanie statystyczne wymaga „populacji wszystkich możliwych Amerykanów”, ponieważ nie tylko podsumowuje dane, ale ma tendencję do wyciągania wniosków, które można zastosować do niewidocznych danych.Np .: ile osób _woli_ preferuje _Star Trek_?
zbicyclist
2020-07-22 00:07:32 UTC
view on stackexchange narkive permalink

Zabawne.Spędziłem lata wyjaśniając klientom, że w przypadkach z prawdziwymi informacjami ze spisu nie było żadnej wariancji, a zatem istotność statystyczna była bez znaczenia.

Przykład: jeśli mam dane ze 150 sklepów w sieci supermarketów, które mówią, że 15 000 skrzynek coli i 16 000 skrzynek pepsi zostało sprzedanych w ciągu tygodnia, możemy zdecydowanie powiedzieć, że sprzedano więcej skrzynek Pepsi.[Może wystąpić błąd pomiaru, ale nie błąd próbkowania.]

Ale, jak zauważa @Sergio w swojej odpowiedzi, możesz chcieć wywnioskować.Prostym przykładem może być: czy różnica między Pepsi a colą jest większa niż zazwyczaj?W tym celu należy spojrzeć na różnice w sprzedaży w porównaniu z różnicą w sprzedaży w poprzednich tygodniach i narysować przedział ufności lub przeprowadzić test statystyczny, aby sprawdzić, czy ta różnica była niezwykła.

Nadal występuje błąd, ale każdy błąd jest systematyczny.CLT zależy od tego, czy błąd jest w miarę niezależny, więc modelowanie błędu systematycznego jako Gaussa jest problematyczne.Czasami prawo Zipfa jest dokładniejsze.
Lukas McLengersdorff
2020-07-21 13:42:40 UTC
view on stackexchange narkive permalink

W typowych zastosowaniach testowania hipotez nie masz dostępu do całej populacji będącej przedmiotem zainteresowania, ale chcesz sformułować stwierdzenia dotyczące parametrów rządzących dystrybucją danych w populacji (średnia, wariancja, korelacja, ... .). Następnie pobierasz próbkę z populacji i oceniasz, czy próbka jest zgodna z hipotezą, że parametr populacji ma określoną z góry wartość (testowanie hipotez) lub szacujesz parametr na podstawie swojej próbki (szacowanie parametrów).

Jednak gdy naprawdę masz całą populację, jesteś w rzadkiej sytuacji, w której masz bezpośredni dostęp do prawdziwych parametrów populacji - na przykład średnia populacji jest po prostu średnią wszystkich wartości populacji. Wtedy nie musisz przeprowadzać żadnego dalszego testowania hipotez ani wnioskowania - parametr jest dokładnie tym, co masz.

Oczywiście sytuacje, w których naprawdę masz dane z całej populacji będącej przedmiotem zainteresowania, są wyjątkowo rzadkie i najczęściej ograniczone do przykładów z podręcznika.

David
2020-07-23 13:21:56 UTC
view on stackexchange narkive permalink

Załóżmy, że mierzysz wzrost w obecnej populacji świata i chcesz porównać wzrost mężczyzn i kobiet.

Aby sprawdzić hipotezę „średni wzrost mężczyzn obecnie żyjących jest wyższy niż dzisiejszych kobiet”, wystarczy zmierzyć każdego mężczyznę i kobietę na planecie i porównać wyniki.Jeśli wzrost mężczyzny jest średnio o 0,0000000000000001 cm większy, nawet przy odchyleniu standardowym trylionów razy większym, twoja hipoteza jest poprawna.

Jednak taki wniosek prawdopodobnie nie jest przydatny w praktyce.Ponieważ ludzie ciągle się rodzą i umierają, prawdopodobnie nie obchodzi cię obecna populacja, ale bardziej abstrakcyjna populacja „potencjalnie istniejących ludzi” lub „wszystkich ludzi w historii”, z której jako próbkę bierzesz ludzi żyjących dzisiaj.Tutaj potrzebujesz testowania hipotez.

LiKao
2020-07-23 13:36:43 UTC
view on stackexchange narkive permalink

Byłbym bardzo ostrożny w stosunku do każdego, kto twierdzi, że posiada wiedzę o całej populacji. Istnieje wiele nieporozumień co do tego, co ten termin oznacza w kontekście statystycznym, co prowadzi do tego, że ludzie twierdzą, że mają całą populację, podczas gdy w rzeczywistości nie. A jeśli znana jest cała populacja, wartość naukowa nie jest jasna.

Załóżmy, że chcesz się dowiedzieć, czy wyższe wykształcenie prowadzi do wyższych dochodów w Stanach Zjednoczonych. Otrzymujesz więc poziom wykształcenia i roczny dochód każdej osoby w USA w 2015 roku. To Twoja populacja demograficzna.

Ale tak nie jest. Dane pochodzą z 2015 roku, ale pytanie dotyczyło ogólnej relacji. Rzeczywista populacja to dane od każdej osoby w USA w każdym roku w przeszłości i dopiero w przyszłości. Nie ma sposobu, aby kiedykolwiek uzyskać dane dla tej statystycznej populacji.

Ponadto, jeśli spojrzysz na definicję teorii podaną np. Poppera, to teoria dotyczy przewidywania czegoś nieznanego. Oznacza to, że musisz uogólniać. Jeśli masz pełną populację, po prostu opisujesz tę populację. Może to mieć znaczenie w niektórych dziedzinach, ale w dziedzinach opartych na teorii nie ma dużej wartości.

W psychologii byli niektórzy badacze, którzy nadużywali tego nieporozumienia między populacją a próbą. Zdarzały się przypadki, w których naukowcy twierdzili, że ich próba jest rzeczywistą populacją, tj. Wyniki dotyczą tylko tych osób, które zostały wybrane, a zatem niepowodzenie powtórzenia wyników jest po prostu spowodowane wykorzystaniem innej populacji. Niezłe wyjście, ale naprawdę nie wiem, dlaczego powinienem czytać artykuł, który przedstawia tylko teorię o niewielkiej liczbie anonimowych ludzi, których prawdopodobnie nigdy nie spotkam i która może nie mieć zastosowania do nikogo innego.

markowitz
2020-08-27 19:08:00 UTC
view on stackexchange narkive permalink

Pozwólcie, że dodam coś do dobrych odpowiedzi powyżej. Niektóre z nich dotyczą głównie problemu rzetelności warunku „ma całą populację” jako akceptowanego i związanych z tym praktycznych punktów. Proponuję bardziej teoretyczną perspektywę, związaną z odpowiedzią Sergio, ale nie równą.

Jeśli powiesz, że „masz całą populację”, skupię się na przypadku, w którym populacja jest ograniczona. W dalszej części rozważam również przypadek nieskończonych danych. Inny aspekt wydaje mi się istotny. Dane dotyczą tylko jednej zmiennej (przypadek 1) lub gromadzonych jest kilka zmiennych (przypadek 2):

  1. Jeśli dane dotyczą jednej zmiennej, możesz doskonale obliczyć wszystkie momenty i wszystkie żądane wskaźniki. Ponadto wiesz / widzisz, wykreślając dokładny rozkład. Zauważ, że jeśli zmienna jest ciągła, skończone dane prawie nie pasują do żadnego rozkładu parametrycznego. Idealnie, jeśli dane są nieskończone, wszystkie nieprawidłowe rozkłady są zdecydowanie odrzucane przez jakiś test i tylko poprawny nie jest odrzucany (test może pozostać przydatny tylko dlatego, że można coś stracić przez wykreślenie). W tym przypadku parametry również można obliczyć doskonale. Testowanie hipotez o rzetelności pewnej wielkości statystycznej (jej właściwego znaczenia) staje się bezsensowne.

  2. W przypadku zbierania kilku zmiennych powyższe rozważania pozostają aktualne, ale należy dodać inne. W sytuacji czysto opisowej , takiej jak przypadek 1, należy zauważyć, że pojęcia wielowymiarowe, takie jak korelacje i wszelkie inne metryki zależności, stają się doskonale znane.

    Jednak nie podoba mi się opis w przypadku wielowymiarowym, ponieważ z mojego doświadczenia wynika, że ​​każda miara wieloczynnikowa, przede wszystkim regresja, prowadzi do myślenia o jakimś efekcie, który ma więcej wspólnego z przyczynowością i / lub przewidywanie niż opis (patrz: Regresja: przyczyna vs przewidywanie a opis). Jeśli chcesz użyć danych do odpowiedzi na pytania przyczynowe, fakt, że znasz całą populację (dokładny wspólny rozkład), niczego nie gwarantuje. Skutki przyczynowe, które możesz próbować zmierzyć za pomocą danych za pomocą regresji lub innych wskaźników, mogą być całkowicie błędne. Odchylenie standardowe tych efektów wynosi 0 $ , ale odchylenie może pozostać.

    Jeśli Twoim celem jest przewidywanie, pytanie staje się nieco bardziej skomplikowane. Jeśli populacja jest ograniczona, nic nie pozostaje do przewidzenia. Jeśli dane są nieskończone, nie możesz mieć ich wszystkich. Z czysto teoretycznego punktu widzenia, pozwól mi pozostać w przypadku regresji, możesz mieć nieskończoną ilość danych, które pozwolą ci obliczyć (więcej niż oszacować) parametry. Możesz więc przewidzieć nowe dane. Jednak to, jakie dane posiadasz, ma jeszcze znaczenie. Można pokazać, że jeśli mamy nieskończoną ilość danych, najlepszy model predykcyjny pokrywa się z modelem prawdziwym (proces generowania danych), jak w przypadku pytania przyczynowego (patrz odniesienie w poprzednim linku). Wtedy twój model prognozowania może być daleki od najlepszego. Podobnie jak poprzednio, odchylenie standardowe wynosi 0 $ , ale odchylenie może pozostać.

Dużo mówisz o przypadku nieskończonych danych.Jak to ma kiedykolwiek znaczenie?Oczywiście nie możesz zebrać nieskończonej liczby próbek.
Skupiłem się przede wszystkim na przypadku skończonym, potem także na przypadku nieskończonym;istnieje kilka przydatnych linków.Skoncentrowałem się na podstawach teoretycznych, nawet jeśli można znaleźć kilka propozycji praktycznych.„Jak to ma kiedykolwiek znaczenie?Oczywiście nie można zebrać nieskończonej ilości próbek ”. To zdanie brzmi tak:„ przypadek próbek o nieskończonym wymiarze nie jest istotny ”.Nie zgadzam się.Oczywiście w praktyce nigdy nie jesteśmy w stanie zebrać nieskończonej ilości danych.Jednak fakt ten wyklucza jakąkolwiek użyteczność rozumowania w przypadku próbek o nieskończonym wymiarze?
Nie. W rzeczywistości cała teoria asymptotyczna zajmuje się nimi.Wyniki asymptotyczne dają nam możliwość zrozumienia, co wydarzyło się w dużych próbkach.Inną kwestią jest stwierdzenie, jak duże powinny być te próbki w praktyce, aby wyjaśnić wiarygodność dowolnego konkretnego wyniku.Mówiąc bardziej ogólnie, pojęcie „nieskończoności”, nawet jeśli tylko teoretyczne, jest szeroko stosowane i bardzo przydatne w nauce.
W ogóle nie kwestionuję użyteczności pojęcia nieskończoności (w rzeczywistości napisałem [odpowiedź na ten temat] (https://math.stackexchange.com/a/1888971/65502)).Moim problemem jest raczej to, że twoja odpowiedź nie wyjaśnia, jak twoje spostrzeżenia dotyczące nieskończonego przypadku przekładają się na rzeczywistość bardzo dużych rozmiarów próbek.Co więcej, wydaje się, że niektóre z twoich spostrzeżeń nie przetrwały tego tłumaczenia.
Moja odpowiedź dotyczy punktów teoretycznych, analizowanych nieformalnie.W kilku słowach powiedziałem, że na poziomie populacji problem precyzji wyklucza, ale nie ma takiego problemu statystycznego.W szczególności w przypadku wielowymiarowych korelacji przypadków i innych miar zależności są doskonale precyzyjne, jednak często interesuje nas coś innego.
Powiedział to.Związki między teorią a rzeczywistością są prawie zawsze dyskusyjne.Dokładnie, to, co napisałem, wydaje ci się problematyczne?
Cóż, na początek nie jest jasne, co to za link, w szczególności dla kogoś, kto nie zagłębia się po kolana w ten temat, jak (prawdopodobnie) pytający.
Poruszył pan głównie problem definicyjny dotyczący populacji i spisu ludności oraz wiarygodności tych koncepcji.Jeśli pytający zaakceptował twoją odpowiedź, oznacza to, że był zadowolony.Dobrze dla ciebie.Skupiłem się przede wszystkim na tytule, a spis ludności i ludność uważałem za synonim.Mam nadzieję, że moja odpowiedź będzie przydatna dla pytającego, ale także dla każdej osoby, która przeczyta tytuł / pytanie.Powiedział, że twoje pytanie dotyczące linków stało się moim zdaniem zbyt ogólne, nawet bardziej tutaj w komentarzach.Skoncentrowana odpowiedź zależy od zakresu aker.
Powiedział to.Jeśli chodzi o powyższe pytanie, przypuszczam, że dane są ginen, skończone i wielowymiarowe.Tak więc momenty, poprawki, ecc można obliczyć precyzyjnie.Nie wymaga testu hipnozy.Pytania dotyczące prognoz znikają.Pytania o przyczynowość pozostają dyskusyjne.
Jeśli próbka jest bardzo duża, ale nie na poziomie populacji, przy zwykłych założeniach problemy z precyzją zwykle znikają.Prognozy i pytania przyczynowe pozostają dyskusyjne.Mówię tylko te rzeczy przy pytającym.


To pytanie i odpowiedź zostało automatycznie przetłumaczone z języka angielskiego.Oryginalna treść jest dostępna na stackexchange, za co dziękujemy za licencję cc by-sa 4.0, w ramach której jest rozpowszechniana.
Loading...