Pytanie:
Czy nieistotność statystyczna jest śmiertelna?
tom russell
2014-06-02 00:46:45 UTC
view on stackexchange narkive permalink

Przepraszam, jeśli to pytanie zostało zadane śmiertelnie, ale jako niestatystyk naprawdę nie wiem, co jest ostateczne. Patrzę na próbę 30 000 osób, które były przedmiotem interwencji gospodarczej. Ta interwencja powoduje średni wzrost rocznego dochodu badanych o 2000 USD. Jednak wynik nie jest statystycznie istotny na zwykłych poziomach. Czy ze statystycznego punktu widzenia interwencja się nie powiodła, a jeśli nie, co dalej można zrobić?

Jak przetestowałeś wzrost pod kątem istotności? Czy użyto grupy kontrolnej?
Miłość - ścisłe trzymanie się ideałów metody naukowej zawartej w pytaniu. Kłamstwa, cholerne kłamstwa i statystyki, prawda? :RE
@NathanCooper: Bardziej jak ścisłe przestrzeganie konwencji statystycznie naiwnej praktyki naukowej. Jeśli winna jest statystyka, jej wina polega na dostarczaniu prostych metod, które są zbyt atrakcyjne nawet w nieodpowiednich okolicznościach, lub niedostatecznym podkreślaniu ich ograniczeń. (Prawdopodobieństwo, że winne są statystyki, jest dość niskie według IMO).
Pięć odpowiedzi:
heropup
2014-06-02 01:00:33 UTC
view on stackexchange narkive permalink

Statystyczna nieistotność nie oznacza, że ​​testowany efekt nie istnieje, ale raczej, że zaobserwowane dane nie dostarczają mocnych dowodów na istnienie tego efektu.

Na przykład, jeśli masz nieobciążoną sześciościenną kostkę, ale liczby na jej powierzchniach to {1,2,3,4,5,5} zamiast {1,2,3,4,5,6} i rzucasz nią tylko 3 razy, przy tak małej wielkości próbki może nie być oczywiste, że kostka dałaby więcej piątek niż jedności. Nie oznacza to, że kość nie różni się od zwykłej kostki (w końcu mamy tę korzyść, że ją sprawdzamy i wyraźnie widać, że jest inna) - może po prostu być tak, że musimy zebrać więcej danych o obserwowane zachowanie matrycy w celu wyciągnięcia statystycznie istotnego wniosku o wewnętrznych właściwościach matrycy.

Analogicznie może się zdarzyć, że nawet wielkość próbki 30000 może nie być wystarczająca do wykrycia różnicy w zachowaniu twoją populację pod dwoma zabiegami, ponieważ twój test statystyczny ma małą moc. A może prawda jest taka, że ​​średni wzrost, który obserwujesz, jest w rzeczywistości spowodowany przypadkowym przypadkiem i naprawdę nie ma żadnego efektu. Ponieważ nie określiłeś swojej tolerancji na błąd typu I, nie mogę o tym mówić.

Wniosek jest taki, że brak wykrycia znaczenia nie oznacza, że ​​nie ma żadnego efektu - oznacza to po prostu, że , przez przypadek lub brak mocy, dane dostarczają niewystarczających dowodów, aby twierdzić, że hipotetyczny efekt istnieje z dużym stopniem pewności.

Matt Krause
2014-06-02 03:06:08 UTC
view on stackexchange narkive permalink

Cóż, z pewnością nie jest to dobra wiadomość. Przepraszamy.

Twoje wyniki nie dostarczają żadnych dowodów na istnienie efektu. Efekt, oczywiście, może nadal istnieć: może być mniejszy lub bardziej zmienny niż się spodziewałeś, albo eksperyment był w jakiś sposób błędny i nie udało się go wykryć.

Więc co możesz teraz zrobić?

0) Sprawdź swoje dane . Upewnij się, że nic głupiego się nie wydarzyło. Brakujące wartości są czasami kodowane jako 0s / -1s / 99s, a te liczby oczywiście nie powinny być wprowadzane do analizy jako wartości rzeczywiste. Podobnie, jeśli losowo przydzielasz ludzi do leczenia / kontroli, upewnij się, że te grupy są rzeczywiście podobne. Ludzie są cały czas kąsani przez tego rodzaju błędy.

1) Wykonaj analizę mocy. Najlepiej byłoby, gdybyś ją wykonał przed rozpoczęciem projektu, ale wykonanie jej teraz nadal pomogą Ci określić, czy Twój eksperyment, tak jak został przeprowadzony, miałby rozsądną szansę na wykrycie oczekiwanego efektu. Jeśli nie (być może Twój wskaźnik rezygnacji / nieprzestrzegania był bardzo wysoki), możesz chcieć przeprowadzić większy eksperyment.

Nie należy dodawać tematów, przeprowadzać analizy i powtarzać, dopóki wynik nie stanie się znaczący, ale istnieje wiele strategii łagodzenia problemów związanych z wielokrotnym „spojrzeniem” na dane.

2) Przyjrzyj się podgrupom i zmiennym towarzyszącym. Być może proponowana przez Ciebie interwencja działa najlepiej w określonym regionie geograficznym, w przypadku młodszych rodzin lub w czymkolwiek innym. Ogólnie rzecz biorąc, najlepiej byłoby określić wszystkie te porównania z wyprzedzeniem, ponieważ wykorzystanie „stopni swobody eksperymentatora” może dramatycznie zwiększyć współczynnik fałszywie pozytywnych wyników.

To powiedziawszy, nie ma nic złego w patrzeniu per se . Wystarczy powiedzieć otwarcie, że są to analizy post-hoc / eksploracyjne i dostarczyć słabszych dowodów niż badanie jednoznacznie potwierdzające. Oczywiście bardzo pomaga, jeśli potrafisz zidentyfikować prawdopodobne powody, dla których podgrupy się różnią. Jeśli zauważysz niezwykle znaczący efekt na północy, ale nic na dotkniętym suszą, spustoszonym wojną Południu, jesteś w całkiem niezłej formie. Z drugiej strony byłbym o wiele bardziej sceptyczny co do twierdzenia, że ​​działa to na podgrupach osób urodzonych podczas pełni księżyca, ale tylko podczas przypływu :-)

Jeśli coś znajdziesz, możesz ulec pokusie natychmiastowego opublikowania. Wiele osób to robi, ale twój argument byłby znacznie silniejszy, gdybyś mógł go potwierdzić w drugiej próbie. W ramach kompromisu rozważ udostępnienie niektórych danych jako zestawu walidacyjnego; użyj niektórych danych do wyszukania zmiennych towarzyszących i zestawu walidacyjnego, aby potwierdzić ostateczny model.

3) Czy wynik zerowy może być pouczający? Jeśli poprzednie prace przyniosły podobne efekty, warto sprawdzić, czy zidentyfikujesz czynniki wyjaśniające, dlaczego nie powtórzyły się one w twojej populacji. Publikowanie wyników zerowych / niepowodzeń replikacji jest często trudne, ponieważ trzeba przekonać recenzentów, że eksperyment jest wystarczająco dobrze zaprojektowany i ma moc, aby wykryć pożądany efekt. Jednak mając n = 30 000 $, prawdopodobnie jesteś w całkiem niezłej formie na tym froncie.

Powodzenia!

2) Wydaje mi się, że ktoś mógłby tu chwycić niewłaściwy koniec drążka. Jeśli wybierasz się na wyprawę na ryby, tracisz prawie całą moc dowodową. Możliwe jest sprawdzenie podgrup w projekcie wstępnym, ale zazwyczaj jest wystarczająco dużo rozsądnie odrębnych grup, aby zapewnić fałszywy typ I w tego rodzaju analizie eksploracyjnej.
@NathanCooper, masz absolutną rację. Artykuł, z którym się łączyłem, opisuje, jak złe wyprawy wędkarskie mogą się skończyć (i jest to dość ponure) .Jednak po spędzeniu dużo czasu i pieniędzy na zbieraniu danych byłoby miło wyciągnąć * coś * z tego, nawet jeśli wstępna hipoteza, która musi zostać rygorystycznie potwierdzona. Jeśli uwzględnienie bardzo prawdopodobnych zmiennych towarzyszących daje duży efekt, może to być względnie przekonujące (ale tak, nadal wymaga wyraźnego potwierdzenia). Jeśli ktoś potrzebuje szalonej mieszanki wtrąceń i wykluczeń, aby nadać czemuś * tylko * znaczenie, to ... nie.
Odp. 1: wydaje się, że zalecasz analizę mocy post-hoc.Nie sądzę, żeby było to przydatne.Podoba mi się ten artykuł @rvl na ten temat: http://www.stat.uiowa.edu/files/stat/techrep/tr378.pdf
Miałem na celu coś nieco innego.Jednym z problemów związanych z analizą mocy post-hoc jest to, że używają one * obserwowanego * rozmiaru efektu (który już wiemy, że jest mały lub nie byłoby nas tutaj).Jednak podłączenie * oczekiwanej * wielkości efektu do analizy mocy i sprawdzenie, czy eksperyment - jako przebieg - nie jest całkowicie szalone, mógł go wykryć.Być może otrzymałeś znacznie mniej danych niż w swoim początkowym planie (badani często rezygnują z eksperymentów, pula tematów może być inna niż oczekiwano, itp.).Zgadzam się, że najlepiej byłoby przeprowadzić analizę mocy wcześniej.
Nick Stauner
2014-06-02 09:10:50 UTC
view on stackexchange narkive permalink

Jeśli chodzi o pytanie tytułowe: kategorycznie nie. W twoim przypadku za mało informacji, stąd mój komentarz i głos przeciw. Ponadto IMO, pytania, które łączą znaczenie statystyczne i praktyczne, zostały tutaj omówione prawie na śmierć i życie, a ty nie powiedziałeś wystarczająco dużo, aby Twoje pytanie było wyjątkowe. Proszę edytować; Cofnę mój głos przeciw, jeśli zobaczę poprawę (jest teraz zablokowany) i prawdopodobnie zagłosuję za, jeśli jest znaczący. Twoje pytanie dotyczy powszechnego, ważnego błędnego przekonania, które zasługuje na przejście przez resztę drogi do śmierci, ale w obecnej sytuacji trudno powiedzieć coś nowego o swojej sytuacji, co uczyniłoby z niej przydatny przykład.

Czy ze statystycznego punktu widzenia interwencja się nie powiodła, a jeśli nie, co dalej można zrobić?

Jeszcze raz, co zrobiłeś do tej pory? Jest również całkiem możliwe, że twoja analiza nie powiodła się, pożyczając twój termin (IMO, „nieudane” jest wyraźnie zbyt surowe w obu przypadkach). Dlatego zapytałem o twój test. Istnieje wiele kontrowersji związanych z opcjami analizy przed rozpoczęciem leczenia, a losowe próbkowanie lub jego brak ma znaczenie dla wyboru opcji analitycznych (patrz „ Najlepsze praktyki podczas analizowania projektów kontrolno-kontrolnych przed leczeniem”) . Dlatego zapytałem o grupę kontrolną.

Jeśli twój wybór testu można poprawić, zrób to (oczywiście). Oprócz sprawdzenia swoich danych (zgodnie z @MattKrause mądrze zasugerował), sprawdź założenia testu. W typowych projektach pre-post zaangażowanych jest sporo osób i są one często naruszane.

  • Rozkłady normalne są prawdopodobnie kiepskimi modelami, szczególnie w przypadku wyników zmian i danych finansowych. Rozważ analizy nieparametryczne.
  • Heteroskedastyczność jest powszechna, zwłaszcza bez losowej selekcji lub z częściowo stochastyczną interwencją. Niektóre testy są na to bardziej wrażliwe niż inne - zwłaszcza te konwencjonalne.
  • Konwencjonalna ANCOVA zakłada brak interakcji między interwencjami a zmiennymi towarzyszącymi. Jeśli dochód bazowy wpływa na wykonalność interwencji, prawdopodobnie powinieneś zamiast tego zastosować regresję moderowaną $ (\ text {dochód końcowy = dochód bazowy + interwencja? + Interakcja + błąd} $), zakładając, że masz grupę kontrolną. Jeśli nie, czy masz więcej niż 2 razy?

Jakie inne informacje o swoich osobach posiadasz? Eksploracja zmiennych towarzyszących i moderatorów to dobry sposób na zmniejszenie ilości statystycznego „szumu” (błędu) „sygnał” (efekt) interwencji musi przytłoczyć, aby test „wykrył” go (wspiera odrzucenie wartości zerowej). Jeśli potrafisz wyjaśnić wiele wariancji środkami innymi niż twoja interwencja lub wyjaśnić, dlaczego twoja interwencja nie wpływa na wszystkich w równym stopniu, możesz lepiej zrozumieć, jak duży jest naprawdę efekt twojej interwencji, a wszystko inne jest równe - co rzadko się zdarza. domyślny stan natury. Wydaje mi się, że był to duch sugestii Matta nr 2.

Jeśli chodzi o jego zastrzeżenie, nie bój się badać zmiennych towarzyszących i moderatorów, których wcześniej nie określiłeś; po prostu przyjmij eksploracyjny sposób myślenia i wyraźnie potwierdź to epistemologiczne przejście w każdym opublikowanym raporcie. Kluczową kwestią, którą należy powtarzać o znaczeniu statystycznym i praktycznym, jest to, że ich nakładanie się jest na ogół ograniczone. Duża część praktycznego znaczenia statystycznej istotności leży w tym, co zamierzasz z tym zrobić. Jeśli szukasz dowodów na poparcie dalszych badań (np. Na grant badawczy), może wystarczyć odrzucenie hipotez eksploracyjnych. AFAIK, jest to jedyny rodzaj praktycznego znaczenia, które domyślnie ma implikować statystyczna istotność, i historycznie wyjaśnia wybór terminologii: wystarczająco znaczące , aby uzasadnić dalsze badania .

Jeśli szukasz statystycznego punktu widzenia na temat tego, czy Twoja interwencja jest warta zachodu, prawdopodobnie pytasz w niewłaściwy sposób. Znaczenie statystyczne nie ma na celu samo w sobie odpowiedzi na to pytanie; reprezentuje tylko bezpośrednio odpowiedź na bardzo konkretne pytanie dotyczące hipotezy zerowej. Przypuszczam, że sprowadza się to do innej sugestii: sprawdź swoją hipotezę zerową. Zwykle domyślnie stwierdza, że ​​efekt obserwowany w twojej próbce jest całkowicie spowodowany błędem próbkowania (tj. Efekt interwencji = 0). Czy naprawdę jesteś zainteresowany jakąkolwiek zmianą? Jak spójna jest potrzeba, aby uzasadnić interwencję? Te pytania częściowo decydują o odpowiedniej wartości zerowej; musisz na nie odpowiedzieć.

W testach potwierdzających musisz odpowiedzieć z wyprzedzeniem. Ponieważ już przeprowadziłeś test, wszelkie nowe testy tego samego rodzaju z różnymi hipotezami zerowymi, ale z tą samą próbką, byłyby eksploracyjne. O ile nie możesz pobrać kolejnej próbki, prawdopodobnie najlepiej byłoby potraktować również inne rodzaje testów jako eksploracyjne. Ścisły sens testowania hipotez potwierdzających jest szczególnie rygorystyczny w odniesieniu do reguły „bez podglądania”; IMO, jest to słabość całego paradygmatu testowania hipotez. ODPOWIEDŹ, analiza bayesowska może być nieco mniej rygorystyczna w tym zakresie i może przynieść Ci korzyści, szczególnie jeśli możesz zebrać więcej danych, ponieważ Twój bieżący wynik może pomóc w określeniu poprzedniego rozkładu prawdopodobieństwa.

Innym sposobem podejścia do problemu jest skupienie się na wielkości efektu i przedziale ufności. 2 000 $ to zmiana w pożądanym kierunku, prawda? Jeśli wyniki twojego testu oznaczały to, co myślę, że myślisz, że oznaczały, to istnieje większa niż 5% szansa, że ​​znajdziesz negatywną zmianę, jeśli powtórzysz badanie, zakładając, że interwencja nie przyniosła efektu. Jeśli Twoja inwestycja przyniosła jakikolwiek pozytywny efekt, prawdopodobieństwo jest niższe niż wartość p . Jeśli zainwestowałeś wystarczająco dużo w perspektywę leczenia, może powinieneś powtórzyć badanie. Ponownie, wiesz lepiej ode mnie, co jeszcze wpływa na tę decyzję.


P.S. Pomimo mojego wstępu udało mi się wiele powiedzieć na ten „pół-martwy” temat. Mam nadzieję, że dostarczyłem przydatne podsumowanie pomysłów innych niż te, które były zawarte w poprzednich odpowiedziach, ale nie zdziwiłbym się, gdyby wiele z nich nie było dla ciebie zbyt przydatne. Dużym powodem, dla którego chciałem uzyskać więcej informacji, jest to, że dobrze odpowiedzieć na niejasne pytanie praktycznie wymaga uwzględnienia wielu niepotrzebnych podstaw, co jest trochę stratą czasu. Niemniej jednak, jeśli zaszczycisz nas zmianą, prawdopodobnie podbiję to, co już nie ma zastosowania, i mogę rozwinąć, co nadal ma zastosowanie. Z napływających opinii jasno wynika, że ​​pytanie to rezonuje z publicznością, więc może stać się bardzo użytecznym pytaniem przy odrobinie pracy.

+1 za omówienie wagi praktycznej i statystycznej istotności (i dzięki za uwagi / opracowania!)
Myślę, że powodem, dla którego to pytanie zadaje się na śmierć, jest to, że dla laika po prostu nie ma jednego zdania na wynos. Jest to bardzo denerwujące, ponieważ jeśli interwencja jest, powiedzmy, nowym lekiem, wiedza o jego skuteczności jest dosłownie kwestią życia i śmierci.
@tomrussell: jednozdaniowe wnioski ... Na pytanie tytułowe: nie, nieistotność statystyczna może z łatwością oznaczać brak kontroli nad innymi przytłaczającymi źródłami błędów, a nie wniosek o zerowym efekcie. W kwestii niepowodzenia: nie, ze statystycznego punktu widzenia badanie jest niejednoznaczne. Statystyki mogą wyciągać wnioski w jednym zdaniu w aplikacjach bardziej pouczające, niż byłyby w innym przypadku, ale odpowiednia praktyka statystyczna z pewnością wymaga więcej cierpliwości, aby zrozumieć. Osoby bez uwagi na kilka zdań powinny rozważyć etykę dezinformacji.
CoolBuffScienceDude
2015-08-20 19:26:22 UTC
view on stackexchange narkive permalink

Jako badacz bayesowski często interpretuję eksperymenty jako pozytywny dowód hipotezy zerowej. Chciałbym zapytać o następujące rzeczy:

  1. To średnia różnica \ 2000 $, ale co to jest w kategoriach standaryzowanej różnicy średniej?
  2. Jak duża (standardowa ) średnia różnica, jaką spodziewałbyś się zaobserwować, gdyby ta interwencja zadziałała?
  3. Jak dokładne są twoje szacunki? Jeśli oszacowanie wynosi + \ 2000 USD +/- \ 20 000 USD, to niewiele się nauczyłeś - być może jest zbyt duża zmienność, aby wiedzieć, czy Twoja interwencja zadziałała.
  4. Teraz, gdy zaobserwowałeś ten pozornie zerowy efekt w całkiem niezła próbka licząca 30 000, czy może nadszedł czas, aby argumentować, że wiesz, że prawdopodobieństwo skuteczności interwencji jest mniejsze?

Oczywiście istnieje wiele rozważań. Jeśli patrzysz na p = 0,02, gdy tradycyjnym punktem odcięcia jest 0,01, głupotą byłoby wyciąganie wniosku, że hipoteza zerowa jest prawdziwa, ponieważ dane są prawdopodobnie dość prawdopodobne w ramach obu hipotez.

Dlatego proponuję zajrzeć na stronę internetową Zoltana Dienesa i jego kalkulator współczynnika Bayesa. Określając oszacowanie parametru, jego precyzję i prawdopodobny zakres wartości parametrów, jeśli interwencja zadziałała, można uzyskać współczynnik Bayesa, który mówi, czy jest to dowód, że interwencja działa, czy nie, lub czy nie ma na to żadnego dowodu. sposób lub w inny sposób.

Oczywiście, odpowiedzi innych komentujących też są ważne: sprawdź swój model, sprawdź swoje dane itp., aby upewnić się, że oszacowane parametry są odpowiednie.

Aksakal
2015-08-20 20:04:49 UTC
view on stackexchange narkive permalink

Tak, to śmiertelne dla interwencji ekonomicznej. Ktokolwiek zademonstrujesz swoje wyniki, przyjrzy się ich znaczeniu i zadeklaruje, że interwencja nie zadziałała.

Pod warunkiem, że poprawnie przetestowano znaczenie. Na przykład próbki z interwencją lub bez interwencji są podobne w rozsądny sposób lub że różnice były kontrolowane itp. Istnieje wiele rodzajów uprzedzeń, które należy wprowadzić nieumyślnie w te eksperymenty, więc musisz jakoś je uwzględnić.



To pytanie i odpowiedź zostało automatycznie przetłumaczone z języka angielskiego.Oryginalna treść jest dostępna na stackexchange, za co dziękujemy za licencję cc by-sa 3.0, w ramach której jest rozpowszechniana.
Loading...