Pytanie:
Czy powinienem ufać wartości $ p $ w testach statystycznych?
Lucia
2019-10-09 23:33:40 UTC
view on stackexchange narkive permalink

Wdałem się w debatę z przełożonym na temat niedawnej pracy. Test korelacji na próbie 77 uczestników dał wartość p mniejszą niż 0,05. Po usunięciu kilku uczestników (ponieważ później dowiedzieliśmy się, że są nieletni), wartość p wynosi 0,06 (r = 0,21).

Następnie mój przełożony mówi: „powinieneś zgłosić, że nie ma korelacji między tymi dwiema zmiennymi, wartość p nie jest znacząca”.

Oto co odpowiadam: Nie ma sensu mówić ludziom, że wynik nie jest istotny w próbie 71 osób, ale jest istotny w próbie 77 osób. Podczas interpretacji trendu ważne jest powiązanie wyników z ustaleniami z literatury. Chociaż znajdujemy tutaj słaby trend, jest on zgodny z licznymi badaniami w literaturze, które wskazują na istotne korelacje tych dwóch zmiennych.

Oto odpowiedź mojego przełożonego: Powiedziałbym inaczej: jeśli nie ma już znaczenia w próbie 71, jest zbyt słaba, aby można ją było zgłosić. Jeśli jest silny sygnał, zobaczymy go również w mniejszej próbce.

Czy mam nie zgłaszać tego „nieistotnego” wyniku?

Jestem z twoim przełożonym
Dlaczego nie napisać planu analizy statystycznej, zanim przejrzysz dane?Oszczędza to dużo czasu i sprawia, że badania są o wiele bardziej uczciwe.
Nie rozumiem, dlaczego twój przełożony miałby oczekiwać, że wartość p nie powinna wzrosnąć, gdy usuniesz niektóre punkty.Jeśli usuniesz „właściwe” punkty, w niektórych przypadkach możesz dramatycznie przesunąć wartości p (być może nawet od znacznie poniżej 0,01 do znacznie powyżej 0,10 w niektórych przypadkach).Dlaczego dane zostały usunięte?
Bardziej interesujące niż to, czy wartość p wynosi 0,05 czy 0,06 (co nie robi dużej różnicy), jest rzeczywista wartość korelacji.„(brak) korelacji” nie oznacza „wartość p niższa (większa) niż 0,05”, ale czy | r |jest blisko jednego.
Korelacja wynosi 0,21, inne badania wykazują podobną korelację między tymi dwiema zmiennymi, w tym moje własne badanie na znacznie większym zbiorze danych.
Nie sądzę, by komentarze twojego profesora miały sens.Nawet jeśli weźmiemy p = 0,05 jako wartość magiczną (co, jak wiele osób wskazuje, nie jest), oznacza to po prostu, że 77 uczestników było _ ledwo_ wystarczające, aby uzyskać znaczący wynik (zakładając, że sześć osób, które usunąłeś, zostało wybranych losowo).Chociaż, jak podkreśla wiele osób ... dlaczego usunąłeś sześć osób?Jedynym usprawiedliwieniem, jakie przychodzi mi do głowy, jest to, że być może miałeś plan ataku z wyprzedzeniem i okazuje się, że z powodu jakiejś niegroźnej pomyłki sześć osób dostało się do zbioru danych, którego nie powinno.
@cdalitz Nie jestem pewien, skąd masz matematykę: $ | r |\ około 1 $ jest prawie * doskonałą * korelacją.$ | R |\ około 0 $ oznacza „brak korelacji”.
Wprawdzie nie jest to moja dziedzina badań, ale czy próbowałeś wizualizować symulowane korelacje $ \ rho = 0,21 $?Trudno o tym pisać.
Gdy korelacja wynosi $ r = 0,21 $, wartość p jest nieistotna (większa wartość tylko nieznacznie zwiększy przedział ufności).Niezależnie od wartości p oznacza to, że istnieje tylko bardzo słaba korelacja.Praktyczna zasada podawana w wielu podręcznikach do matematyki jest taka, że wartości $ | r |> 0,5 $ są uważane za „korelację”, a wartości $ | r |> 0,8 $ za „silną korelację”.Nadal nie rozumiem, dlaczego w ogóle bierzesz pod uwagę wartość p, ani dlaczego powinna ona mieć jakiekolwiek znaczenie w tym przypadku.
Osoby, które usunęliśmy, mają mniej niż 18 lat, więc nie mogą być uczestnikami badania, jak się później dowiedzieliśmy.Dla mnie podałbym, że wynik to p = 0,06 i powiedziałbym, że ten trend jest zgodny z wieloma badaniami, w których stwierdzono, że dwie zmienne są lekko skorelowane.Ale mój przełożony twierdzi, że „w przeciwieństwie do wyników wielu badań, okazuje się, że nie są one skorelowane”.Myślę, że to zły pomysł.
tym razem miałeś pecha, byłbym przerażony, gdyby prawdopodobieństwo jakiegoś zdarzenia wyniosło 0,5, a wszystkich 100 naukowców zgłosiło sukces, a 0 nie powiodło się ...
Osiem odpowiedzi:
mkt - Reinstate Monica
2019-10-09 23:51:45 UTC
view on stackexchange narkive permalink

Na potrzeby tej odpowiedzi założę, że wykluczenie tych kilku uczestników było w pełni uzasadnione, ale zgadzam się z Patrickiem, że jest to problem.


Nie ma znaczącej różnicy między p ~ 0,05 lub p = 0,06. Jedyna różnica polega na tym, że konwencja polega na traktowaniu tego pierwszego jako równoważnego „prawdzie”, a drugiego jako równoważnego „fałszowi”. Ta konwencja jest straszna i nieuzasadniona. Debata między tobą a twoim profesorem sprowadza się do tego, jak sformułować praktyczną zasadę radzenia sobie z arbitralnością granicy p = 0,05. W zdrowszym świecie nie poświęcalibyśmy tak dużej ilości zasobów na drobne wahania przykładowej statystyki.

Lub mówiąc bardziej kolorowo:

... z pewnością Bóg kocha 0,06 prawie tak samo jak 0,05. Czy można wątpić, że Bóg uważa siłę dowodów za lub względem wartości zerowej jako dość ciągła funkcja wielkości p? ”

-Rosnow, R.L. & Rosenthal, R. (1989). Procedury statystyczne i uzasadnienie wiedzy z zakresu nauk psychologicznych. amerykański Psycholog, 44, 1276-1284.

Więc śmiało i zgłoś, że p = 0,06. Sam numer jest w porządku, ważny jest sposób, w jaki jest później opisywany i interpretowany. Należy pamiętać, że „istotne” i „nieistotne” to określenia wprowadzające w błąd. Będziesz musiał wyjść poza nie, aby dokładnie opisać swoje wyniki.

Ponadto polecam przeczytanie odpowiedzi do Jakie jest znaczenie wartości p i wartości t w testach statystycznych?

Jakiej reguły decyzyjnej używasz, aby „traktować [pewną ilość] jako równoważną z wartością„ prawda ”, a [pewną ilość] jako równoważną z wartością„ fałsz ”?”Jeśli * nie * masz takiej reguły decyzyjnej, w jaki sposób możesz przedstawić dowody za lub przeciw jakimkolwiek twierdzeniom o prawdzie w naukach ścisłych?[Relevant] (https://stats.stackexchange.com/questions/204843/is-this-the-solution-to-the-p-value-problem)
@Alexis Ponieważ nie jest do końca jasne, czy sprzeciwiasz się mojej odpowiedzi, odpowiem przyszłym czytelnikom: (1) Gromadzenie dowodów za lub przeciw roszczeniu nie wymaga binarnej reguły decyzyjnej.Ciągła wartość p dostarcza (pewnych) dowodów - ale nie ma absolutnie żadnego powodu, aby twarda granica wynosiła 0,05.Większość bayesistów radzi sobie dobrze bez takiego progu.
(2) Poza matematyką nic nigdy nie jest „udowodnione”.Gromadzimy dowody za lub przeciw propozycjom.Dokładne opisanie tego jest brzydkie, więc domyślnie używamy języka, który ignoruje drobne szczegóły tego, co badanie faktycznie identyfikuje / ustala.Gdzieś w łańcuchu, zwykle z powodu złego nauczania, niuanse się gubią.Wkrada się zamieszanie. I znów kończymy z błędem „p <0,05 równa się prawdzie”.Zamiast tego musimy pamiętać, że żadne badanie nie ustala, co jest prawdziwe, a co fałszywe: po prostu dodaje dowody za lub przeciw twierdzeniom.Niezależnie od wyników liczy się stopień, w jakim ...
dodają dowody (za lub przeciw).Która jest funkcją * ciągłą *, a nie binarną.(3) Czasami potrzebujesz binarnej reguły decyzyjnej (np. Czy mam sprzedać obiekt A czy obiekt B?).Ale uważny analityk zawsze brał pod uwagę dodatkowe informacje, w tym koszty, korzyści i wcześniejsze informacje (i niekoniecznie w formalnym sensie bayesowskim).Fałszywe binarne przy p = 0,05 NIE jest jedynym sposobem na wykonanie binarnej reguły decyzyjnej.Ignoruje wiele cennych informacji.
Żadna ilość argumentów, że istnieją ciągłe miary dowodów (coś, z czym się nie zgadzam) nie stanowi uzasadnionego argumentu, że ** naukowcy (i ludzie w ogóle) również muszą mieć * reguły decyzyjne ***.„uważny analityk zawsze brał pod uwagę dodatkowe informacje, w tym koszty, korzyści i wcześniejsze informacje”. Moje pytanie pozostaje: stosować jaką regułę decyzyjną?
@Alexis Nie jestem pewien, czy cię rozumiem.Czy chcesz powiedzieć, że powinno istnieć uniwersalne kryterium / reguła decyzyjna?Jeśli tak, nie zgadzam się.Koszty i korzyści różnią się w zależności od okoliczności.Reguła decyzyjna powinna być dostosowana do aktualnego problemu.
Nie powiedziałem nic takiego o „kryterium uniwersalnym” (które jest nieszczerym odczytaniem testów hipotez: można do nich zastosować różne $ \ alpha $ i $ \ delta $, podobnie jak [TOST] (https: //stats.stackexchange.com / tags / tost / info), nie wspominając o różnych rodzajach statystyk testowych odpowiadających różnym rodzajom zmiennych, rozkładów i projektów badań).* Pytałem * o to, co proponujesz jako alternatywną formę reguły decyzyjnej, a ty nie zaproponowałeś żadnej.
@Alexis Myślę, że odpowiedziałem już w moim poprzednim komentarzu: „Koszty i korzyści różnią się w zależności od okoliczności. Reguła decyzyjna powinna być dostosowana do aktualnego problemu”.Nie kierowałbym się tą samą zasadą przy podejmowaniu decyzji o zmianie marki szczoteczek do zębów, jak przy podejmowaniu decyzji o amputacji kończyny.Twoje stanowisko w tej sprawie jest o wiele mniej jasne, ponieważ nie udało Ci się wyjaśnić, kiedy zostaniesz o to poproszony.
@Alexis I nie sądzę, żeby nieuczciwa lektura była z mojej strony.W odpowiedzi wyjaśniłem jasno, że problem, który mam, dotyczy niewłaściwego wykorzystania wartości p i testów hipotez.Zachęcałem PO do podania wyniku p = 0,06 i ostrożnej interpretacji, co oznacza wartość p.Nie powiedziałem im, aby całkowicie unikali wartości p (chociaż jest to rozsądne stanowisko).* Mam * problem z wykorzystaniem wartości p jako kryterium decyzji bez uwzględnienia innych ważnych czynników, co uważam za bardzo częsty problem.Mam nadzieję, że to wyjaśnia sprawę, chociaż wydaje się, że nie dojdziemy do porozumienia.
(+1), przychodzi na myśl cytat Gelmana „różnica między istotną a nieznaczną sama w sobie nie jest istotna statystycznie”.
Ben
2019-10-11 05:00:34 UTC
view on stackexchange narkive permalink

Twoje pytanie porusza bardzo wiele kwestii, dlatego postaram się udzielić odpowiedzi na każdy z poruszonych przez Ciebie problemów. Aby jasno sformułować niektóre z tych kwestii, należy na początku zauważyć, że wartość p jest ciągłą miarą dowodu przeciwko hipotezie zerowej (na korzyść podanej alternatywy), ale kiedy porównajcie to z określonym poziomem istotności, aby wyciągnąć wniosek o „istotności statystycznej”, dychotomizujemy tę ciągłą miarę dowodów na miarę binarną .

Nie ma sensu mówić ludziom, że wynik nie jest znaczący w próbie 71, ale jest znaczący w próbie 77.

Musisz zdecydować, która z tych dwóch jest w rzeczywistości odpowiednią próbką - tj. czy należy usunąć sześć punktów danych z danych. Z powodów wielokrotnie wyjaśnianych na tej stronie (np. tutaj i tutaj) złym pomysłem jest usuwanie „wartości odstających”, które nie są spowodowane nieprawidłowym zapisem obserwacji. Tak więc, jeśli nie masz powodu, aby sądzić, że tak jest, prawdopodobnie należy użyć wszystkich 77 punktów danych. W takim przypadku nie ma sensu mówić nic o wyselekcjonowanej podpróbce 71 danych punktów.

Zauważ, że problem nie ma nic wspólnego z kwestią istotności statystycznej. To ma sens, że wyniki różnych testów hipotez (np. Tego samego testu na różnych danych) mogą się różnić, więc nie ma powodu, aby uważać to za problematyczne, że w jednym przypadku istniałyby istotne statystycznie dowody na alternatywną hipotezę, ale nie w drugim. Jest to naturalna konsekwencja binarnego wyniku uzyskanego przez narysowanie linii „znaczenia” w ciągłej miary dowodów.

Podczas interpretacji trendu ważne jest, aby powiązać wyniki z ustaleniami z literatury. Chociaż znajdujemy tutaj słaby trend, jest on zgodny z licznymi badaniami w literaturze, które wskazują na istotne korelacje tych dwóch zmiennych.

Jeśli chcesz to zrobić, odpowiednim ćwiczeniem jest wykonanie metaanalizy w celu uwzględnienia wszystkich danych z literatury. Sam fakt, że istnieje inna literatura zawierająca inne dane / dowody, nie uzasadnia traktowania danych w tym artykule inaczej niż w innym przypadku. Przeprowadź analizę danych na podstawie danych z własnego artykułu. Jeśli obawiasz się, że Twój własny wynik jest odchyleniem od literatury, zwróć uwagę na te inne dowody. Następnie możesz przeprowadzić odpowiednią metaanalizę, w której uwzględnione są wszystkie dane (Twoja i inna literatura), lub przynajmniej powiadomić czytelnika o zakresie dostępnych danych.

Oto odpowiedź mojego przełożonego: sprzeciwiłbym się w inny sposób: jeśli nie ma już znaczenia w próbie 71, jest zbyt słaba, aby ją zgłosić. Jeśli jest silny sygnał, zobaczymy go również w mniejszej próbce. Czy mam nie zgłaszać tego „nieistotnego” wyniku?

Decyzja, aby nie raportować danych, ponieważ wyniki statystyczne różnią się od innych literatury, jest straszną, okropną praktyką , która jest statystycznie bankrutem. Istnieje mnóstwo literatury poświęconej teorii statystycznej, ostrzegającej przed problemem stronniczości publikacji, która pojawia się, gdy naukowcy pozwalają, aby wyniki ich testów statystycznych wpłynęły na ich decyzję dotyczącą zgłaszania / publikowania danych. Rzeczywiście, stronniczość publikacji spowodowana decyzjami o publikacji podejmowanymi na podstawie wartości p jest zmorą literatury naukowej. Jest to prawdopodobnie jeden z największych problemów w praktyce naukowej i akademickiej.

Niezależnie od tego, jak „słabe” są dowody uzasadniające hipotezę alternatywną, zebrane dane zawierają informacje, które należy zgłosić / opublikować.Dodaje 77 punktów danych do literatury, niezależnie od tego, co jest warte.Powinieneś zgłosić swoje dane i podać wartość p dla swojego testu.Jeśli nie stanowi to statystycznie istotnego dowodu badanego efektu, niech tak będzie.

(+1).Podejrzewam, że chciałeś utworzyć link do dwóch postów, kiedy pisałeś „(np. Tutaj i tutaj)”, ale zapomniałeś dodać hiperłącza?
@COOLSerdash: Dzięki, masz rację - zaktualizowano.
Patrick
2019-10-09 23:45:22 UTC
view on stackexchange narkive permalink

Ogólnie zmiana danych, które trafiły do ​​testu, unieważnia użycie testowania hipotez w celu znalezienia znaczących efektów. Jeśli zaczniesz edytować dane i ponownie uruchomisz test, aby zobaczyć, jakie zmiany możesz wymyślić prawie każdy wynik, jaki chcesz. Wyobraź sobie, co by się stało, gdybyś usunął 6 uczestników i dzięki temu twoje odkrycie było bardziej znaczące. Zdecydowanie polecam przeczytanie tego: http://www.stat.columbia.edu/~gelman/research/unpublished/p_hacking.pdf, ponieważ zawiera obszerną dyskusję na temat problemów, które mogą pojawić się podczas analizy decyzje są podejmowane po obejrzeniu danych i fakcie, że to unieważnia zwykłą interpretację wartości p.

Moje pytanie w tym przypadku jest następujące: Jaka jest motywacja usunięcia tych uczestników? Czy było to wyłącznie oparte na mierniku wyniku (tj. Tych 6 uczestników miało najsilniejszy efekt)? A może był jakiś powód nieodłącznie związany z tymi uczestnikami (nie wykonali poprawnie zadań, nie spełnili wymagań wstępnych itp.)?

Aby użyć wartości p do omówienia istotności, te decyzje powinny były zostać podjęte przed wykonaniem testu statystycznego, a nie po. Dlatego przedstawiłbym wyniki 77 uczestnikom, tak jak to zrobiliście, i zignorowałbym komentarze przełożonych.

Chcę tylko powtórzyć: to nieprawda, że ​​mniejsza próbka musi przynosić ten sam efekt, jeśli podejmujesz decyzje dotyczące włączenia / wykluczenia na podstawie danych.

Osoby, które usunęliśmy, mają mniej niż 18 lat, więc nie mogą być uczestnikami badania, jak się później dowiedzieliśmy.Dla mnie podałbym, że wynik to p = 0,06 i powiedziałbym, że ten trend jest zgodny z wieloma badaniami, w których stwierdzono, że dwie zmienne są istotnie skorelowane.Ale mój przełożony twierdzi, że „w przeciwieństwie do wyników wielu badań, okazuje się, że nie są one skorelowane”.Myślę, że to zły pomysł.
Zgadzam się z tobą i nie zgadzam się ze słowem „zaprzeczone” i tak bliską wartością p.„Sprzeczny” to mocne twierdzenie.Każde badanie, które prowadzisz indywidualnie, jest hałaśliwe i już widziałeś wpływ usunięcia kilku uczestników na wyniki.Jest to problem związany z podejmowaniem decyzji tak / nie przy jednej wartości odcięcia.Zgadzam się z odpowiedzią mkt poniżej, że powinieneś w pełni opisać swoje wyniki i wyjść poza język „znaczący lub nie”.
@Lucia Jeśli chcesz sprawdzić, czy twoje badanie jest sprzeczne z literaturą, chciałbyś sprawdzić, czy nachylenie między twoim X i Y różni się od nachylenia opisanego w literaturze, nie sprawdzaj, czy nachylenie jest istotne zarówno w twoim badaniu, jak iw literaturze.
@Lucia Bryan Krause porusza ważną kwestię, która odnosi się również do tego, co napisałem o wartościach p.To, czy wartość p wynosi 0,04 czy 0,06, NIE mówi, czy jest ona zgodna z poprzednimi badaniami, czy też im zaprzecza!Skorelowane / nieskorelowane traktuje tę sytuację jako binarną, gdy tak nie jest.Zdecydowanie polecam przeczytać więcej o tym, co dokładnie oznaczają wartości p;może pomóc uniknąć istotnych błędów statystycznych.
@Lucia to krytyczna informacja, która znacząco zmienia pytanie.Jeśli badana populacja * była niepoprawna *, należy zastosować wykluczenia.Jednak nadal oznacza to, że masz słabe badanie.Prawidłowa interpretacja to nie „dane nie są skorelowane”, ale raczej „nie udało nam się wykazać korelacji”.
@AdamO „nie udało nam się wykazać korelacji”.może być odczytane w niewłaściwy sposób, ponieważ „nie udało nam się wykazać korelacji (stąd są dodatkowe dowody na brak korelacji)”.Możliwe, że można to sformułować jako „nie udało nam się wykazać korelacji * powyżej poziomu x *” (gdzie „x” należy zastąpić wartością określoną dla eksperymentu, a może to oznaczać, że ta wartość jest zbyt wysoka, a nietak wpływowych danych, że publikacja pracy ma sens).
Sextus Empiricus
2019-10-11 03:02:32 UTC
view on stackexchange narkive permalink

Nie, nie ufaj wartości p.

1 Nie informuje, czy masz wpływ, czy nie.

  • Głównym problemem powinno być to, czy efekt (efekt rozmiar ) jest istotny, czy nie. Mówisz, że zmierzyłeś $ \ rho = 0,21 $ i że jest to ważne w Twojej dziedzinie. W takim razie powinieneś to zgłosić.

    Wartość p należy raczej postrzegać jako wskaźnik dokładności eksperymentu. Jeśli twój eksperyment nie jest dokładny, albo z powodu dużego szumu, albo z powodu małej wielkości próbki, to nawet przy braku efektu może być prawdopodobne zaobserwowanie efektu w szumie (wartość p określa, jakie jest prawdopodobieństwo).

    W twoim przypadku korelacja, wartość p jest często obliczana na podstawie statystyki $$ t = \ rho \ sqrt {\ frac {n-2} {1 - \ rho ^ 2}} $$ Który jest rozkładem t z $ \ nu = n-2 $ stopniami swobody, gdy pewne założenia a są prawidłowe (więcej o tym później).

    Oznacza to, że wartość p jest związana ze zmierzoną korelacją i wielkością próby. Zobaczmy, jak to wygląda:

    significance as a function of sample size and observed correlation

    Wykres pokazuje, jak istotność zależy zarówno od zmierzonej korelacji, jak i od wielkości próbki (linie są liniami konturowymi dla wartości p 0,001, 0,01, 0,02, 0,05, 0,1). Zwróć uwagę, że: dla tego samego mierzonego efektu (np. Korelacja 0,21) możesz mieć różne znaczenie w zależności od eksperymentu (wielkości próby). (więc jeśli istotność jest „niewystarczająca”, może zależeć od eksperymentu)

    Byłoby błędem powiedzieć, że nie ma żadnego efektu (podczas pomiaru $ \ rho = 0,21 $ ) po prostu ponieważ nie miałeś znaczenia powyżej jakiegoś arbitralnego poziomu. Zamiast tego należy stwierdzić, że może wystąpić efekt, ale znaczenie wskazuje, że eksperyment należy powtórzyć / dopracować (poprawić dokładność), aby być bardziej pewnym.

  • Korelacja to tylko jeden sposób wyrażenia efektu. Ogranicza się tylko do zależności liniowych. Możesz mieć silną (nieliniową) zależność między swoimi zmiennymi, ale nadal niską korelację (a jeśli odgrywa to rolę, to sprawia, że ​​masz jeszcze więcej powodów, aby mniej przejmować się wartością p)

    Zrób spisek, aby lepiej widzieć, co się dzieje. Zobacz więcej tutaj: Anscombe's kwartet

2 Podstawowe założenia obliczeń mogą być błędne.

  • Obliczenie wartości p korelacji jest niejednoznaczne. Istnieją różne sposoby. Kiedy używasz wspomnianej wcześniej statystyki t, zakładasz, że dwie zmienne są niezależnymi nieskorelowanymi zmiennymi o rozkładzie normalnym. Ale zamiast tego możesz mieć inną dystrybucję swoich danych (np. Niektóre szersze ogony). W takim przypadku metoda ładowania początkowego może być lepsza.

    Przykład. Niech twoje dane będą dwiema identycznymi, niezależnymi, rozproszonymi zmiennymi Bernoulliego (z $ p_ {succes} = 0,05 $ ). Zasymulujmy tę sytuację i zobaczmy, jak rozkładają się wartości p (powinien to być rozkład równomierny).

    p-values when distribution is Bernoulli instead of normal

    Te zmienne o rozkładzie Bernoulliego nie są czymś, do czego normalnie należałoby zastosować korelację i obliczenie wartości p. Jednak jest to prosty model dla przypadków, w których mamy dystrybucję ciągłą, czyli dystrybucję multimodalną.

    Możesz przeprowadzić podobne symulacje z różnymi zmiennymi. Ogólnie obserwowane wartości p zaniżają prawdziwe prawdopodobieństwo (powiedzmy, że wartość p poniżej x% będzie w rzeczywistości występować częściej niż x% przypadków). Twoja obliczona wartość p = 0,06 może więc niedoszacowywać prawdziwej wartości p (jeśli używasz rozkładu t, a założenia są nieprawidłowe).


Filozoficzne

Ponadto różnica między p = 0,05 a p = 0,06 nie jest zbyt istotna. Trudno jednak powiedzieć, przy jakiej wartości istnieje „granica” między tak / nie znaczącą. Jest to związane z paradoksem Sorites. Mój punkt widzenia jest taki, że uważanie, że istnieje jakaś granica, jest trochę fałszywą dychotomią. Pojęcie wartości p i znaczenia nie jest czarno-białe (a narzucone granice, które są nierealne, będą w praktyce bardzo arbitralne).

Ćwicz

  • Analiza mocy Zwykle unikasz tych problemów, obliczając wcześniej , jakiego rodzaju próbki potrzebujesz, aby móc dokładnie zmierzyć w zakresie oczekiwanego rozmiary efektów.

  • Dwustronne testy t. Oprócz testowania hipotezy zerowej (czy moje dane / eksperyment) korespondują z hipotezą zerową lub ją przeciwstawiają, można również rozważyć ocenę, czy dane / eksperyment odpowiadają hipotezie alternatywnej. Odbywa się to za pomocą dwustronnych testów t. Może się zdarzyć, że Twoje dane nie będą (znacząco) niezgodne z hipotezą zerową (brak efektu) ani z hipotezą alternatywną (pewien minimalny poziom efektu).

  • Najlepiej byłoby zgłaszać wszystkie swoje wartości. I to nie tylko te znaczące. (ale może masz na myśli „zgłaszanie wartości” coś w rodzaju „omawiaj wartość w tekście”)

Czy możesz wyjaśnić, co pokazują linie na twoim pierwszym wykresie?Nie jest dla mnie jasne, czy czytam twoją odpowiedź.
„W takim razie metoda bootstrap może być lepsza”, ach, zapomniałem wspomnieć, że już przeprowadziłem testy permutacyjne.
Widzę głos przeciw.Jestem gotów poprawić tę odpowiedź, gdy ktoś poda wskazówkę.
LSC
2019-10-23 05:37:09 UTC
view on stackexchange narkive permalink

Generalnie nie powinieneś decydować się na raportowanie wyników na podstawie ich znaczenia lub zgodności z celami.

Zgadzam się z Tobą, że wartość p wynosząca 0,06 nie różni się zbytnio od 0,04 (jak stwierdzili inni, wartość p jest ciągłym podsumowaniem tego, jakie są obserwowane dane ” zgodny "z określoną hipotezą zerową, a mniejsza wartość p oznacza niższą zgodność). Dlatego oba (0,04 vs 0,06) przekazują łagodne (bardzo łagodne w typowym badaniu obserwacyjnym) dowody zaprzeczające hipotezie zerowej, a próg alfa nie jest liczbą magiczną.

Po drugie, Twój doradca jest jednoznacznie niepoprawny w interpretacji „...” powinieneś zgłosić, że nie ma korelacji między tymi dwiema zmiennymi, wartość p nie jest znacząca. ”„ To jest błędem jest interpretowanie braku znaczenia jako „braku związku / korelacji”. Zobacz co najmniej punkt 6. Jest to elementarny błąd logiczny, który jest uogólniany jako „brak dowodów równa się dowodowi nieobecności”, o którym wiemy, że jest fałszywy z różnych powodów, z których jednym jest problem indukcji.

Najlepiej byłoby, gdyby Twój doradca przeczytał poniższe odniesienie.

https://link.springer.com/article/10.1007/s10654-016-0149-3#Sec2

AdamO
2019-10-11 03:21:11 UTC
view on stackexchange narkive permalink

EDIT: Ta odpowiedź zakłada, że ​​jak napisano, był to przykład ćwiczenia wykrywania danych. Jednak komentarze ujawniają znacznie inny scenariusz.

To jest przykład odwróconej siatki statystycznej Munchausena. Powstaje pytanie: ile przedmiotów muszę usunąć, zanim wynik nie będzie już statystycznie istotny ? A odpowiedź brzmi (jeśli mogę celowo usunąć obserwacje o dużym wpływie / dużej dźwigni) nie tak wiele! Tak powinno być, idealne badanie jest zasilane proporcjonalnie do jego wielkości efektu. Na przykład, jeśli chcę 90% mocy, aby odrzucić hipotezę zerową na poziomie 0,05, powinienem być bardzo zadowolony z obliczenia rozmiaru próby, jeśli po przeprowadzeniu mojej próby odrzucę zerową tylko na tym poziomie . Każda próbka jest mniejsza i nie mogę odrzucić wartości zerowej. Dowolna próbka w nadmiarze i wydałem zbyt dużo pieniędzy lub czasu na moje badanie.

Usunięcie obserwacji zmniejsza moc. To nie jest interesujące.

Odpowiedziałbym, że diagnostyka delecji jest przydatna do identyfikowania obserwacji o dużej dźwigni i dużym wpływie JEDNAK bez wcześniej zaplanowanej analizy w celu usunięcia tych obserwacji, wyniki tego są bez znaczenia.

cdalitz
2019-10-12 00:16:25 UTC
view on stackexchange narkive permalink

Czy mogę przeformułować Twoje pytanie jako „Czy powinienem podawać wartość p podczas szacowania korelacji”? Odpowiedziałbym na to pytanie „nie”: zamiast tego podaj przedział ufności dla zmierzonej korelacji!

Dzięki temu będzie jasne, czy Twoje wyniki są zgodne z wynikami przedstawionymi w literaturze (wystarczy sprawdzić, czy te wyniki mieszczą się w Twoim przedziale ufności). Z drugiej strony, jeśli wartość p dla hipotezy $ H_0: \, r = 0 $ wynosi 0,06, a wartości z innych badań są mniejsze niż 0,05, nie oznacza, że ​​Twój wynik jest sprzeczny z innymi badaniami.

Odnośnie uwagi twojego przełożonego: korelacja w twoim przypadku jest tak mała (0,21), że potrzebujesz dużej próby, aby uzyskać przedział ufności niezerowy. Zawsze można uczynić najmniejszą korelację „statystycznie istotną”, po prostu zwiększając wielkość próby, im mniejsza jest korelacja, tym jednak większa musi być wielkość próby, aby była „znacząca”. Dlatego nie podałbym wartości p, ale zmierzoną wartość z przedziałem ufności. Wydaje mi się, że twoje wyniki są zgodne z innymi badaniami, jeśli również wskazują one jedynie na słabą pozytywną korelację.

Podziękowania: nie jestem pierwszą osobą, która wydała tę rekomendację ;-)

JaeHyeok Shin
2019-10-12 05:22:31 UTC
view on stackexchange narkive permalink

Częściowo zgadzam się z twoim doradcą.Czasami nawet wyniki istotne statystycznie mogą nie być wcale istotne do przedstawienia.

Musisz się zastanowić, czy wielkość przykładowej korelacji jest wystarczająco duża, aby sformułować sensowne stwierdzenie.W skrajnym przypadku załóżmy, że prawdziwa korelacja w rzeczywistości wynosi 0,01.Jeśli masz wystarczająco dużych uczestników, nadal możesz uzyskać bardzo małą wartość p (ponieważ jest różna od zera!).Jednak w zależności od kontekstu korelacja 0,01 może nic nie znaczyć.W twoim przypadku prawdziwa korelacja może być różna od zera, ale nadal jest zbyt mała, aby wykryć ją w 71 próbkach.Myślę, że lepszym tematem do dyskusji z doradcą jest to, czy wielkość efektu jest wystarczająco duża, aby nie raportować, czy test jest istotny statystycznie.



To pytanie i odpowiedź zostało automatycznie przetłumaczone z języka angielskiego.Oryginalna treść jest dostępna na stackexchange, za co dziękujemy za licencję cc by-sa 4.0, w ramach której jest rozpowszechniana.
Loading...