Pytanie:
Jak nazywa się ten błąd statystyczny?
thanby
2015-09-03 00:31:49 UTC
view on stackexchange narkive permalink

Ktoś dzisiaj opowiedział mi anegdotę, który próbował udowodnić pewne kwestie dotyczące bezpieczeństwa. Powiedzieli: „50 osób mieszkało w [obszarze a] w ciągu ostatnich dwóch lat jednego roku (najwyraźniej źle zapamiętałem rozmowę) i nie było żadnych incydentów, dlatego obszar jest bezpieczny dla większej liczby osób. ”

[obszar a] tak się składa, że ​​rząd uważa za strefę wysokiego ryzyka, z podwyższonym zagrożeniem dla bezpieczeństwa osobistego (szczególnie śmierci). Wiem, że rozumowanie tej osoby jest błędne, ale chciałbym poznać dokładną nazwę i wyjaśnienie tej usterki, ponieważ uważam, że jest to dość powszechne.

Widzę dwa główne czynniki przyczyniające się do błędu:

  • Mały rozmiar próbki
  • Ryzyko jest mocno obciążone po stronie „śmierci”, nie jest to zwiększone ryzyko przecięcia papieru

Jak mógłbym wskazać tę usterkę, mimo że osoba ma techniczną rację mówiąc „Nie było żadnych incydentów”?

Edytuj dla jasności: To [obszar a] jest odpowiednikiem budynku i jest zajmowany przez coś więcej niż tylko ten zestaw próbek. Obszar znajduje się w większym regionie, w którym istnieje podwyższone ryzyko obrażeń lub śmierci, a obszar ten nie zapewnia specjalnej ochrony przed nim. Incydenty ryzyka są rzadkie, ale z pewnością wyższe niż współczynnik tła i występują w tym większym regionie.

Brzmi jak prawo małych liczb http://pirate.shu.edu/~hovancjo/exp_read/tversky.htm
Nie widzę żadnego błędu * per se *: wydaje się, że jest to dobrze uzasadniona próba uzasadnienia danymi, aczkolwiek być może z niewielkim zestawem danych (co samo w sobie nie jest błędem).Ale czy te 50 osób to tylko te, które Twój rozmówca zna, czy też jest to pełny spis wszystkich ludzi mieszkających w okolicy?
Tylko te, które akurat zna, w znacznie większym regionie, gdzie zdarzają się incydenty.
Z tego co wiem, w [obszarze a] zdarzają się inne incydenty, które po prostu nie mają wpływu na ten zestaw próbek.
Nazywam ten błąd „nieprzekonującym błędem argumentacji”.Argument jest zbyt niejasny, aby był błędny.To po prostu nie jest przekonujące.
Właśnie "nieprzekonujący argument" jest powodem, dla którego go tu przyniosłem :) Mam nadzieję, że będzie do tego bardziej naukowa nazwa / wyjaśnienie.
To przypomina mi żart.„Argument” wyimaginowanego przestępcy w sądzie brzmi: „Mogę sprowadzić 50 świadków, którzy nie widzieli tego, co według ciebie zrobiłem”.
@thanby: Studiowałem matematykę i nigdy w pełni nie rozumiałem potrzeby taksonomii błędnych argumentów.To wynika lub nie ;-) Ale jasne, jeśli wiele osób popełnia dokładnie ten sam błąd, to powinno być dla niego nazwa, niezależnie od tego, czy jest to „odwracanie znaku podczas kopiowania”, czy „anegdota”.
Nazwałbym to po prostu „nieprawidłowym próbkowaniem”.... Lub „W ten sposób otrzymaliśmy korelację„ Cholerne kłamstwa i statystyki ””.
Powiązane ELU: [przekonanie, że to się nie wydarzy, ponieważ nigdy się nie wydarzyło?] (Http://english.stackexchange.com/questions/145403/is-there-are-term-for-when-you-believe-that-because-something-hasnt-sie-i) * fałszywa analogia / uogólnienie *
Zobacz także [wiki / Faulty_generalization] (https://en.wikipedia.org/wiki/Faulty_generalization) * błąd indukcji wadliwej *
Obowiązkowe odniesienie do xkcd: [what-if no 27] (https://what-if.xkcd.com/27/).Czy wiesz, że tylko 93% ludzi, którzy kiedykolwiek żyli, faktycznie zmarło?To oznacza, że istnieje 7% szans na bycie nieśmiertelnym, prawda ...?Jeszcze lepiej, jeśli jesteś członkiem The Beatles - tylko 50% z nich zmarło ...
Musisz dokładniej określić, jakie jest niebezpieczeństwo, ponieważ w tej chwili nie jest nawet jasne, dlaczego argument jest błędny.Na przykład, jeśli zagrożeniem są katastrofy (np. Trzęsienia ziemi), argument jest błędny, ponieważ katastrofy zdarzają się rzadziej niż co dwa lata.Jeśli zagrożeniem jest zanieczyszczenie, które powoduje np. Raka, to argument jest błędny, ponieważ dwa lata nie są wystarczająco długie, aby powstały nowotwory.Z drugiej strony, jeśli ryzyko jest takie, jak zabijanie ludzi przez niedźwiedzie, to żaden incydent w ciągu dwóch lat nie jest całkiem dobrym dowodem na to, że miejsce to jest bezpieczne.
Nate Silver podkreśla to w swojej książce „Sygnał i hałas”.Jeśli w przeszłości na danym obszarze dochodziło do trzęsienia ziemi średnio raz na 35 lat, ale nie miało go ono od 40, nie oznacza to, że stanie się to jutro lub nie, ani nie zmieni to statystyki.Jak zauważyło wielu innych.
Ciekawe, czy chodzi o C8
O ile wiem, jest to po prostu stary non sequitur: jego wniosek nie wynika logicznie z jego danych.
@DavidRicherby Ryzyko jest bliższe „zabijaniu ludzi przez niedźwiedzie”, aw większym regionie zdarza się to kilka razy w roku, po prostu nie zdarzyło się to na tym małym obszarze.Zgodnie z piękną logiką xkcd, którą zauważył AndyT, musi to oznaczać, że każdy mieszkaniec tego obszaru jest nieśmiertelny.
Osiem odpowiedzi:
Greg Snow
2015-09-03 01:18:45 UTC
view on stackexchange narkive permalink

Nie mam konkretnej nazwy dla błędu, ale tutaj jest odniesienie, które moim zdaniem jest istotne (wzdłuż linii prawa małych liczb):

Najbardziej niebezpieczne równanie

Również praktyczna reguła statystyczna (patrz sekcja 2.9) mówi, że przybliżony 95-procentowy przedział ufności dla wskaźnika zachorowalności z 2 lat bez żadnego w ciągu 2 lat 0 do $ \ frac {3} {50} $, więc częstość występowania może sięgać nawet 6%. Jeśli więc przeniosłeś kolejne 1000 osób, nie byłoby zaskoczeniem, gdyby w ciągu najbliższych 2 lat zobaczył 60 incydentów.

Myśląc o tym więcej, jeśli mały obszar został wybrany z powodu braku incydentów na większym obszarze byłaby to odmiana błędu Texas Sharpshooter.

W przypadku, gdy łącze „Najbardziej niebezpieczne równanie” zostanie wyłączone, stwierdza się, że małe próbki wykazują większą zmienność, więc istnieje większe prawdopodobieństwo uzyskania bardziej ekstremalnego wyniku („bardzo bezpieczny” lub „bardzo niebezpieczny”), patrząc tylko na mały obszar.Jestem pewien, że powinno być jakaś nazwa tego zjawiska, ale nie mogę o tym myśleć.
Wygląda na to, że niektórzy nazywają to błędem rozmiaru próbki lub błędem małej próbki: http://www.oxfordreference.com/view/10.1093/oi/authority.20110803100439475
Warto również zwrócić uwagę, że jest to podstawa dla [wykresów lejkowych] (https://en.wikipedia.org/wiki/Funnel_plot), które pokazują zwiększoną zmienność w mniejszych próbkach.
Co dziwne, gdy zapytano go o ten temat, osoba odpowiedziała, że [obszar a] jest bezpieczniejszy niż [obszar b] (który znajduje się w niewielkiej odległości), ponieważ [obszar b] faktycznie miał dość duży incydent w ciągu ostatniej dekady, więc myślę, żeTexas Sharpshooter Fallacy ma pewne zastosowanie, chociaż nie był to ich pierwotny argument
wonder
2015-09-03 05:37:14 UTC
view on stackexchange narkive permalink

Brzmi to również jak przypowieść o indyku dziękczynnym:

http://www.businessinsider.com/nassim-talebs-black-swan-thanksgiving-turkey-2014-11

Każdego ranka rolnik dobrze karmi indyka. Po 1000 dniach indyk twierdzi, że rolnik jest życzliwy i wzór będzie kontynuowany. Ale dzień 1001 to Święto Dziękczynienia ...

(Uwaga dla czytelników na całym świecie: Święto Dziękczynienia to święto w USA, w które zwyczajowo je się indyka.)

Czy możesz wyjaśnić „przypowieść o indyku dziękczynnym” (np. Na wypadek, gdyby link zniknął)?
Ten argument „czarnego łabędzia” może być najlepszym przeciwwagą dla założenia o bezpieczeństwie, ponieważ, jak opisuje Nassim, jeden incydent zagroziłby całemu założeniu (co jest dość dużą sprawą, gdy mówisz o życiu ludzkim).
Hugh
2015-09-03 07:19:45 UTC
view on stackexchange narkive permalink

To nie jest błąd, ale raczej Problem indukcji, spopularyzowany przez Davida Hume'a.

NoAnswer
2015-09-03 17:18:36 UTC
view on stackexchange narkive permalink

Ogólny przypadek błędu ocalałych:

Patrzenie tylko na / pod kątem rzeczy, które nie zawiodły, wypacza twoją percepcję. Może to doprowadzić do nieprzetestowanego, a tym samym nietolerancyjnego zachowania.

Typowym przykładem jest obserwowanie samolotów powracających z walki powietrznej: „Czy musisz zwiększyć pancerz w miejscach, w których uderzono wracające samoloty?” Podobno jest to miejsce, w którym samoloty prawdopodobnie zostaną trafione .

Jednak odpowiedź brzmi sprzecznie z intuicją: „Nie, ponieważ to jest to miejsce, w którym samoloty prawdopodobnie zostaną trafione i przeżyj ”. Tak więc trafienia tam są i tak do przeżycia.

Osiągasz realne rezultaty, kiedy zwiększasz zbroję w miejscach, w których „ocalali” nie zostali trafieni, ponieważ to tam zostali trafieni „ci, którzy nie przeżyli”.

W twoim przypadku (liczba pojedyncza):

Pod warunkiem wstępnym przeniesienia pojedynczej osoby do obszaru, w którym występują zdarzenia prowadzące do śmierci. Czy muszę przenieść się do podobszaru, który nie zostałeś uderzony przez incydent?

Nie, w przypadku tych podobszarów po prostu nie masz rozstrzygających danych.

Zamiast tego musisz przenieść się do podobszaru, w którym incydenty zdarzają się, ale nie prowadzą do śmierci. Celem nie jest brak incydentu, ale przetrwanie go, na wypadek, gdyby tak się stało, prawda?

Jeśli nie chcesz, aby incydent się wydarzył, nie powinieneś przenosić się na większy obszar w pierwszej miejsce!

W Twoim przypadku (liczba mnoga):

Jeśli chcesz przenieść statystycznie istotną liczbę osób do obszaru, w którym można przeżyć incydenty, musisz najpierw sprawdzić, czy powodem, dla którego można przeżyć incydenty, jest niska gęstość zaludnienia na wspomnianym obszarze.

Jeśli incydenty można przeżyć na obszarach o niskiej gęstości zaludnienia, przeniesienie ludzi nie zapewniłoby ludziom bezpieczeństwa, ale obszar byłby niebezpieczny.

Inne spojrzenie na sprawy:

Jeśli na większym obszarze jest 1000 osób, z których 20 zginęło w ostatnim incydencie, to nadal pozostaje 980 ocalałych, którzy mogą opowiedzieć historię. Czy to jest bezpieczne, bo więcej ludzi przeżyło niż zginęło?

Z pewnością większość z 980 osób nie była nawet blisko 20, które zmarły, kiedy to się stało. Czy stanie się bezpieczniejsze, jeśli tylko o to zapytasz?

Czy możesz zapytać 20 martwych ludzi, czy nadal uważają to za bezpieczne?

Podsumowując, będziesz czuć się bezpiecznie, o ile pytasz ocalałych , którzy nie byli świadkami zdarzenia. Ponieważ możesz tylko zapytać ocalałych , jest prawdopodobne, że nie byli oni świadkami incydentu.

Stąd błąd ocalałych .

Powiązane błędy:

Inni wspomnieli o innych błędach. Nie chcę ich szczegółowo powtarzać. Jednak widzę, że mają one również zastosowanie. Oto kompilacja i aspekty, dlaczego mają zastosowanie i dlaczego się różnią:

  • Błąd ocalałych : Koncentrowanie się tylko na korzystnych wynikach.
  • błąd Texas Sharpshooter : wybór podpróbki z perspektywy czasu.
  • Błąd gorącej ręki : Interpretowanie losowej zmienności wyników jako wskazania rozkładu prawdopodobieństwa, zwłaszcza w najnowszej historii.
  • Prawo małych liczb : poleganie na niewystarczających danych.
  • Błąd dotyczący stopy bazowej : niedocenianie znaczenia ogólne informacje na rzecz bardziej szczegółowych informacji.

Jest jeszcze jeden dobrze znany błąd, który pierwotnie pomyliłem z „gorącą ręką”. Teraz, kiedy o tym myślę, tak naprawdę nie ma to zastosowania:

  • Błąd hazardzisty : niezrozumienie prawa wielkich liczb oznacza, że niezależne wydarzenia wyrównałyby się na dłuższą metę.

To coś w rodzaju odwróconego błędu gorącej ręki: zakochując się w „gorącej ręce” można by postawić na to, co działo się najczęściej w najnowszej wydaje się bardziej prawdopodobne.
Wpadając na „hazardzistę”, postawisz przeciwko temu, co zdarzało się najczęściej, ponieważ przeciwieństwo wydaje się wymagać wyrównania na dłuższą metę.

Podoba mi się twoje podsumowanie na dole, ale nie to mówi błąd hazardzisty.Błędem hazardzisty jest pogląd, że przyszłe próbki mają tendencję do kompensowania (odchyleń od oczekiwanych wartości) wcześniejszych próbek.
Dzięki za dokładną odpowiedź.To, co naprawdę sprawiło, że pomyślałem, było „błędem ocalałego”, ponieważ w tym przypadku to faktycznie ma zastosowanie.Osoba zakładająca to założenie nie zna osobiście nikogo, kto byłby powiązany z ofiarą (ogólny wskaźnik incydentów jest wciąż niewielki, po prostu znacznie wyższy niż średnia dla większego regionu geograficznego), więc myślę, że w pewnym stopniu utrudnia to jej ocenę.
Lauren Goodwin
2015-09-03 03:08:00 UTC
view on stackexchange narkive permalink

Dla mnie to brzmi jak błąd „gorącej ręki”.

https://en.wikipedia.org/wiki/Hot-hand_fallacy

Podczas nauczania statystyk wstępnych zauważyłem, że wielu uczniów popadło w ten błąd . Więc pomysł jest w sensie koszykówki, wykonał X razy liczbę strzałów, więc jest bardziej prawdopodobne, że odda strzał X + 1. Ta sama idea tutaj X osób mieszka tutaj bez incydentów, więc żadne incydenty nie powinny mieć miejsca, jeśli obecnych jest X + 1 osób.

Należy to bardzo ostrożnie sformułować.Nie ma błędnego przekonania, że rzut do koszykówki ma większe szanse powodzenia, jeśli strzelec oddał ostatnie X $ X $, niż gdyby właśnie nie trafił na ostatnie $ X $: to tylko mówi, że dobrzy gracze zarabiają więcejstrzały niż źli gracze.Błędem jest to, że wiara w to, że konkretny gracz, który wykonuje strzały z prawdopodobieństwem $ p $, wykona następny strzał z prawdopodobieństwem większym niż $ p $, jeśli wykonał poprzednie uderzenia $ X $;okazuje się, że kolejne strzały danego gracza są bliskie samodzielności.
Należy zaktualizować stronę Wikipedii.Istnieją całkiem niezłe dowody na to, że jest teraz powód, by wierzyć w passę.Gelman jest na bieżąco, więc możesz sprawdzić jego blog.
@John Ciekawe.Muszę przyznać, że byłem trochę sceptyczny nawet co do poprawnie sformułowanego błędu: z pewnością każdy gracz ma dobre i złe dni, a właśnie zrobienie dobrej passy zmniejsza prawdopodobieństwo, że obserwowany gracz ma zły dzień.
Mogę powiedzieć, że niezależność sukcesu w czasie niekoniecznie jest prawdziwa.Mój „pierwszy serwis” w tenisie jest bardzo pozytywnie autokorelowany.Miałoby to poważny wpływ na prawdopodobieństwo podwójnego pomyłki w przypadku użycia tylko „pierwszej” zagrywki, nawet drugiej serwu.Opierając się na niezależności, prawdopodobieństwo podwójnego błędu = 1 - (1-p) ^ 2, gdzie p jest prawdopodobieństwem obsłużenia. Dodatnia autokorelacja sprawia, że rzeczywiste prawdopodobieństwo podwójnego błędu przy użyciu tylko „pierwszego” jest znacznie wyższe.Bycie w rytmie może być bardzo realnym fenomenem w sporcie i innych przedsięwzięciach.
Myślałem o tym i chociaż może to odgrywać rolę w początkowej ocenie osoby, nie sądzę, że jest to pełna odpowiedź.Założenie jest takie, że bezpieczeństwo jest gwarantowane dla x-> nieskończoności, a nie tylko x + 1
shadowtalker
2015-09-04 09:46:16 UTC
view on stackexchange narkive permalink

To jest błąd dotyczący stopy bazowej :

Jeśli zostanie przedstawiony z powiązanymi informacjami o stopie podstawowej (tj. ogólne, ogólne informacje) i szczegółowe informacji (informacje dotyczące tylko określonego przypadku), umysł ma tendencję do ignorowania pierwszego i skupia się na drugim.

W tym przypadku podstawowy wskaźnik zgonów jest dość wysoki, ale szczegółowe informacje są takie, że w okolicy mieszka co najmniej 50 osób, które nie doznały uszczerbku na zdrowiu.

To dobry logiczny punkt, ale prawie nazwałbym to podwójną stawką podstawową, ponieważ stawka podstawowa dla większego regionu jest nadal niska w porównaniu z populacją, ale jest znacznie wyższa niż stawka podstawowa dla reszty świata (Trochę upraszczam ze względu na długość komentarza, ale masz pomysł).
Być może @thanby, ale to zależy od tego, co określisz jako swoją „bazę”.Chodzi o mylenie dystrybucji krańcowych i warunkowych.Rozciągam też definicję nieco bardziej, niż zdawałem sobie sprawę, kiedy po raz pierwszy to opublikowałem.
Alecos Papadopoulos
2015-09-03 15:32:31 UTC
view on stackexchange narkive permalink

Wnioskowanie statystyczne staje się nieważne, gdy nie ma zmienności - aw tym przypadku zmienność nie istnieje. Więc jedyny sposób, w jaki argument:

„50 osób mieszkało w [obszarze a] przez ostatnie dwa lata i nie było żadnych incydentów, dlatego obszar jest bezpieczny dla większej liczby osób tam mieszkać. ”

jest niestatystyczny, tj. deterministyczny. Dlatego argument jest poprawny metodologicznie (niepoprawny pod względem faktycznym) tylko wtedy, gdy odczytuje się go jako

„50 osób mieszkało w [obszarze a] przez ostatnie dwa lata i nie było żadnych incydentów, dlatego wskaźnik incydentów w tym obszarze jest i pozostanie zero .

Wow. Jestem pod wrażeniem poziomu pewności osoby, która to mówi.

Wszelkie domniemane wnioski typu „jeśli wskaźnik w próbie wynosi zero, spodziewamy się, że będzie on„ mały / akceptowalny / „normalny” w populacja "(tak można by zrozumieć stwierdzenie" bezpiecznie tam mieszkać ") jest śmieciem, zarówno dlatego, że nie ma podstawy do ekstrapolacji z próby na populację, ale także dlatego, że nie ma podstawy do ekstrapolacji z przeszłości / teraźniejszości do przyszłości.

Jak powiedział Fisher, „zdobądź więcej danych”.

Całkowicie zgadzam się z twoją oceną.Ta osoba jest rzeczywiście przekonana, że wskaźnik incydentów pozostanie zerowy, i jestem również pod wrażeniem (i trochę przerażony) jej poziomem pewności siebie.
Ale możesz dobrze, powiedzmy, skonstruować przedział ufności na podstawie dwumianowej obserwacji zera.To jest ważny wniosek statystyczny bez zmian.Więc jak stwierdzono, Twoje roszczenie jest nieważne.
AilibhsknlCMT [może] (http://andrewgelman.com/wp-content/uploads/2014/09/fundamentalError.pdf)


To pytanie i odpowiedź zostało automatycznie przetłumaczone z języka angielskiego.Oryginalna treść jest dostępna na stackexchange, za co dziękujemy za licencję cc by-sa 3.0, w ramach której jest rozpowszechniana.
Loading...