Pytanie:
Czy istnieje nazwa zjawiska fałszywych trafień, które w sprzeczny z intuicją sposób przewyższają prawdziwe pozytywy?
Roger Heathcote
2019-10-14 16:29:22 UTC
view on stackexchange narkive permalink

Wielu osobom wydaje się bardzo sprzeczne z intuicją, że dany test diagnostyczny z bardzo dużą dokładnością (powiedzmy 99%) może generować znacznie więcej fałszywie dodatnich niż prawdziwie pozytywnych w niektórych sytuacjach, a mianowicie, gdy populacja prawdziwie pozytywnych wyników jest bardzo mała w porównaniu zcała populacja.

Widzę, że ludzie często popełniają ten błąd, np.gdy opowiadam się za szerszymi badaniami zdrowia publicznego lub szerszymi środkami ochrony przed przestępczością itp., ale nie wiem, jak zwięźle opisać błąd, który popełniają ludzie.

Czy to zjawisko / błąd statystyczny ma swoją nazwę?W przeciwnym razie ktoś ma dobrą, zwięzłą, pozbawioną żargonu intuicję / przykład, który pomógłby mi wyjaśnić to laikowi.

Przepraszamy, jeśli to niewłaściwe forum, na którym można o to zadać.Jeśli tak, skieruj mnie do bardziej odpowiedniego.

jako krótki komentarz można by powiedzieć, że scenariusz ma słabą „pozytywną wartość predykcyjną”, co może być kolejną drogą do rozważenia w myśleniu o tym, jak wyjaśnić.
Czy masz na myśli, że test generuje więcej fałszywych trafień niż ogólnie prawdziwie pozytywnych wyników, mimo że jest dokładny w 99% we wszystkich przypadkach, czy też masz na myśli, że dokładnie ten sam test ma inne zachowanie w zależności od podzbioru populacji, o którym mowa?Ponieważ ogólny współczynnik dokładności już sugeruje, że przypadek, w którym ma trudności z identyfikacją prawdziwych pozytywów, jest rzadszym stanem.„Kiedy populacja prawdziwie pozytywnych wyników jest bardzo mała w porównaniu ...” brzmi tak, jakby charakteryzował test obejmujący całe populacje, a nie różnice w jego zachowaniu w porównaniu z subpopulacjami.Czy to jest poprawne?
Obecna odpowiedź podaje ten termin, ale poprosiłeś również o przykład, który mógłby pomóc wyjaśnić to laikowi: Rozważ chorobę, która dotyka 1 na 1000 osób.Wykonując test z dokładnością 99% na 1000 osób, 10 osób jest klasyfikowanych nieprawidłowo.Więc 1 osoba może być prawdziwie pozytywna, ale nadal może być 9 fałszywych trafień.Ogólnie „dokładność” (jako miara) ma sens tylko w przypadku * zrównoważonych * rozkładów.W przeciwnym razie lepszym środkiem może być „poinformowanie”.Więcej przykładów można znaleźć pod adresem https://en.wikipedia.org/wiki/Confusion_matrix#Table_of_confusion.
@pygosceles Tak.Wiele osób, jeśli nie większość, ma intuicję, że test, który jest dokładny w 99% implikuje fałszywie dodatni wskaźnik 1%, niezależnie od liczby prawdziwie pozytywnych wyników w populacji i wielkości populacji.Wielu osobom wydaje się sprzeczne z intuicją, że bardzo dokładny test może w niektórych okolicznościach dać o wiele więcej fałszywych trafień niż prawdziwych pozytywów.
@technicalbloke Wygląda na to, że tak naprawdę nie myślą nawet o prawdziwej wartości dodatniej jako o swojej własnej rzeczy, być może fałszywie łącząc ogromną proporcję prawdziwych wyników ujemnych + prawdziwych negatywów z prawdziwymi pozytywami, ponieważ prawdziwe negatywy decydują o dokładności pomiaru rzadkich warunków, iwięc nie mów nic o prawdziwych i fałszywie pozytywnych wskaźnikach.Lekceważenie fałszywych alarmów brzmi tak, jakby mogły również łączyć dokładność z przywołaniem, dlatego trzeba precyzyjnie uzupełnić ich koncepcję przypomnienia, co wydaje się być sednem twojego zainteresowania.
Zobacz także: [błąd prokuratora] (https://en.wikipedia.org/wiki/Prosecutor%27s_fallacy), co jest tego konsekwencją.
Pan Pi ma najlepszą odpowiedź.Potocznie można by też powiedzieć, że „pozytywne wyniki mają niski stosunek sygnału do szumu”, być może jest bardziej dostępne dla większej populacji (… być może).Ale to jest opis sytuacji niezależnej od intuicyjnych, logicznych błędów. Jest to klasyczny przypadek prawdopodobieństwa Bayesa, który jest wielokrotnie wyrażany w badaniach medycznych lub problemie snajperskim.http://commonsenseatheism.com/?p=13156
Użyj testu na wampiry jako analogii.Jeśli miałeś test, który poprawnie określa, czy ktoś jest wampirem, czy nie, który jest dokładny w 99%, * każdy * wynik pozytywny jest fałszywie pozytywny.Ta analogia podwaja się jako całkiem dokładny test dla ludzi wierzących w wampiry.
Niekoniecznie jest to błąd lub „zła rzecz”.Można to uznać za dobry kompromis między kosztami a korzyściami dla testów _ screeningowych, które są tanimi testami o wyjątkowo wysokiej specyficzności, aby nie przegapić prawdziwych instancji kosztem małej precyzji (wiele fałszywych alarmów).Następnie dla znacznie mniejszej liczby pozytywnych wyników, które mogą mieć wszystkie prawdziwe pozytywne wyniki, użyj droższego drugiego testu, aby wyeliminować wiele fałszywych alarmów.
Osiem odpowiedzi:
#1
+103
Mr Pi
2019-10-14 19:29:37 UTC
view on stackexchange narkive permalink

Tak, jest.Ogólnie jest to określane jako base rate Fallacy lub bardziej konkretny false positive paradox.Jest nawet artykuł na ten temat w Wikipedii: patrz tutaj

#2
+17
Bernhard
2019-10-14 18:38:09 UTC
view on stackexchange narkive permalink

Niestety nie mam nazwy dla tego błędu. Kiedy muszę to wyjaśnić, uznałem za przydatne odwołanie się do chorób, które są powszechnie znane wśród laików, ale są absurdalnie rzadkie. Mieszkam w Niemczech i chociaż wszyscy czytali o dżumie w swoich książkach historycznych, wszyscy wiedzą, że jako niemiecki lekarz nigdy nie zdiagnozuję prawdziwego przypadku dżumy ani nie zajmę się ugryzieniem rekina.

Kiedy powiesz ludziom, że istnieje test na ukąszenia rekina, który jest pozytywny u jednej ze stu zdrowych osób, wszyscy zgodzą się, że ten test nie ma sensu, bez względu na to, jak dobrze jest pozytywna wartość predykcyjna.

W zależności od tego, gdzie na świecie się znajdujesz i kim są Twoi odbiorcy, możliwymi przykładami mogą być dżuma, choroba szalonych krów (BSE), progeria, porażenie piorunem. Istnieje wiele znanych zagrożeń, z których ludzie zdają sobie sprawę, że ich ryzyko jest znacznie mniejsze niż 1%.

Edycja / dodawanie: jak dotąd przyciągnęło to 3 głosy przeciw i żadnych komentarzy. Obrona przed najbardziej prawdopodobnym zarzutem: oryginalny plakat napisał

Jeśli ktoś ma dobrą, zwięzłą intuicję / przykład bez żargonu, który pomógłby mi wyjaśnić to laikowi

I myślę, że właśnie to zrobiłem. Pan Pi opublikował swoją lepszą odpowiedź później niż ja zamieściłem moje wyjaśnienie dla laika i zagłosowałem za nim, gdy tylko je zobaczyłem.

#3
+10
pygosceles
2019-10-16 00:31:08 UTC
view on stackexchange narkive permalink

Błąd podstawowego wskaźnika dotyczy specjalizacji w różnych populacjach, co nie obejmuje szerszego błędnego przekonania, że ​​wysoka dokładność oznacza zarówno niski odsetek wyników fałszywie dodatnich, jak i niski.

W rozwiązywaniu zagadki wysokiej dokładności z wysokim odsetkiem fałszywych trafień nie mogę wyjść poza bardzo powierzchowne, faliste i niedokładne wyjaśnienia bez wprowadzania ludzi w pojęcia precyzji i przypominania.

Mówiąc prościej, można po prostu zapisać dwie wartości zainteresowania zamiast nadmiernie uproszczonego wskaźnika „dokładności”:

  1. Jaka część osób ze schorzeniem X wykazała test? To jest współczynnik przypominania. Nieprawidłowe określenia to fałszywie negatywy - osoby, które powinny zostać zdiagnozowane jako chore, ale tak nie jest.
  2. Jaka część osób, które według testu mają stan X, faktycznie ma stan X? To jest współczynnik precyzji. Nieprawidłowe określenia tutaj to fałszywe alarmy - ludzie, o których mówiliśmy, mają ten stan, ale nie.

Test diagnostyczny jest przydatny tylko wtedy, gdy dostarcza nowych informacji. Możesz im pokazać, że do diagnozy rzadkich schorzeń (powiedzmy, <1% przypadków), jest trywialnie łatwe skonstruowanie testu, który jest bardzo dokładny (> 99% dokładności!), Jednocześnie mówiąc nam nic, czego jeszcze nie zrobiliśmy wiedzieć, kto go ma, a kto nie: po prostu powiedz wszystkim, że go nie ma. Nieskończona liczba testów ma tę samą dokładność, ale precyzję handluje ich przywołaniem i odwrotnie. Można uzyskać 100% precyzję lub 100% dokładność, nie robiąc nic, ale tylko test rozróżniający zmaksymalizuje oba. W rzeczywistości obliczenia i pokazanie im dokładności i współczynników przypominania mogą ich poinformować i pomóc im w inteligentnym przemyśleniu kompromisów i potrzebie bardziej wnikliwego testu. Łączenie testów, które dostarczają różnych informacji, może prowadzić do dokładniejszej diagnozy, nawet jeśli wynik jednego lub drugiego testu jest sam w sobie niedopuszczalnie niedokładny.

To jest kluczowe: czy test dostarczy nam nowych informacji, czy nie?

Jest jeszcze wymiar niechęci do ryzyka: ile fałszywych trafień warto ponieść, aby znaleźć jeden prawdziwie pozytywny? To znaczy, ile osób jesteś skłonny wprowadzić w błąd, myśląc, że mają coś, czego mogliby nie mieć, aby znaleźć kogoś, kto to ma? Będzie to zależało od niebezpieczeństwa błędnej diagnozy, które zwykle różni się w przypadku fałszywie pozytywnych i fałszywie negatywnych wyników.

Edytuj: Ponadto korzystny byłby test potwierdzający lub testy, które są coraz dokładniejsze, być może odkładane na później, ponieważ są droższe.Diagnozy z tendencją do fałszywie pozytywnych wyników mogą być zatem używane wspólnie w celu skonstruowania sita, które jest opłacalnym dyskryminatorem, eliminującym większość prawdziwych negatywów na wczesnym etapie.Jednak to również wiąże się ze zwiększonym zagrożeniem dla prawdziwych pozytywów: chcesz, aby pacjenci z rakiem otrzymali leczenie tak szybko, jak to możliwe, i aby przeskoczyli przez trzy lub pięć obręczy, z których każda wymaga od dwóch tygodni do miesiąca wcześniejszego planowania, zanim będą mogliuzyskanie dostępu do leczenia może pogorszyć rokowanie o rząd wielkości.Dlatego pomocne jest wspólne branie pod uwagę innych tańszych testów podczas przeprowadzania segregacji na potrzeby obserwacji w celu ustalenia priorytetów tych pacjentów, którzy mają największe prawdopodobieństwo zachorowania na tę chorobę i wykonywania wielu testów jednocześnie, jeśli to możliwe.

Myślałem, że błąd dotyczący stopy bazowej polega na zignorowaniu stopy bazowej, mianownika.Jeśli test ma wysoką dokładność, stopa podstawowa musi być już uwzględniona, więc nie widzę, jak mógłby to być błąd stopy podstawowej, który zasadniczo pomija wzmiankę o mianowniku (stawce bazowej).
@Mitch Widzę, co mówisz.W szczególnym przypadku, gdy nowa badana populacja jest jedną z podgrup populacji pierwotnej i jeśli miarą zainteresowania jest stopa fałszywie dodatnia, to błąd stopy bazowej i problem opisany w PO są prawie równoważne.Jednak większość definicji błędu dotyczącego stóp bazowych, które widziałem, traktuje ten problem jako brak uogólnienia na dwie potencjalnie całkowicie różne populacje.Uważam, że pytanie PO ma więcej wspólnego z nieporozumieniami dotyczącymi fałszywie dodatnich i prawdziwie pozytywnych wskaźników w tej samej populacji.
#4
+7
scott
2019-10-30 10:45:36 UTC
view on stackexchange narkive permalink

Po prostu narysuj proste drzewo decyzyjne, a stanie się to oczywiste.Patrz załączony.Mogę również wysłać bardzo prosty arkusz kalkulacyjny, który dokładnie ilustruje wpływ.enter image description hereenter image description here

Pytanie dotyczy * nazwy * zasady.
+1 (pytanie dotyczy przykładów bez żargonu, aby wyjaśnić laikom, i myślę, że użycie tego rodzaju wykresów częstotliwości drgań własnych jest użyteczną pomocą)
@SextusEmpiricus Zgadzam się, że bardzo zwięzłe i dobrze wyartykułowane wyrażenie problemu mogłoby być pomocne, ale może być trudno nadać krótką nazwę czemuś, co jest dopracowane i czego wiele osób jeszcze nie wie.Sugestie są mile widziane.
@pygosceles to nie jest odpowiedź na pytanie.
#5
+4
meh
2019-11-01 00:37:27 UTC
view on stackexchange narkive permalink

Spóźniony mecz, ale oto kilka rzeczy, o których inni nie wspomnieli

1) Po pierwsze, istnieje statystyka zwana Kappa lub Cohena Kappa, która mierzy, o ile metoda poprawia się w porównaniu z przypadkowym zgadywaniem. W przypadku testu z dwoma wynikami zgadywanie losowe to po prostu odgadywanie klasy większości. Na przykład, jeśli choroba jest przenoszona przez 1% populacji, test, który mówi „nie masz tej choroby” dla wszystkich, daje 99% dokładności. Bezużyteczne, ale w 99% dokładne. Kappa mierzy, o ile test poprawia się w porównaniu z przypadkowym zgadywaniem. Zobacz wikipedię, aby zapoznać się z formułą, ale z grubsza określa, jaki procent poprawy w porównaniu z przypadkowym odgadywaniem obejmuje Twoją metodę. W moim przykładzie test, który był dokładny na poziomie 99,5%, miałby kappa równe 0,5, co stanowi 50% w najlepszym przypadku 1% poprawy.

2) Wszystko to jest również związane z twierdzeniem Bayesa / Bayesa. Załóżmy, że stan występuje rzadko - występuje u 0,01% populacji i że test stanu jest dokładny w 99% (i zawsze go wykrywa). Bayes mówi, że Twoje wcześniejsze prawdopodobieństwo zachorowania wynosi 0,01%. Jednak prawdopodobieństwo wystąpienia choroby przy pozytywnym wyniku testu wynosi tylko (.0001 / .01) = 1%. Formuła to P (War | test = Y) = P (War) / P (test = Y). To jest twierdzenie Bayesa.

3) Wreszcie ten pozorny paradoks sprowadza się, imho, do faktu, że prawdopodobieństwo nie jest intuicyjne. Takie rzeczy mają różne nazwy. Ale przykłady tego zjawiska pod różnymi postaciami nazwano między innymi „Paradoksem prokuratorskim” i „Problemem Monty Hall”. Myślę, że jestem już w tldnr, więc poszukaj ich w Wikipedii, jeśli jeszcze się nie nudziłem.

Określenie Kappa wydaje się pomocne, ponieważ normalizuje stopę bazową, a więc wyraża moc dyskryminacyjną.Zawsze zmagałem się z przypisywaniem greckich liter i nazwisk do rozwiązania lub koncepcji, dopóki nie mogłem najpierw docenić problemu.Twierdzenie Bayesa jest rzeczywiście kluczem do zrozumienia całej sprawy.Najpierw wyjaśniłbym koncepcję nowoprzybyłym, a potem powiedziałbym im nazwisko odkrywcy, gdy docenią to, co zrobił.
#6
+2
Curt
2019-10-30 20:47:39 UTC
view on stackexchange narkive permalink

Jak w przypadku wielu pytań i odpowiedzi, to zależy ...

W przypadku badań przesiewowych w kierunku raka (mammografia, kolonoskopia itp.) i wielu innych badań przesiewowych w kierunku choroby lub stanu, tak jest prawie zawsze. Aby test przesiewowy miał jakąś wartość, musi być wystarczająco „czuły”, aby wykryć stosunkowo rzadkie przypadki (powiedzmy 1% lub czasami znacznie mniej) przesiewanego stanu. Frakcja prawdziwie pozytywna (TPF) jest prawie zawsze mniejsza niż frakcja fałszywie dodatnia (FPF).

Dlatego zawsze przeprowadza się powtórny test (ponowne wykonanie tego samego testu) lub testy uzupełniające (prawdopodobnie droższe, ale o większej „specyficzności”), aby następnie wyeliminować fałszywe trafienia.

Więc w pewnym sensie nazwa, o którą prosisz, to „test przesiewowy”!

Termin „dokładność” ma bardzo szczególne znaczenie techniczne, które niekoniecznie jest powszechnym znaczeniem lub powszechnie rozumianą sytuacją. Większość „zdrowego rozsądku” wiąże się z 50% 50% szansą, że masz raka lub nie.

Ze strony wiki: https://en.wikipedia.org/wiki/Receiver_operating_characteristic

accuracy

Inaczej mówiąc, test jest dokładny, jeśli większość przypadków daje poprawność. Jaka jest powszechna definicja. Ale jeśli warunek jest rzadki, a test jest „czuły”, może (a właściwie powinien i musi) nadal dawać fałszywie pozytywne wyniki.

Częstość występowania 1%, 1000 testów, 10 prawdziwych trafień, 20 fałszywie pozytywnych

dokładność = (10 + (1000 - 10 - 20)) / 1000 = 98%

Jeszcze innym technicznym sposobem wyrażenia tego jest to, że testy przesiewowe zwykle działają po stronie wysokiej czułości (wysoka fałszywie dodatnia) tak zwana charakterystyka operacyjna odbiornika (ROC). Chce się wyłapać wszystkie prawdziwe pozytywy kosztem fałszywych alarmów, które zostaną ponownie przetestowane iw dużej mierze wyeliminowane.

W związku z postem jmf7 dotyczącym pozytywnej wartości predykcyjnej, testy przesiewowe są zaprojektowane tak, aby mieć wysoką „negatywną wartość predykcyjną” lub powiedzieć z całą pewnością, że pacjent nie ma choroby / stanu. Niefortunne, ale nieuniknione przypadki, które są fałszywie dodatnimi, przechodzą następnie do następnego etapu dalszych testów.Często pojawia się nieunikniony niepokój, nawet jeśli statystyki i prawdopodobieństwa są dobrze wyjaśnione i zrozumiane.
Bardzo mi się podoba, że wprowadziliście pojęcie „specyficzności” - dziwię się, że żadna odpowiedź nie idzie dogłębnie porównując selektywność i specyficzność jako pojęcia naukowe z tym związane.
#7
  0
LDBerriz
2019-11-01 19:29:03 UTC
view on stackexchange narkive permalink

Spójrz na to błyszczące narzędzie aplikacji https://kennis-research.shinyapps.io/Bayes-App/, które wyjaśnia związek między wrażliwością, swoistością i rozpowszechnieniem.W istocie zdolność testu do wykrycia prawdziwie pozytywnych wyników jest funkcją zarówno skuteczności testu (czułość i swoistość), jak i częstości występowania stanu, w odniesieniu do którego jest testowany.

#8
-2
Clyde Wilbur
2019-10-31 00:13:18 UTC
view on stackexchange narkive permalink

Użyj metody KISS, aby wyjaśnić to wszystkim ... Keep It Simple Stupid K.I.S.S..

W księgowości prosty audyt rozpoczyna się od 1% próby wszystkich transakcji dla określonych wydatków lub dochodów w porównaniu z faktycznymi depozytami bankowymi wypłatami &.Jeśli się nie zgadzają lub „sumują”.Zwiększasz rozmiar próbki do 5%.Im więcej błędów zostanie znalezionych, tym większy procent próbek będzie szukać błędów lub oszustw.Do 100%.

Jeszcze prostszym przykładem dla statystyków jest prawo wielkich liczb.Im większa liczba pojedynczych próbek, tym dokładniejszy wynik.

Odwrotny efekt nazywam prawem małych liczb.Oznacza to, że próbka jest zbyt mała, aby odzwierciedlić prawdziwą dokładność.

Mam nadzieję, że to pomoże!



To pytanie i odpowiedź zostało automatycznie przetłumaczone z języka angielskiego.Oryginalna treść jest dostępna na stackexchange, za co dziękujemy za licencję cc by-sa 4.0, w ramach której jest rozpowszechniana.
Loading...