Pytanie:
Pytanie do wywiadu: Jeśli korelacja nie oznacza związku przyczynowego, w jaki sposób wykrywa się przyczynowość?
Akaike's Children
2019-11-09 03:15:04 UTC
view on stackexchange narkive permalink

Mam to pytanie:

Jeśli korelacja nie oznacza związku przyczynowego, w jaki sposób wykrywa się przyczynowość?

w wywiadzie.

Moja odpowiedź brzmiała: Wykonujesz jakąś formę testów A / B.Prowadzący rozmowę namawiał mnie do innego podejścia, ale nie mogłem wymyślić żadnego, a on nie powiedział mi, czy moja początkowa odpowiedź była poprawna, czy nie.

Czy są jakieś inne podejścia?Czy moja odpowiedź była poprawna?

Standardowa mantra brzmi: „* nie ma związku przyczynowego bez manipulacji *”. Wydaje mi się, że ankieter szukał pewnych pojęć z badań obserwacyjnych (np. IPTW, podwójnie solidnych estymatorów itp.). To powiedziawszy, testy A / B są poprawną odpowiedzią, jakteoria zajmuje się współzałożycielami.
Pearl, J. (2000).* Przyczynowość: modele, rozumowanie i wnioskowanie *.Cambridge University Press.
Pearl, J. (2009).[Wnioskowanie przyczynowe w statystykach: przegląd] (https://projecteuclid.org/euclid.ssu/1255440554http://projecteuclid.org/euclid.ssu/1255440554).* Ankiety statystyczne *, 3, 96–146.
Maldonado, G., & Greenland, S. (2002).[Szacowanie skutków przyczynowych] (https://academic.oup.com/ije/article-pdf/31/2/422/18525260/310422.pdf).* International Journal of Epidemiology *, 31 (2), 422–438.
Hernán, M. A. i Robins, J. M. (2020).[* Wnioskowanie przyczynowe: Co jeśli *] (https://www.hsph.harvard.edu/miguel-hernan/causal-inference-book/).Chapman & Hall.
Pearl, J., Mackenzie, D. (2018) * The book of why: nowa nauka o przyczynie i skutku *.Książki podstawowe.
Najprostszą odpowiedzią jest prawdopodobnie wykonanie _eksperymentu_, w którym przynajmniej jedna ze zmiennych jest określana przez eksperymentatora.
@MichaelHardy Z wyjątkiem przypadków, gdy eksperymenty są niemożliwe (np. Badanie tektoniki płyt - po prostu losowo przypisz pierwsze 4 * 10 ^ 9 lat połowie Ziemi z 10% mniej Si w skorupie, kosmologia - po prostu uruchom ponownie CMB z czasów ekspansjiw 10 kontrolowanych wszechświatach z podwojonym parametrem anizotropii, stan społeczeństw - wystarczy losowo przyporządkować te kraje do inwazji i okupacji itp.).W projektach obserwacyjnych nadal dokonuje się wniosków przyczynowych - aczkolwiek z dodatkowym zestawem zastrzeżeń -.
@Alexis: Jak powiedziałem, _ najprostsza_ odpowiedź ......
Brak wystarczających informacji.Istnieje ogromna różnica między wnioskami dotyczącymi nauk ścisłych, takich jak biotechnologia, a e-commerce / kliknięciami w Internecie / odpowiedziami na e-maile (gdzie prawdopodobnie nie istnieje czysty związek przyczynowy, a nawet gdyby tak było, nie można go było zmierzyć ekonomicznie).Istnieje również różnica między liczbą eksperymentów, które można przeprowadzić jednocześnie, liczbą zmiennych lub wyników, jak kosztowna i obszerna jest próba, jak szybko chcesz uzyskać (częściową) odpowiedź, czy eksperyment jest przeprowadzany w czasie rzeczywistym, czy możesz modyfikowaćgo lub wykorzystaj podczas działania (jednoręki bandyta / wieloręki bandyta) itp.
Siedem odpowiedzi:
#1
+41
Student
2019-11-09 06:22:34 UTC
view on stackexchange narkive permalink

Można to obejść na kilka sposobów. Masz rację, że testy A / B są jednym z nich. W tym roku ekonomiczny Nobel został nagrodzony za pionierskie eksperymenty terenowe w badaniu polityk przeciwdziałania ubóstwu, które robią dokładnie to.

W przeciwnym razie możesz skorzystać z jednej z następujących alternatyw:

  1. Selection on obsable. Prawdopodobnie najpopularniejsze podejście. Zakładasz, że w zależności od pewnych zmiennych kontrolnych przypisanie leczenia jest losowe. W tak zwanym schemacie potencjalnych wyników, w ramach traktowania binarnego można określić to założenie jako $ Y_i (1), Y_i (0) \ perp T_i \ mid X_i $ gdzie $ T_i \ in \ {0,1 \} $ , $ Y_i (t) $ to jednostka Wynik $ i $ w ramach statusu leczenia $ t $ i $ X_i $ jest wektorem cech $ i $ . Idealnym sposobem na osiągnięcie tego jest losowanie $ T_i $ . Ale inne podejścia, które opierają się na tym założeniu, to dopasowywanie (w tym metody ML, takie jak drzewa przyczynowe), odwrotne ważenie prawdopodobieństwa i bardziej wszechobecna metoda dodawania $ X_i $ jako dodatkowego zmienne towarzyszące w regresji liniowej. Informatyka obdarowała nas teorią „ukierunkowanych grafów acyklicznych” do wnioskowania przyczynowego, które pomagają nam myśleć o tym, co jest dobre, a jakie złe zmienne, które należy uwzględnić w $ X_i $ .
  2. R Projekty nieciągłości regresji. Ta metoda jest bardzo popularna, ponieważ oferuje wiarygodną interpretację wyników jako przyczynowych. Aby zilustrować tę ideę, weźmy przykład przestrzennej nieciągłości. Przypuśćmy, że doszło do trzęsienia ziemi i dzieci w określonej strefie miały zakaz chodzenia do szkoły przez 3 miesiące. Dzieci tuż za granicą nie przeszkadzały w chodzeniu do szkoły. Możesz więc porównać dzieci znajdujące się w strefie z dziećmi na zewnątrz i prawdopodobnie jedyną rzeczą, która będzie się między nimi różnić, będzie uczęszczanie do szkoły. Następnie możesz cofnąć ich kolejne lata nauki w szkole, uczęszczanie do college'u itp., Po której stronie granicy mieszkali, i uzyskać przyczynową konsekwencję uczęszczania do szkoły. Zwróć uwagę, że to, jak wybrać odpowiednie okno wokół nieciągłości i wdrożyć estymator RD, jest subtelnym pytaniem i kryje się za tym literatura (zobacz komentarz @ olooney do tej odpowiedzi).
  3. Zmienne instrumentalne. Jest to podobne do nieciągłości regresji, ale zwykle znacznie trudniejsze do obrony. Instrument to zmienna, która Twoim zdaniem jest skorelowana z wynikiem tylko poprzez status leczenia (to znaczy przez zmienną, której efekt chcesz zmierzyć). W takim przypadku możesz użyć czegoś, co nazywa się dwuetapową metodą najmniejszych kwadratów, aby oszacować efekt przyczynowy. Ten gatunek zawiera niewielką bibliotekę badań dotyczących tego, jak coś może pójść źle, jeśli założenia zawiodą, a nawet jeśli nie zawiodą. Należy jednak pamiętać, że rzadkie choroby mogą być ważnym instrumentem. W przykładzie trzęsienia ziemi, po której stronie granicy ktoś żył, może być instrumentem uczęszczania do szkoły, ponieważ prawdopodobnie nie jest skorelowany z niczym innym, co wyjaśnia wyniki. Inne sprytne strategie w tej kategorii to shift-share i Bartik. Mają również badania dotyczące założeń, na których polegają.
  4. Difference-in-Difference. Ta metoda rozluźnia założenie selekcji na obserwablach. Przechodzi do ustawienia przed i po i porównuje średnią zmianę wyniku w grupie leczonej ze średnią zmianą wyniku w grupie kontrolnej. Czyniąc to, przyjmuje się założenie, że jest to zgodne z równoległymi trendami: że średnia zmiana w grupie leczonej byłaby taka sama jak w grupie kontrolnej gdyby nie otrzymali oni Ta metoda jest niezwykle popularna, ponieważ jest bardziej niezawodna niż selekcja na podstawie obserwacji, a ustawienia, w których można ją wiarygodnie zastosować, są bardziej wszechobecne niż w przypadku nieciągłości regresji lub zmiennych instrumentalnych. Znanym przykładem jest badanie płacy minimalnej Carda i Kruegera, którzy porównali pracowników restauracji fast food w rejonie Filadelfii przed i po zmianie płacy minimalnej. Stosunkowo niedawnym wariantem tej metody są kontrole syntetyczne, które tworzą sztuczną grupę kontrolną i robią różnicę w różnicach, co może Ci się spodobać ze względu na swoją wiarygodność.
Nieciągłość regresji jest teoretycznie atrakcyjna, ale są też horrory, takie jak https://statmodeling.stat.columbia.edu/2018/08/02/38160/, więc uważaj, zanim je zastosujesz.Porady można znaleźć na stronie https://www.princeton.edu/~davidlee/wp/RDDEconomics.pdf.
Dziękuję, @olooney, Dodałem odniesienie do twojego komentarza w odpowiedzi
Twój przykład projektów nieciągłości regresji wydaje się być dobrym przykładem tego, gdzie mogą występować inne zmienne, aby korelacja nie oznaczała związku przyczynowego, jak bycie bliżej epicentrum trzęsienia ziemi (nawet jeśli tylko marginalnie) lub możliwy psychologiczny efekt istnienia.polecono nie chodzić do szkoły po potencjalnie traumatycznym wydarzeniu.
@NotThatGuy Przede wszystkim chodzi o to, że epicentrum jest dość daleko od granicy, a bycie o jedną przecznicę bliżej epicentrum nie powinno narażać leczonych dzieci na inne warunki w porównaniu z tymi znajdującymi się jedną przecznicę dalej, po drugiej stroniegranica.Druga rzecz brzmi dla mnie jak jeden z możliwych mechanizmów (mediatorów efektu leczenia).
#2
+15
Sammy
2019-11-09 04:37:36 UTC
view on stackexchange narkive permalink

Chciałbym udzielić odpowiedzi filozoficznej i naukowej:

W teorii i co do zasady nie można zaobserwować związku przyczynowego. Nigdy tak nie było i nigdy nie będzie. Weźmy prosty przykład: kiedy naciskasz przyciski klawiatury, a litery pojawiają się na ekranie podczas wpisywania posta na tej stronie, zakładasz efekt przyczynowy. Po pierwsze dlatego, że obserwujesz korelację między naciśnięciem klawiszy a literami pojawiającymi się na ekranie. Po drugie, ponieważ masz model przyczynowości tego, co dzieje się w Twoim umyśle, który uważasz za wiarygodny (co oznacza, że ​​klawiatura jest urządzeniem wejściowym używanym do pisania).

Jednak żadne z tych dwóch nie jest przyczynowością i nie można zaobserwować przyczynowości. Może się zdarzyć, że niewidzialny demon tworzy litery na ekranie za każdym razem, gdy naciskasz klawisz. To jest filozoficzny punkt widzenia i odpowiedź.

Naukowa odpowiedź brzmi: obserwuj przyczynowość: musisz manipulować danymi wejściowymi, kontrolować wszystko inne i obserwować efekt. Ponieważ nie jesteś psychologiem projektującym badanie, ale analizujesz dane, oznacza to, że musisz mieć dane na przestrzeni czasu.

Na przykład, jeśli zakładasz, że mieszkanie w zaludnionym mieście zwiększa ryzyko wystąpienia depresji klinicznej: wtedy będziesz potrzebować próbki ludzi mieszkających w dużym mieście, u których później wystąpiła depresja kliniczna. I to nie tylko dodatnia korelacja między zmienną „mieszka w dużym mieście” a „cierpi na depresję kliniczną”. Będziesz także musiał kontrolować inne zmienne niezależne.

Innym sposobem osiągnięcia tego byłoby ustawienie laboratoryjne, w którym można jawnie manipulować zmiennymi (i znacznie łatwiej jest kontrolować inne zmienne niezależne). To podejście nie jest jednak tak bardzo związane z nauką o danych.

#3
+9
MindtheData
2019-11-10 05:57:02 UTC
view on stackexchange narkive permalink

Krótko...

Opcja 1:

Randomizowana kontrolowana próba.„Złoty standard”.

Option 2:

  1. Narysuj diagram przyczynowy swojego systemu.Skierowany acykliczny wykres jak Ty i inni myślicie, że system działa.
  2. Zdecyduj, czy można wywnioskować związek przyczynowy z badań obserwacyjnych, korzystając z kryterium drzwi tylnych, kryterium drzwi wejściowych lub inne warunkowe metody niezależności.Zbierz dane dotyczące odpowiednich zmiennych.Widzieć Perła Judei.
  3. Zbuduj model statystyczny przy użyciu 1 & 2.
  4. Testuj z ostrożnością, podobnie jak Twój DAG, model statystyczny ani Twoje dane doskonały.

Delikatne wprowadzenie można znaleźć w The Book of Why firmy Pearl.

#4
+6
Larry Kreuger
2019-11-10 22:23:32 UTC
view on stackexchange narkive permalink

Nie jestem pewien, czy to coś dodaje, ale jeśli potrzebujesz innej myśli z filozofii, w tamtych czasach (lata 60.) uczono nas na zajęciach z filozofii, których wymagały 3 kryteria przyczynowości Hume'a: (1) pierwszeństwo czasowe (przypuszczalna przyczyna wcześniejsza); (2) obserwowalna korelacja empiryczna;i (3) że wszystkie konkurencyjne hipotezy zostały wykluczone.

Zakładając, że kryterium nr 3 jest praktycznie niemożliwe, wynikałoby z tego, że związek przyczynowy będzie na zawsze niemożliwy do wykazania.

Głosowano za priorytetem czasowym - jeśli dwie skorelowane rzeczy są powiązane przyczynowo, to ta druga nie mogła spowodować wcześniejszej.To jest „przyczynowość”, której nie można naruszyć w teorii względności Einsteina.
#5
+1
TDT
2019-11-09 03:35:38 UTC
view on stackexchange narkive permalink

Krótko mówiąc, aby bezpośrednio wykryć związek przyczynowy, musimy kontrolować wszystko inne.Na przykład sadzisz dwa drzewa, używając tej samej gleby, tej samej ilości wody, w tym samym czasie w świetle itd., Ale z dwoma różnymi nawozami.Jeśli wszystko jest takie samo i drzewo A rośnie szybciej, to możemy powiedzieć, że nawóz dla drzewa A powoduje szybszy rozwój.

Możemy wyciągnąć taki wniosek tylko wtedy, gdy zakładamy, że wszystko inne jest takie samo.Może to być trudne do sprawdzenia, więc w praktyce jest to założenie.Na przykład dwa drzewa mogą mieć różne geny, a jeden gen powoduje szybszy rozwój.

#6
+1
Marina
2019-11-11 04:27:52 UTC
view on stackexchange narkive permalink

Nie można znaleźć związku przyczynowego na podstawie analizy tych samych danych, które pokazują korelację.

Sammy powyżej podał przykład hipotezy: mieszkanie w dużych miastach powoduje zaburzenia psychiczne. Badanie, które proponuje, ma tylko dwie cechy: lokalizację i stan zaburzeń psychicznych i może wykazać jedynie korelację, a nie przyczynowość. Zawsze istnieje możliwość, że osoby z tendencją do zaburzeń psychicznych wolą mieszkać w dużych miastach, a nie miasta powodują zaburzenia.

Należy uwzględnić pewne dodatkowe atrybuty. Mogą to być atrybuty wyjaśniające zależność. Na przykład można uznać poziom hałasu za zmienną niezależną.

Inną opcją może być uwzględnienie czasu w badaniu, aby obserwować proces, w jaki sposób jeden powoduje inny. W szczególności można wziąć pod uwagę te same osoby, które mieszkały w miastach i krajach w różnych okresach ich życia, aby zobaczyć, gdzie zaburzenie występowało częściej u tych osób.

W każdym razie muszą istnieć dodatkowe informacje, wyjaśniające przyczynę lub rejestrujące proces wywierania wpływu.

#7
+1
Weiwen Ng
2019-11-13 06:20:28 UTC
view on stackexchange narkive permalink

Skoncentruję się na wąskim temacie: a co, jeśli nie możesz przeprowadzić eksperymentu z dwiema grupami, losowego lub obserwacyjnego? A co jeśli masz tylko jedną grupę? A co, jeśli mówisz o jakiejś zmianie polityki krajowej, w której z powodu zmiany całego kraju nie ma oczywistej grupy kontrolnej? Myślę, że można tutaj przypisać związek przyczynowy w pewnych ograniczonych okolicznościach.

W warunkach klinicznych badacze służby zdrowia oczywiście wolą przeprowadzać randomizowane badania kliniczne tam, gdzie jest to możliwe, a standardem jest przeprowadzanie pomiarów przed leczeniem i po leczeniu w każdej grupie. W bardzo ograniczonej liczbie warunków klinicznych możemy być w stanie wyciągnąć pewne wnioski przyczynowe w badaniach jednoramiennych, jak omówił Scott Evans:

... badania jednoramienne są najlepiej wykorzystywane, gdy naturalna historia choroby jest dobrze poznana, gdy efekty placebo są minimalne lub nie istnieją, a kontrola placebo nie jest etycznie pożądana. Takie projekty można rozważyć, gdy nie oczekuje się spontanicznej poprawy uczestników, efekty placebo nie są duże, a randomizacja do placebo może nie być etyczna. Z drugiej strony, takie projekty nie byłyby dobrym wyborem dla badań oceniających metody leczenia bólu przewlekłego ze względu na duży efekt placebo w tych badaniach.

W mojej interpretacji powiedzmy, że masz bardzo poważną chorobę. Jego śmiertelność jest dobrze znana i dość wysoka. Powiedzmy, że wiemy, że 80% pacjentów umiera w ciągu jednego roku od zarażenia się chorobą X. Powiedzmy, że mamy serię przypadków (tj. Zbiór samych przypadków, bez kontroli), w których pacjentom podawano lek Y i zaobserwowaliśmy śmiertelność na poziomie 30% . Myślę, że w takim scenariuszu wielu badaczy byłoby skłonnych ostrożnie przypisać przyczynowość. Przeprowadzenie randomizowanego badania może nie być opłacalne. Gdyby nie były dostępne żadne dwuramienne badania obserwacyjne, prawdopodobnie bylibyśmy skłonni wydać zalecenia oparte tylko na serii przypadków.

Jak to myślenie rozciąga się na inne scenariusze, takie jak interwencja krajowa, o której wspomniałem? Myślę, że ekonomiści częściej spotykali się z tym scenariuszem. Myślę, że jest wiele badań na temat efektów związanych z Medicaid (w USA ten program zapewnia ubezpieczenie zdrowotne dla ubogich, co jest zbytnim uproszczeniem, ale wystarczy). Chodzi o to, że Medicaid jest kontrolowana przez stany (w przeciwieństwie do rządu federalnego lub krajowego). Niektóre stany rozszerzyły Medicaid wcześniej niż inne. Wydaje mi się, że ekonomiści wykorzystali tę rozbieżność, próbując przypisać przyczynowość, ale jestem mniej zaznajomiony z tym zestawem metod.

W badaniach dotyczących usług zdrowotnych, szpitalne listy kontrolne są dobrym paralelą ze względu na ryzyko wystąpienia skutków ubocznych. Najlepiej byłoby znaleźć, powiedzmy, 60 szpitali i wybrać losowo 30 z nich, aby zacząć korzystać z list kontrolnych. Bardzo trudno to zrobić. Możesz być badaczem w jednym szpitalu. Jedyne, co możesz zrobić, to porównanie przed i po. Tutaj prawdopodobnie chciałbyś, aby okresy przed i po interwencji były tak długie, jak to tylko możliwe. Nie jestem zaznajomiony z kwestiami związku przyczynowego w tego rodzaju scenariuszu.



To pytanie i odpowiedź zostało automatycznie przetłumaczone z języka angielskiego.Oryginalna treść jest dostępna na stackexchange, za co dziękujemy za licencję cc by-sa 4.0, w ramach której jest rozpowszechniana.
Loading...