Pytanie:
Dlaczego stała normalizacji w modelu bayesowskim nie jest rozkładem marginalnym
calveeen
2020-08-04 08:01:40 UTC
view on stackexchange narkive permalink

Wzór na regułę Baye'a jest następujący $$ p (\ theta | D) = \ frac {p (D | \ theta) p (\ theta)} {\ intp (D | \ theta) p (\ theta) d \ theta} $$

gdzie $ \ int p (D | \ theta) p (\ theta) d \ theta $ jest stałą normalizującą $ z $ .W jaki sposób $ z $ jest oceniany jako stała, gdy obliczanie całki staje się rozkładem krańcowym $ p (D) $ ?

Cztery odpowiedzi:
ericperkerson
2020-08-04 10:13:45 UTC
view on stackexchange narkive permalink

$ p (D) $ jest stałą w odniesieniu do zmiennej $ \ theta $ span> , nie w odniesieniu do zmiennej $ D $ .

Pomyśl o $ D $ jako o danych podanych w problemie, a $ \ theta $ jako parametr, który ma być oszacowany na podstawie danych. W tym przykładzie $ \ theta $ jest zmienną, ponieważ nie znamy wartości parametru do oszacowania, ale dane $ D $ jest naprawione. $ p (D) $ podaje względne prawdopodobieństwo zaobserwowania stałych danych $ D $ , które obserwujemy, która jest stała, gdy $ D $ jest stała i nie zależy w żaden sposób od możliwych wartości parametrów $ \ theta $ .

Addendum: Wizualizacja z pewnością byłaby pomocna. Sformułujmy prosty model: załóżmy, że nasz poprzedni rozkład jest rozkładem normalnym ze średnią 0 i wariancją 1, tj. $ p (\ theta) = N (0, 1) (\ theta) $ . Załóżmy, że zaobserwujemy jeden punkt danych $ D $ , gdzie $ D $ to narysowany z rozkładu normalnego ze średnią $ \ theta $ i wariancją 1, tj. $ p (D | \ theta) = N (\ theta, 1) (D) $ . Poniżej wykreślono nieznormalizowany rozkład późniejszy $ p (D | \ theta) p (\ theta) $ , który jest proporcjonalny do znormalizowanej późniejszej $ p (\ theta | D) = \ frac {p (D | \ theta) p (\ theta)} {p (D)} $ .

Dla dowolnej wartości $ D $ , spójrz na wycinek tego wykresu (pokazałem dwa na czerwono i niebiesko).Tutaj $ p (D) = \ int p (D | \ theta) p (\ theta) d \ theta $ można wizualizować jako obszar pod każdym wycinkiem, któryWykreśliłem też z boku na zielono.Ponieważ niebieski wycinek ma większy obszar niż czerwony, ma wyższą wartość $ p (D) $ .Ale możesz wyraźnie zobaczyć, że nie mogą to być obecnie prawidłowe rozkłady, jeśli mają różne obszary pod sobą, ponieważ ten obszar nie może wynosić 1 dla nich obu.Dlatego każdy wycinek musi zostać znormalizowany, dzieląc go przez jego wartość $ p (D) $ , aby uzyskać właściwą dystrybucję.

enter image description here

Hej, dziękuję za odpowiedź.Rozumiem, co masz na myśli.Ale jak można sobie wyobrazić prawdopodobieństwo, że dane $ p (D) $ są marginalizowane w stosunku do $ \ theta $?W tym sensie, że niezależnie od wartości $ \ theta $ dla modelu, jest to prawdopodobieństwo $ p (D) $, że zobaczę te dane?
@calveeen: Tak, $ p (D) = \ int p (D | \ theta) p (\ theta) d \ theta $ to prawdopodobieństwo, że zaobserwujesz dane $ D $, jeśli parametr $ \ theta $ jest faktycznielosowo rozdzielane zgodnie z wcześniejszymi $ p (\ theta) $.W efekcie obliczylibyście prawdopodobieństwo, że zaobserwowanie danych $ D $ będzie _przed_ faktycznie przeprowadzeniem eksperymentu, bazując jedynie na swoim wcześniejszym przekonaniu o rozkładzie parametru $ \ theta $.
@calveen: Mam nadzieję, że odpowiedziałem na to w uzupełnieniu do mojej odpowiedzi.
@ericperkerson: Dziękuję za ilustrację!To jest rzeczywiście bardziej jasne.Kiedy powiedziałeś, że „nie mogą to być właściwe rozkłady, ponieważ obszar nie może wynosić 1 dla nich obu”, co przez to rozumiesz?p (D) dla obszaru pod niebieską krzywą jest wyższe niż pole pod czerwoną krzywą, ponieważ dane wygenerowane z niebieskiej krzywej są bliżej średniej 0 wcześniej.W jaki sposób stwierdzenie „skoro ten obszar nie może być 1 dla nich obu” prowadzi do ”. Dlatego każdy wycinek musi zostać znormalizowany przez podzielenie przez wartość (), aby uzyskać właściwy rozkład”?
Odpowiednie rozkłady prawdopodobieństwa całkuje się do 1, a $ \ int p (D | \ theta) p (\ theta) d \ theta = p (D) \ ne 1 $, chyba że mamy szczęście i tak się właśnie dzieje.Zwracam tylko uwagę, że na zdjęciu widać, że nie mogliśmy mieć szczęścia dla * obu * czerwonych i niebieskich krzywych.Jeden z nich nie może być równy 1, ponieważ mają różne wartości $ p (D) = $ (pole pod krzywą).To tylko jeden ze sposobów, aby zobaczyć konieczność normalizującej stałej $ p (D) $, ponieważ powoduje ona, że $ p (D | \ theta) p (\ theta) $ znajduje się w odpowiednim rozkładzie.
@ericperkerson przepraszam za ponowne otwarcie tego posta.Wracając do tego ponownie, chciałbym poprosić o wyjaśnienia dotyczące wizualizacji.Niezormalizowana tylna (|) () to funkcja gęstości stawu (,)?Następnie niebieska krzywa wskazuje rozkład dla danego, który jest znany.Czy jest proporcjonalna do późniejszej dystrybucji?Ponadto zielona krzywa przedstawia funkcję prawdopodobieństwa $ p (D | \ theta) $?
To prawda, $ p (D | \ theta) p (\ theta) = p (D, \ theta) $, ale jest nieco inna interpretacja.Zwykle myślimy o gęstości połączenia $ p (D, \ theta) $ jako funkcji dwóch zmiennych, tj. Przy czym $ D $ i $ \ theta $ są zmiennymi.To jest wykres powierzchni na wykresie.Jednak normalnie myślimy o un-znormalizowanym późniejszym $ p (D | \ theta) p (\ theta) $ jako o funkcji tylko $ \ theta $, gdzie $ D $ jest stałą stałą.Dlatego na wykresie pokazuję nieznormalizowane tylne strony jako * wycinki * wykresu powierzchni.To są krzywe niebiesko-czerwone.Zielona krzywa to $ p (D) $, a nie $ p (D | \ theta) $.
Odpowiedź @Xi'an's daje doskonałe wyjaśnienie interpretacji zielonej krzywej $ p (D) $ (zwanej również * dowodem *).Zasadniczo jest to prawdopodobieństwo (w rzeczywistości prawdopodobieństwo) zaobserwowania danych $ D $, które faktycznie zaobserwowaliśmy, zakładając, że nasz model jest poprawny.W modelu z mojej odpowiedzi wartości D $ bliskie 0 są znacznie bardziej prawdopodobne niż wartości odległe od 0, co widać z faktu, że zielona krzywa jest największa w pobliżu 0 i mała, gdy oddalasz się od 0.
@ericperkerson Widzę, dziękuję!Zielona krzywa przedstawia $ p (D | \ theta) $ przy ustalonej wartości $ \ theta $.Czy to prawda, że całka po tym rozkładzie daje 1?
@calveeen Prawie, zielona krzywa $ p (D) $ jest całką $ \ int p (D | \ theta) p (\ theta) d \ theta $, więc nie jest to żadna ustalona wartość $ \ theta $, ale cośjak średnia ważona ze wszystkich możliwych wartości $ \ theta $.I tak, jest to poprawna dystrybucja, więc integruje się z 1.
@ericperkerson ups: / Byłem lekko zdezorientowany, myślałem, że zielona krzywa została uzyskana z wycięcia kawałka wzdłuż $ \ theta $.W takim przypadku wzięcie kawałka wzdłuż $ \ theta $ dałoby $ p (D | \ theta) $ dla jakiegoś ustalonego $ \ theta $?
Pamiętaj, że wysokość pionowej czerwonej linii pod czerwoną krzywą reprezentuje obszar pod czerwonym plasterkiem i podobnie dla niebieskiego.Są to wycinki $ p (D, \ theta) = p (D | \ theta) p (\ theta) $ dla stałej wartości $ D $, a nie $ \ theta $.Wycinek $ p (D, \ theta) = p (D | \ theta) p (\ theta) $ dla stałej wartości $ \ theta $ nie jest pokazany na wykresie, ale biegłyby równolegle do $ DOś $ podobnie jak wykres $ p (D) $.
@calveeen Przepraszam, źle cię zrozumiałem.Tak, możesz mówić o wycinkach za ustalone $ \ theta $.W rzeczywistości te wycinki $ p (D | \ theta) p (\ theta) $ dla stałych wartości $ \ theta $ są proporcjonalne do funkcji prawdopodobieństwa $ p (D | \ theta) $, które opisują prawdopodobieństwo danych $D $ jeśli znamy $ \ theta $.
@ericperkerson.Hej, mam inne pytanie przepraszam>. <.Wykres powierzchni przedstawia rozkład gęstości złącza $ p (D, \ theta) $, gdy $ D $ i $ \ theta $ są traktowane jako zmienne losowe.Jednak gdy mamy ustalone $ D $, otrzymujemy rozkład krańcowy (wycinek niebieski lub czerwony) nad $ \ theta $, który wynosi $ p (\ theta | D = dane) $.Czy ta wielkość nie jest późniejszym rozkładem prawdopodobieństwa.Dlaczego jest nienormalizowany?czy moje powyższe założenia są błędne.
@calveeen Fragment wspólnej dystrybucji to po prostu $ p (D_0, \ theta) $ dla ustalonej wartości $ D $, którą nazywam $ D_0 $, lub jeśli pokroisz to w inny sposób, $ p (D, \theta_0) $ dla stałej wartości $ \ theta $, którą nazywam $ \ theta_0 $.Gęstość warunkowa dla stałej wartości $ D_0 $ wynosiłaby $ p (\ theta | D_0) = \ frac {p (\ theta, D_0)} {p (D_0)} $ według definicji prawdopodobieństwa warunkowego, które ma normalizującestała w mianowniku.
@ericperkerson bardzo dziękuję!
@ericperkerson To bardzo dobra odpowiedź!Szczególnie ilustracja jest bardzo pomocna.Czy możesz nam powiedzieć, jakiego programu użyłeś do jego stworzenia?Chciałbym stworzyć taki dla moich uczniów.
@M.A.Użyłem Mathematica do zrobienia diagramu i byłbym szczęśliwy, mogąc udostępnić ci kod, jeśli masz dostęp do Mathematica i chcesz kod.
@ericperkerson Dziękuję, byłoby wspaniale!
@M.A.https://github.com/eric-perkerson/miscellaneous/blob/master/BayesTheoremPlot.nb
Xi'an
2020-08-04 12:42:02 UTC
view on stackexchange narkive permalink

Stała normalizująca w części tylnej jest marginalną gęstością próbki w modelu bayesowskim.

Pisząc późniejszą gęstość jako $$ p (\ theta | D) = \ frac {\ overbrace {p (D | \ theta)} ^ \ text {likelihood} \ overbrace {p (\ theta)} ^ \ text {prior}} {\ underbrace {\ int p (D | \ theta) p (\ theta) \, \ text {d} \ theta} _ \ text {marginal}} $$ [który niestety używa tego samego symbolu $ p (\ cdot) $ i ma różne znaczenia], ta gęstość jest uzależniona od $ D $ z $$ \ int p (D | \ theta) p (\ theta) \, \ text {d} \ theta = \ mathfrak e (D) $$ będąca gęstością graniczną próbki $ D $ . Oczywiście pod warunkiem realizacji $ D $ , $ \ mathfrak e (D) $ jest stała, podczas gdy $ D $ jest różne, podobnie jak $ \ mathfrak e (D) $ . W kategoriach probabilistycznych $$ p (\ theta | D) \ mathfrak e (D) = p (D | \ theta) p (\ theta) $$ to łączna gęstość dystrybucji (losowej) pary $ (\ theta, D) $ w modelu bayesowskim [gdzie oba $ D $ i $ \ theta $ to zmienne losowe].

Statystyczne znaczenie $ \ mathfrak e (D) $ jest jednym z „dowodów” (lub „wcześniejszych prognoz” lub „marginalnych prawdopodobieństw”) dotyczących zakładany model $ p (D | \ theta) $ . Jak ładnie wskazał Ilmari Karonen, jest to gęstość próbki przed jej obserwacją i jedyna informacja o parametrze $ \ theta $ dostarczona przez poprzednią dystrybucję . Oznacza to, że próbka $ D $ jest uzyskiwana poprzez najpierw wygenerowanie wartości parametru $ \ theta $ z wcześniej, a następnie wygenerowanie próbki $ D $ w zależności od realizacji $ \ theta $ .

Biorąc średnią $ p (D | \ theta) $ z wartości $ \ theta $ span>, ważony poprzednim $ p (\ theta) $ , daje wartość liczbową, która może być użyta do porównania tego modelu [w statystycznym sensie rodziny sparametryzowanych rozkładów z nieznanym parametrem] z innymi modelami, tj. innymi rodzinami sparametryzowanych rozkładów z nieznanym parametrem. Współczynnik Bayesa to stosunek takich dowodów.

Na przykład, jeśli $ D $ składa się z jednej uwagi, powiedz $ x = 2.13 $ span >, a jeśli ktoś chce porównać Model 1, model normalny (dystrybucyjny), $ X \ sim \ mathcal N (\ theta, 1) $ , z $ \ theta $ nieznany, w Modelu 2, model wykładniczy (rozkład), $ X \ sim \ mathcal E (\ lambda) $ , przy nieznanym $ \ lambda $ , współczynnik Bayesa wyprowadzi oba dowody $$ \ mathfrak e_1 (x) = \ int _ {- \ infty} ^ {+ \ infty} \ frac {\ exp \ {- (x- \ theta) ^ 2/2\}} {\ sqrt {2 \ pi}} \ text {d} \ pi_1 (\ theta) $$ i $$ \ mathfrak e_2 (x) = \ int_ {0} ^ {+ \ infty} \ lambda \ exp \ {- x \ lambda \} \ text {d} \ pi_2(\ lambda) $$ Aby skonstruować takie dowody, należy ustawić oba priorytety $ \ pi_1 (\ cdot) $ i $ \ pi_2 (\ cdot)$ .Dla przykładu, powiedzmy $$ \ pi_1 (\ theta) = \ frac {\ exp \ {- \ theta ^ 2/2 \}} {\ sqrt {2 \ pi}} \ quad \ text {i} \ quad \ pi_2 (\ lambda) = e ^ {- \ lambda} $$ Następnie $$ \ mathfrak e_1 (x) = \ frac {\ exp \ {- (x- \ theta) ^ 2/4 \}} {\ sqrt {4 \ pi}} \quad \ text {and} \ quad \ mathfrak e_2 (x) = \ frac {1} {1 + x} $$ prowadzący $$ \ mathfrak e_1 (2.13) = 0,091 \ quad \ text {and} \ quad \ mathfrak e_2 (x) = 0,32 $$ co daje pewną przewagę Modelowi 2, wykładniczemu modelowi dystrybucji.

Brak nawiasu zamykającego (na ostatnim ekranie.
* Biorąc średnią $ p (D | θ) $ z wartości $ θ $, ważonej wcześniejszymi $ p (θ) $ ... * To jest margines późniejszej gęstości.Czyli gęstość krańcowa (dla danej próbki) jest porównywana z różnymi założonymi parametrami modelu w tej samej próbie… prawda?
@naive: nie, gęstość krańcowa (danej próbki) integruje parametry, a więc daje pojedynczą wartość liczbową, $ p (D) $.Porównanie ma miejsce, gdy kilka modeli statystycznych (tj. Kilka modeli $ p, takich jak model normalny kontra wykładniczy) jest przeciwnych przy wyborze najbardziej odpowiedniego.
Dziękuję @Xi'an za edycję.Wszystko wyjaśnia.
@naive: zamieszanie może wynikać z różnych znaczeń „model”.Zwykłe rozumienie to zbiór gęstości prawdopodobieństwa, sparametryzowanych przez nieznany parametr, np. $$ \ mathfrak M = \ left \ {p (\ cdot | \ theta); \ \ theta \ in \ Theta \ right \}$$
Will
2020-08-04 15:01:58 UTC
view on stackexchange narkive permalink

Myślę, że najłatwiejszym sposobem zorientowania się, co się dzieje, jest przemyślenie, jak można przybliżyć całkę.

Mamy $ p (\ mathcal {D}) = \ int p (\ mathcal {D} | \ theta) p (\ theta) \ rm d \ theta $ span>.

Zauważ, że jest to tylko średnia prawdopodobieństwa (pierwszy człon w całce) z poprzedniej dystrybucji.

Jeden sposób na obliczenie tej całki w przybliżeniu: próbka z poprzedniej, ocena prawdopodobieństwa, powtarzanie tego wiele razy i uśrednianie wyników.

Ponieważ zarówno poprzedni, jak i zbiór danych są stałe, wynik tej procedury nie zależy od wartości $ \ theta $ . $ p (\ mathcal {D}) $ to tylko oczekiwane prawdopodobieństwo w porównaniu z poprzednim.

Sextus Empiricus
2020-08-04 21:52:04 UTC
view on stackexchange narkive permalink

Dlaczego stała normalizacji w modelu bayesowskim nie jest rozkładem marginalnym?

Stała normalizacji jest rozkładem marginalnym.

„W jaki sposób $ z $ jest oceniany jako stała, gdy obliczanie całki staje się rozkładem krańcowym $ p (D ) $

Całka rzeczywiście zapewnia gęstość prawdopodobieństwa obserwacji ( $ D $ może mieć dowolną wartość). Tak więc $ z $ lub lepiej $ z (D) $ jest funkcją $ D $ .

Ale kiedy oceniasz $ z (D) $ dla określonej obserwacji $ D $ , wtedy wartość jest stałą (pojedynczą liczbą, a nie rozkładem).

$$ p (\ theta | D) = \ frac {p (D | \ theta) p (\ theta)} {\ int p (D | \ theta) p (\ theta) d \ theta} = \ frac {p (D | \ theta) p (\ theta)} {p (D)} $$

Zwróć uwagę, że późniejsza $ p (\ theta | D) $ jest funkcją $ D $ span >. Dla innego $ D $ otrzymasz inny wynik.



To pytanie i odpowiedź zostało automatycznie przetłumaczone z języka angielskiego.Oryginalna treść jest dostępna na stackexchange, za co dziękujemy za licencję cc by-sa 4.0, w ramach której jest rozpowszechniana.
Loading...