Pytanie:
Jaka regresja / oszacowanie nie jest MLE?
High GPA
2019-12-27 06:02:36 UTC
view on stackexchange narkive permalink

Po prostu rygorystycznie dowiedziałem się, że OLS to szczególny przypadek MLE.Zaskakuje mnie, ponieważ popularne i „wiarygodne” źródła, takie jak researchgate i to, nie wspominają o tym najważniejszym połączeniu między MLE i OLS!

Nie jestem pewien, czy istnieje jakaś prosta metoda regresji lub oszacowania, która nie należy do MLE.

Z tego, co widziałem, pytania i odpowiedzi Researchgate nie są szczególnie wiarygodne.Nigdy nie słyszałem o „różnicy między”.Uważaj na to, co czytasz w Internecie (lub w niektórych podręcznikach, chociaż częstotliwość dobrych źródeł jest wtedy lepsza)
... I tak, w pełni uznaję moje oświadczenie zawarte w tej witrynie.Tak więc powinno - zdecydowanie powinieneś być sceptycznym konsumentem informacji i porad w każdym przypadku.Ale przynajmniej StackExchange ułatwia znajdowanie i naprawianie błędów w czasie, na przykład poprzez zachęcanie do ciągłego doboru odpowiedzi i konsolidacji pytań w kanoniczne wątki.Nie eliminuje problemów, ale wyraźnie poprawia średnią jakość.
Pięć odpowiedzi:
Glen_b
2019-12-27 06:23:17 UTC
view on stackexchange narkive permalink

Metoda najmniejszych kwadratów jest rzeczywiście największym prawdopodobieństwem, jeśli błędy są iid normalne, ale jeśli nie są normalne, metoda najmniejszych kwadratów nie jest maksymalnym prawdopodobieństwem. Na przykład, gdyby moje błędy były logistyczne, metoda najmniejszych kwadratów nie byłaby złym pomysłem, ale nie byłoby to maksymalne prawdopodobieństwo.

Wiele estymatorów nie jest estymatorami maksymalnego prawdopodobieństwa; podczas gdy estymatory maksymalnego prawdopodobieństwa mają zwykle wiele przydatnych i atrakcyjnych właściwości, nie są jedyną grą w mieście (a nawet nie zawsze są świetnym pomysłem).

Kilka przykładów innych metod szacowania może obejmować

  • metoda momentów (obejmuje zrównanie wystarczającej liczby momentów próby i populacji do rozwiązania w celu oszacowania parametrów; czasami okazuje się, że jest to maksymalne prawdopodobieństwo, ale zwykle tak nie jest)

    Na przykład zrównanie pierwszego i drugiego momentu w celu oszacowania parametrów rozkładu gamma lub równomiernego rozkładu; nie jest to maksymalne prawdopodobieństwo w obu przypadkach.

  • metoda kwantyli (zrównanie wystarczającej liczby kwantyli próbki i populacji do rozwiązania w celu oszacowania parametrów; czasami jest to maksymalne prawdopodobieństwo, ale zwykle nie jest),

  • minimalizowanie innej miary braku dopasowania niż $ - \ log \ mathcal {L} $ (np. minimalna chi-kwadrat, minimalna odległość KS) .

Dopasowując modele typu regresji liniowej, możesz na przykład przyjrzeć się solidnej regresji (z których niektóre odpowiadają metodom ML dla określonego rozkładu błędów, ale wiele z nich nie).

W przypadku prostej regresji liniowej, pokazuję przykład dwóch metod dopasowania linii, które nie są maksymalnym prawdopodobieństwem tutaj - tam estymowanie nachylenia przez ustawienie na 0 niektórych inna miara korelacji (tj. inna niż zwykła metoda Pearsona) między resztami a predyktorem.

Innym przykładem może być linia odporna Tukey'a / linia trzech grup Tukeya (np. patrz ? line w R).Istnieje wiele innych możliwości, chociaż wiele z nich nie daje się łatwo uogólnić na sytuację regresji wielorakiej.

Bardzo dziękuję za tę szczegółową odpowiedź!Zastanawiam się, czy wszystkie metody regresji mają jakieś funkcje prawdopodobieństwa, mówiąc luźno, nawet jeśli nie jest to procedura maksymalnego prawdopodobieństwa.
Naprawdę nie wiem, o co pytasz, przepraszam.Parametry w całkowicie określonych w inny sposób rozkładach mają funkcje prawdopodobieństwa.
Przepraszam za niejasność.Chciałbym tylko potwierdzić, że nawet jeśli metoda regresji (np.OLS) nie jest MLE, nadal możemy obliczyć funkcję wiarygodności z uzyskanego modelu.Czy to prawda?Dziękuję za pomoc i mam nadzieję, że to jest jaśniejsze
* Jeśli * masz model dystrybucji (np. Dla rozkładu warunkowego w sytuacji podobnej do regresji) i dane, możesz obliczyć funkcję wiarygodności, bez odwoływania się do żadnych konkretnych oszacowań.Następnie możesz użyć tej funkcji do obliczenia wiarygodności * wartość * dla uzyskanych wartości dopasowanych parametrów (niezależnie od tego, jak je otrzymałeś), tak jak w przypadku dowolnego określonego zestawu wartości parametrów - ale w jakim celu?
„Na przykład, jeśli moje błędy były logistyczne, metoda najmniejszych kwadratów nie byłaby złym pomysłem, ale nie byłoby to maksymalne prawdopodobieństwo”.- Może nie rozumiem, co masz na myśli przez błąd logistyczny, ale jeśli myślę, że to masz na myśli, to błąd logistyczny jest oszacowaniem Bernoulliego z maksymalnym prawdopodobieństwem.Większość GLM można postrzegać jako MLE dla niektórych wykładniczych rozkładów rodzin.
Wydaje mi się, że możesz źle zrozumieć opisaną w tej części sytuację.W sytuacji, gdy rozkład błędu to [rozkład logistyczny] (https://en.wikipedia.org/wiki/Logistic_distribution), ale oszacowanie to OLS (zgodnie z estymatorem wspomnianym w pytaniu), nie masz MLEale to (OLS) jest mimo wszystko całkiem rozsądnym estymatorem - po prostu nieoptymalnym, ponieważ jest wrażliwy na bardziej ekstremalne punkty, które będą pojawiać się częściej niż jest to najlepsze w radzeniu sobie z nimi.
Cliff AB
2019-12-28 00:19:28 UTC
view on stackexchange narkive permalink

Podejścia bayesowskie nie obejmują maksymalizacji funkcji prawdopodobieństwa, ale raczej integrację z późniejszą dystrybucją. Zauważ, że model bazowy może być dokładnie identyczny (tj. Regresja liniowa, uogólniona regresja liniowa), ale musimy również podać wcześniejszy rozkład, który uchwyci naszą niepewność parametrów przed zobaczeniem danych. Dystrybucja a posteriori to po prostu znormalizowany rozkład wcześniejszych czasów prawdopodobieństwa.

Uważam, że większość współczesnych statystyków ogólnie zgadza się, że podejście bayesowskie jest generalnie lepsze od podejścia MLE do oceny parametrów. Jednakże, gdy mamy dużo danych, może nie być tak dużo lepiej, że są to zarówno dodatkowe koszty obliczeniowe (integracja jest trudniejsza niż optymalizacja!) i dodatkowy wysiłek wymyślanie wcześniejszej dystrybucji. W rzeczywistości można wykazać, że asymptotycznie przybliżenie normalne MLE + zbliża się do późniejszego rozkładu w określonych warunkach.

AdamO
2019-12-28 00:23:42 UTC
view on stackexchange narkive permalink

Wszystkie MLE to minimaksy, ale nie wszystkie minimaksy to MLE.Niektóre przykłady estymatorów minimaksów, które nie maksymalizują prawdopodobieństwa, to regresja ROC, warunkowa regresja logistyczna, modele proporcjonalnego hazardu Coxa, najbliższy sąsiad, quasi-prawdopodobieństwo, lista jest długa.Estymator Hodge'a „superefektywny” bije maksymalne prawdopodobieństwo jako bardziej efektywny estymator UMVUE (nieobciążona minimalna wariancja) średniej w normalnej próbce, ale NIE jest minimaksem

Nie jestem pewien, czy powiedziałbym, że modele Cox PH nie są MLE;rozwiązanie Coxa PH to optymalne wartości parametrów dla funkcji częściowej wiarygodności.
-1
Och, ciekawe, nie zdawałem sobie sprawy, że były ogromne dyskusje na temat tego, czy uważać model Cox PH za MLE!
Michael Hardy
2019-12-29 05:27:08 UTC
view on stackexchange narkive permalink

$$ Y_i = \ alpha + \ beta x_i + \ varepsilon_i $$

  • $ \ alpha, \ beta $ są nieprzypadkowe i nieobserwowalne.
  • $ \ varepsilon_i $ są losowe i nie można ich zaobserwować.
  • $ x_i $ nie są losowe i można je zaobserwować.
  • $ Y_i $ są w konsekwencji losowe i można je zaobserwować.

Załóżmy, że masz założenia Gaussa – Markowa:

  • Błędy $ \ varepsilon_i $ mają oczekiwaną wartość zero.
  • Wszystkie błędy mają tę samą (skończoną) wariancję, ale niekoniecznie ten sam rozkład (w szczególności nie zakłada się, że są one normalne).
  • Błędy są nieskorelowane, ale niekoniecznie są niezależne.

Nie można zrobić MLE, ponieważ nie ma sparametryzowanej rodziny dystrybucji. Ale nadal można robić zwykłe najmniejsze kwadraty.

Wśród wszystkich liniowych kombinacji $ y $ -wartości z nielosowymi obserwowalnymi współczynnikami, które są niezabezpieczonymi estymatorami $ \ alpha $ i $ \ beta, $ estymatory typu najmniejszych kwadratów mają najmniejszą wariancję.

AJKOER
2019-12-27 23:40:31 UTC
view on stackexchange narkive permalink

Odpowiedzią na pytanie „Jaka regresja / oszacowanie nie jest MLE?”, prostą i solidną alternatywą dla metody najmniejszych kwadratów (LS), jest podobno najmniejsze odchylenie bezwzględne (LAD).

Cytując źródło:

„Metoda najmniejszych odchyleń bezwzględnych (LAD) jest jedną z głównych alternatyw dla metody najmniejszych kwadratów, gdy dąży się do oszacowania parametrów regresji. Celem regresji LAD jest zapewnienie solidnego estymatora.”

Co ciekawe, zgodnie z odniesieniem, cytując: „Oszacowanie najmniejszych bezwzględnych odchyleń pojawia się również jako oszacowanie maksymalnego prawdopodobieństwa, jeśli błędy mają rozkład Laplace'a”. Oto link, który omawia kilka interesujących zastosowań Laplace'a (jak wcześniej Bayesian i do ekstremalnych wydarzeń).

Historycznie rzecz biorąc, procedura LAD została wprowadzona 50 lat przed metodą najmniejszych kwadratów (1757) przez Rogera Josepha Boscovicha, który zastosował ją do pogodzenia niespójnych miar związanych z kształtem ziemi.

Przykładową różnicą jest bardzo prosty przypadek Y = Constant, gdzie LS zwraca średnią z próbki, podczas gdy LAD wybiera medianę próbki! Tak więc w kontekstach z jedną lub dwiema skrajnymi wartościami, które z jakiegokolwiek powodu (jak heteroskedastyczność), które mogą się pojawić, LS może wykazać duże przesunięcie w prawdziwym oszacowaniu nachylenia, zwłaszcza gdy jest jedna bardzo niska i / lub wysoka obserwacja, jak zauważona słabość. Wikipedia na temat silnej regresji zawiera dodatkowy komentarz:

„W szczególności oszacowania metodą najmniejszych kwadratów dla modeli regresji są bardzo wrażliwe na wartości odstające”.

W odniesieniu do zastosowań może to być szczególnie ważne, na przykład w chemicznej analizie danych w celu przewidzenia tak zwanego prawa szybkości reakcji (które jest oparte na oszacowaniu nachylenia).

LAD to MLE dla odpowiedzi warunkowych z rozkładami Laplace'a.


To pytanie i odpowiedź zostało automatycznie przetłumaczone z języka angielskiego.Oryginalna treść jest dostępna na stackexchange, za co dziękujemy za licencję cc by-sa 4.0, w ramach której jest rozpowszechniana.
Loading...