Pytanie:
Dlaczego użycie błędu kwadratowego jest standardem, skoro błąd bezwzględny jest bardziej odpowiedni dla większości problemów?
Ryan Volpi
2020-06-06 00:47:04 UTC
view on stackexchange narkive permalink

Rozumiem, że fragmenty tego tematu zostały omówione na tym forum. Kilka przykładów:

Nadal nie rozumiem, dlaczego regresja OLS jest nadal domyślnym rozwiązaniem problemu regresji liniowej. Wydaje mi się, że w większości praktycznych sytuacji koszty związane z błędami są liniowe lub w przybliżeniu liniowe. Jeśli zamówię 2 dodatkowe części, poniosę dwa razy więcej niepotrzebnych kosztów w porównaniu z zamówieniem 1 dodatkowej części. Dlatego optymalne rozwiązanie, które produkuje OLS, nie będzie w rzeczywistości odpowiadać optymalnemu rozwiązaniu. Rozumiem, że ogólnie można zminimalizować wszelkie metryki błędów, które są najbardziej sensowne w danej sytuacji. Moje pytanie nie dotyczy tego, czy użycie MAE w konkretnym przypadku jest możliwe lub dobry; chodzi o konwencję. Dlaczego MSE jest zminimalizowane w prawie wszystkich prostych przypadkach zamiast MAE, skoro rzeczywisty koszt jest zazwyczaj liniowy?

Przypadki, które widziałem w celu zminimalizowania MSE, obejmują następujące:

  1. MSE jest stale różnicowalne
  2. Kwadrat powoduje większe straty w przypadku dużych błędów
  3. Ma to sens, ponieważ zakładamy, że błędy są dystrybuowane normalnie

Jeśli jednak z łatwością możemy przeprowadzić regresję z błędami bezwzględnymi, a my zajmujemy się przede wszystkim prognozowaniem, nie widzę, w jaki sposób te punkty prowadzą kogokolwiek do wybierania błędów kwadratowych. Jeśli mamy wybrać konwencję, czy absolutny błąd nie jest lepszy?

Ten post otrzymał wiele znakomitych odpowiedzi, z których wszystkie były dla mnie przydatne. Spośród tych odpowiedzi i odpowiedzi w innych miejscach, które według modów odpowiadają na moje pytanie, żadna z nich nie odnosi się dokładnie do prawdziwego źródła mojego zamieszania, z wyjątkiem odpowiedzi @ richard-hardy.

Coś w rodzaju @stephan-kolassa,, ale nie omawia wyboru, aby zminimalizować jedną stratę nad drugą, ani dlaczego wszędzie stosuje się błąd kwadratowy.Jest to jednak pomocne źródło informacji.
„nie omawia wyboru, aby zminimalizować jedną stratę w stosunku do drugiej” - widzę, „w jakim przypadku średni kwadratowy błąd byłby bardziej odpowiednią miarą błędu niż średni bezwzględny błąd” w tym pytaniu, które wydaje się byćdokładnie to, o co pytasz.Co do tego, dlaczego MSE jest wszechobecne, cóż, z jednej strony jest to argument o różniczkowalności, az drugiej jest to jedyny błąd, który zostanie zminimalizowany przez obiektywne szacunki / prognozy, czego bardzo często chcemy.Zobacz [moja odpowiedź] (https://stats.stackexchange.com/a/210857/1352) w tym wątku.
@StephanKolassa, on bias - tylko wtedy, gdy bias jest zdefiniowany jako $ E [y] - \ hat y $ i może tylko wtedy, gdy rozkład jest symetryczny (nie jestem pewien co do tego drugiego)
@Aksakal: no cóż, czyli * to * definicja błędu (z wyjątkiem technicznego zastosowania w sieciach neuronowych).I nie, fakt, że (R) MSE (i nic więcej) jest optymalizowany w oczekiwaniu właśnie przez obiektywną prognozę, jest prawdziwy nie tylko dla rozkładów symetrycznych.But jest z drugiej strony: w przypadku rozkładów symetrycznych MAE jest również minimalizowane przez obiektywną prognozę (ponieważ jest minimalizowane przez medianę, która jest oczekiwana w przypadku symetrii), ale generalnie tak nie jest i to jestpowód, by spojrzeć na MSE.
Myślę, że analityczna podatność na kwadrat straty jest historycznie potężnym punktem na jej korzyść.
Oto kolejne powiązane pytanie: https://stats.stackexchange.com/q/369589/164061.Kiedy optymalizujemy wynik funkcji kosztu, która zależy od bezwzględnego błędu, nadal może być przydatne użycie szacunków opartych na MSE.Istotną kwestią jest nie tylko funkcja kosztu, ale także rozkład błędów.Więc ... często używamy MSE, ponieważ tak wygląda większość rozkładów błędów (jak argumentował Gauss na podstawie kilku prostych aksjomatów).Ale w przypadku bardziej zabawnych dystrybucji sensowne jest użycie innych metod i uważam, że są one wszechobecne (tylko czasami przebrane za najmniejszych kwadratów, jak GLM).
Czy zduplikowane pytanie naprawdę odpowiada na to pytanie?Istnieje * wiele sposobów * na omówienie względnego wykorzystania MAE w porównaniu z MSE.W tym pytaniu sposób porównania wydaje się polegać na optymalizacji wyniku * w stosunku do jakiejś funkcji kosztu *.Nie widzę tego w drugim zduplikowanym pytaniu.W * żadnej * odpowiedzi nie widzę wyjaśnienia dotyczącego rozkładu próby oszacowania i pomysłu, że wybranie metody optymalizującej najniższy oczekiwany koszt może nadal optymalizować MSE, nawet jeśli funkcja kosztu jest związana z błędem bezwzględnym.
Siedem odpowiedzi:
Aksakal
2020-06-06 01:03:06 UTC
view on stackexchange narkive permalink

TLDR; Gdy nic nie wiadomo o faktycznym koszcie błędu dla użytkownika modelu, MSE jest lepszą opcją domyślną w porównaniu z MAE, ponieważ moim zdaniem łatwiej jest manipulować analitycznie i jest bardziej prawdopodobne, że pasuje do rzeczywisty koszt błędu.

To świetne pytanie. Podoba mi się, że zaczynasz od chęci dostosowania funkcji straty do rzeczywistych kosztów. Tak powinno być według mnie idealnie. Jednak wyprowadzanie funkcji kosztu na podstawie rzeczywistych kosztów za każdym razem, gdy budujesz model, jest niepraktyczne, więc skłaniamy się do korzystania z jednej z funkcji strat dostępnych w oprogramowaniu. Metoda najmniejszych kwadratów jest jedną z najpopularniejszych funkcji, głównie ze względu na wygodę matematyczną. Łatwiej sobie z tym poradzić analitycznie. Ponadto w niektórych przypadkach metoda najmniejszych kwadratów daje obiektywną prognozę punktową, czyli $ E [y] - \ hat y = 0 $ , co jest często uważane za pożądane z powodów sentymentalnych.

Powiedziawszy to, muszę stwierdzić, że nie jest dla mnie oczywiste, że bezwzględna utrata wartości jest bardziej realistyczna. Weź pod uwagę przedawkowanie narkotyków - w niektórych sytuacjach są one znacznie droższe niż niedostateczne dawki: niewystarczająco wysokie lub śmierć. W swoim przykładzie części rozważ to: co by było, gdybyś nie oszacował kosztu części na \ $ 1 i zawarł kontrakt forward na dostawę jednego miesiąca później za \ 1,1 $, wiedząc, że będziesz mieć 1 milion $ za miesiąc od dzisiaj. Zarobisz 10%!

Potem przychodzi dzień i części kosztują tak naprawdę 1,2 dolara za sztukę. Zatem nie tylko poniesiesz stratę w wysokości 100 000 $, ale również zabraknie Ci środków na dostarczenie 1 mln części. Jesteś więc zmuszony do niewypłacalności i bankructwa, co jest bardzo kosztowne. Z drugiej strony, gdybyś przeszacował koszt części, straciłbyś część zysku, ale nie znalazłbyś się w tragicznej sytuacji związanej z niewypłacalnością lub kryzysem płynności.

Jest to bardzo częsta sytuacja w biznesie, w której straty są asymetryczne i wysoce nieliniowe, z szybko rosnącymi kosztami w jednym kierunku błędu prognozy, ale nie w drugim. Stąd argumentowałbym, że strata bezwzględna, która jest symetryczna i wykazuje liniowe straty na błędach prognozowania, nie jest realistyczna w większości sytuacji biznesowych. Ponadto, chociaż symetryczna, kwadratowa strata jest co najmniej nieliniowa.

Jednak różnice między absolutną i kwadratową funkcją straty nie kończą się na tym. Na przykład można wykazać, że optymalną prognozą punktową straty bezwzględnej jest mediana, natomiast w przypadku straty kwadratowej jest to średnia.

Myślę, że następująca funkcja straty jest bardziej odpowiednia do prognozowania biznesowego w wielu przypadkach, w których błąd przekroczenia prognozy $ e = y- \ hat y $ może stać się bardzo kosztowny bardzo szybko: $$ \ mathcal L (e, \ hat y) = | \ ln \ left (1+ \ frac e {\ hat y} \ right) | $$ span> W tym przypadku, jeśli prognozujesz nieujemną ilość $ y $ , przeszacowanie jest potencjalnie katastrofalne. Wyobraź sobie, że bank prognozuje wielkość depozytów, a rzeczywisty wolumen depozytów okazał się znacznie niższy, niż się spodziewałeś. Może to mieć poważne konsekwencje. Ten typ asymetrycznej funkcji strat prowadzi do odchylonej optymalnej prognozy punktowej, tj. $ E [y] - \ hat y \ ne 0 $ , ale właśnie tego chcesz: w tego rodzaju problemach biznesowych chcesz popełnić błąd po stronie niedoszacowania.

Jak to się ma do MSE w porównaniu z MAE?Wydaje się, że jest to ogólnie wady symetrycznych funkcji strat.
+1.Bardzo często koszty są asymetryczne: jeśli mamy za dużo produktu pod ręką, możemy go jutro sprzedać, jeśli nie możemy go dziś sprzedać, ale jeśli mamy za mało, to tracimy sprzedaż - w takiej sytuacjilepiej jest przeceniać niż lekceważyć.I odwrotnie, jeśli mówimy o truskawkach, wszystko, czego dziś nie sprzedajemy, musimy wyrzucić, więc teraz niedoszacowanie jest lepsze niż przeszacowanie.Prowadzi to szybko do regresji kwantylowej i odpowiednich miar błędu, czyli strat w pinballu.
@Dave, szczegółową dyskusję można znaleźć w artykule „Optimal Point Forecast for Certain Bank Deposit Series”, patrz https://cer.columbian.gwu.edu/sites/g/files/zaxdzs2011/f/downloads/FFC2015.pdf, plik PDFma osadzony papier.Jest to jednak dość standardowa rzecz
Przypomnij swoją zmianę: proponowana funkcja straty oczywiście nagrodzi zawyżanie prognoz (zwiększenie $ \ hat {y} $ będzie miało tendencję do zmniejszania strat).Zastanawiam się, jaką funkcję wywołałaby twoja funkcja utraty ([Kolassa, 2020] (https://doi.org/10.1016/j.ijforecast.2019.02.017), uwaga bezwstydna autopromocja).
@Aksakal: Chyba nie rozumiem w pełni.Wydaje mi się, że twoja strata wynagrodzi przeczucie.(Czy możemy się z tym zgodzić?) Dlaczego więc mielibyśmy go używać, skoro przewidywanie jest * droższe * niż prognozowanie niedostateczne?Mówiąc bardziej ogólnie, nie czuję się komfortowo, używając funkcji straty, nie wiedząc, który z funkcji przyszłej dystrybucji wywołuje - zobacz ten mój mały artykuł, który łączę.Wolałbym najpierw dowiedzieć się, której funkcji chcę, a potem wybrać odpowiednią funkcję straty.
(Nawiasem mówiąc, jakiej konwencji używasz dla $ e $? Czy to $ e = y- \ hat {y} $, czy $ e = \ hat {y} -y $? [Obie są wspólne i obie mają dobre argumentyna korzyść.] (https://ideas.repec.org/a/for/ijafaa/y2008i10p38-40.html))
Błąd prognozy @StephanKolassa to $ e = y- \ hat y $.funkcja ta ma zastosowanie w przypadku, gdy prognozowanie dodatniej ilości jest droższe niż prognozowanie niedostateczne.Wyobraź sobie, że spodziewasz się depozytów \ 100 mld $, ale dostałeś tylko \ 10 mld $.W tym przypadku otrzymujesz koszt | \ ln 1-90 / 100 | = 2,3 $ podczas prognozowania o tę samą kwotę + \ 90B $ daje koszt $ | \ ln 1 + 100/190 | = 0,42 $, ponieważ faktyczny depozytwolumen wynosił \ $ 190
Hm.Wygląda na to, że czegoś nie widzę, będę musiał przyjrzeć się trochę więcej.Ciekawy.Zwykle nie wydaje mi się zbyt pouczające zamiana liczb w badaniu funkcji strat, wolę raczej przyjrzeć się (nieznanym) przyszłym rozkładom i dowiedzieć się, który punkt prognozy minimalizuje oczekiwaną stratę.Na przykład [dla przyszłej dystrybucji gamma] (https://stats.stackexchange.com/q/389318/1352) wygląda na to, że strata $ | \ log (y / \ hat {y}) | $ jest zminimalizowanaprzez prognozę punktową, która jest rzeczywiście obciążona nisko, tj. o jedną poniżej oczekiwań.
@StephanKolassa masz to!funkcja straty jest w rzeczywistości $ | \ ln y / \ hat y | $, jest zależna od lokalizacji, a nie tylko asymetryczna
Czy byłbyś zainteresowany poprawką [mój wątek na temat optymalnych prognoz dla rozkładu gamma] (https://stats.stackexchange.com/q/389318/1352) dla tej funkcji straty?Prawdopodobnie także dla [dystrybucji lognormalnej] (https://stats.stackexchange.com/q/389315/1352)?
Dziękuję za odpowiedź @akaskal.Twoja odpowiedź dobrze podkreśla słabość MAE, ale nie mogę powiedzieć, czy twierdzi, że MSE jest ogólnie lepsze.Czy uważasz, że jeśli ktoś ma ślepo zastosować metrykę, MSE jest lepsze?
Myślę, że jeśli nic innego nie jest znane, to MSE jest lepsze niż MAE.
@StephanKolassa Dodałem swoją odpowiedź do lognormal, ale zamknąłbym pytanie i zamiast tego zrobiłbym nowe na temat funkcji strat, ponieważ odpowiedzi są takie same dla każdej dystrybucji.Moja odpowiedź nie używa nigdzie określonej formy dystrybucji, więc ma zastosowanie do Gamma lub jakiejkolwiek innej dystrybucji, takiej jak beta lub Gaussian itp.
Czytałem gazetę Kuketayev.Okazuje się, że funkcja straty, którą proponujesz, jest minimalizowana w oczekiwaniu przez medianę przyszłego rozkładu, podobnie jak MAE.Zatem optymalna prognoza dla obu strat jest dokładnie taka sama.Ciekawe, dziękujemy za zwrócenie na to naszej uwagi!Czy znasz jakieś argumenty przemawiające za preferowaniem tej funkcji straty nad MAE (co jest znacznie prostsze do zrozumienia i wyjaśnienia)?
Peter Flom
2020-06-06 01:51:35 UTC
view on stackexchange narkive permalink

Myślę, że powód jest bardziej socjologiczny niż statystyczny.

Krótka wersja: robimy to w ten sposób, ponieważ zawsze tak było.

Dłuższa wersja: Historycznie rzecz biorąc, nie mogliśmy nie robić wielu rzeczy, które obecnie przyjmujemy za pewnik. Wiele rzeczy wymaga intensywnego korzystania z komputera, a Ronald Fisher urodził się przed Alanem Turingiem.

Tak więc ludzie robili regresję OLS - dużo. I ludzie czytają te regresje w różnego rodzaju dziedzinach merytorycznych i na kursach statystycznych w tych dziedzinach, w których nauczano ANOVA / regresji, a nie bardziej nowoczesnych metod.

Dodatkowo redaktorzy czasopism nauczyli się tych, a nie innych metod, i wielu odrzuci artykuły przy użyciu nowoczesnych metod, ponieważ np. „nie zostaną zrozumiani”.

Wielu praktyków odrzuca również nowoczesne metody; Kiedyś byłem typem maniaka analizy danych w szpitalu. Lekarze przychodzili, by pytać o moją radę, a gdyby nie „regresja OLS” lub „regresja logistyczna”, odrzucaliby moją radę.

Zrobiłem doktorat z psychometrii, a wielu moich profesorów z innych dziedzin psychologii nie znało żadnych nowoczesnych metod (jeden powiedział: „podaj tylko wartość p, to się liczy”).

Myślę, że powodem, dla którego OLS jest tak popularny, jest to, że powstał w nauce (Laplace itp.), Gdzie koszt błędu prognozy jest symetryczny i być może nieliniowy, więc spełnia najważniejsze wymagania i jest łatwiejszy do manipulacji analitycznej.Gdyby to zaczęło się w biznesie, założę się, że nie byłoby tak popularne, ponieważ biznesowy koszt błędu prognozy jest często asymetryczny
Dzięki regresji logistycznej masz już przykład, w którym odchodzimy od minimalizacji MSE.
Richard Hardy
2020-06-07 01:00:37 UTC
view on stackexchange narkive permalink

W pierwszych 5 odpowiedziach nie ma rozróżnienia między estimation loss i prediction loss, co jest kluczowe dla odpowiedzi na pytanie.A priori, nie ma powodu, aby te dwa elementy się pokrywały.Omówię oba typy strat w kontekście predykcji punktowej z wykorzystaniem regresji liniowej.Dyskusję można rozszerzyć na modele inne niż regresja liniowa i zadania inne niż przewidywanie punktowe, ale istota pozostaje taka sama.

Konfiguracja

Załóżmy, że masz problem z przewidywaniem w miejscu, w którym znajduje się model $$ y = X \ beta + \ varepsilon $$ gdzie $ \ varepsilon \ sim D (0, \ sigma) $ , $ D $ to jakiś rozkład prawdopodobieństwa z lokalizacją 0 $ i skalą $ \ sigma $ . Zamierzasz przewidzieć $ y_0 $ , biorąc pod uwagę $ x_0 $ , a Twoja prognoza punktów będzie wynosić $ \ hat y_0 $ , funkcja $ x_0 $ , próbka danych, model i kara (minus nagroda) zdefiniowana na podstawie błędu prognozy. Funkcja kary, przed którą stoisz, to $ L_P (y- \ hat y) $ . Ma minimum na zero (wartość $ L_P (0) $ można ustawić na zero bez utraty ogólności) i nie zmniejsza się po obu stronach zera; jest to typowa charakterystyka rozsądnej funkcji prediction loss. Możesz dowolnie wybrać funkcję estimation loss $ L_E (\ cdot) $ i funkcję przewidywania punktowego $ y_hat_0 $ span >. Jakie są dla Ciebie optymalne wybory? Będzie to zależeć od rozkładu błędów $ D $ i funkcji przewidywania utraty $ L_P (\ cdot) $ .

Szacunkowa strata

Utrata oszacowania określa, w jaki sposób oszacowania parametrów modelu są uzyskiwane z przykładowych danych. W naszym przykładzie regresji liniowej dotyczy ona oszacowania $ \ beta $ i $ \ sigma $ . Możesz je oszacować, minimalizując sumę kwadratów reszt (OLS) między rzeczywistą wartością $ y $ a odpowiednimi dopasowanymi wartościami, sumą reszt bezwzględnych (regresja kwantylowa przy medianie ) lub inną funkcją. O wyborze straty oszacowania można decydować rozkład błędów modelu. Najdokładniejszy estymator w pewnym sensie technicznym * zostanie osiągnięty przez stratę oszacowania, która sprawia, że ​​estymator parametrów jest estymatorem największej wiarygodności (ML). Jeśli błędy modelu są dystrybuowane normalnie ( $ D $ jest normalne), będzie to OLS; jeśli są rozłożone zgodnie z rozkładem Laplace'a ( $ D $ to Laplace), będzie to regresja kwantylowa przy średniej; itp.
* Aby uprościć, biorąc pod uwagę estymator ML, możesz oczekiwać dokładniejszych oszacowań parametrów od swojego modelu niż te zapewniane przez alternatywne estymatory.

Przewidywanie utraty

Utrata prognozy określa, w jaki sposób błędy prognoz są karane. Nie wybierasz tego, to jest dane. (Zazwyczaj określa to klient. Jeśli klient nie jest w stanie tego zrobić matematycznie, analityk powinien starać się to zrobić, uważnie słuchając argumentów klienta). Jeśli błąd prognozy powoduje stratę klienta (np. Stratę finansową) ), aby rosnąć kwadratowo i symetrycznie wokół zera, grozi nam kwadratowa utrata prognoz. Jeśli strata klienta rośnie liniowo i symetrycznie około zera, masz do czynienia ze stratą wynikającą z prognoz bezwzględnych. Istnieje wiele innych możliwości typów strat wynikających z prognoz, z którymi możesz się również zmierzyć.

Prognoza

Biorąc pod uwagę oszacowania parametrów modelu i wartości regresorów interesującego punktu, $ x_0 $ , należy wybrać prognozę punktową $ \ hat y_0 $ na podstawie przewidywanej straty. W przypadku straty kwadratowej wybierzesz szacunkową średnią $ y_0 $ , ponieważ prawdziwa średnia minimalizuje średnią stratę kwadratową (gdzie średnia jest brana z losowych próbek $ y_0 $ z zastrzeżeniem $ x = x_0 $ ). W przypadku straty bezwzględnej wybierzesz szacunkową medianę. W przypadku innej funkcji straty wybierzesz inne cechy rozkładu $ y_0 $ , które wymodelowałeś.

Wróć do pytania

Dlaczego ludzie często wybierają błąd kwadratowy zamiast błędu bezwzględnego lub odpowiednio kwadratową stratę zamiast straty bezwzględnej, jako estimation loss? Ponieważ zwykłe błędy ( $ D $ to normalne) są częste w aplikacjach, prawdopodobnie częściej niż błędy Laplace'a ( $ D $ to Laplace). Dzięki nim estymatory regresji są również wykonalne analitycznie. Jednak nie są one dużo łatwiejsze do obliczenia. Złożoność obliczeniowa OLS (odpowiadająca estymacji ML przy normalnych błędach) w porównaniu z regresją kwantylową przy medianie (odpowiadająca estymacji ML przy błędach Laplace'a) nie różni się znacząco. Dlatego istnieją pewne rozsądne argumenty przemawiające za wyborem OLS zamiast regresji kwantylowej przy medianie lub błędu kwadratowego względem błędu bezwzględnego.

Dlaczego ludzie wybierają błąd kwadratowy lub odpowiednio kwadratową stratę jako prediction loss?Może dla prostoty.Jak mogły wspomnieć niektóre z poprzednich odpowiedzi, musisz wybrać jakiś punkt odniesienia dla prezentacji podręcznika;nie można szczegółowo omówić wszystkich możliwych przypadków.Jednak argument za preferowaniem straty kwadratowej nad stratą bezwzględną, ponieważ strata wynikająca z prognozowania jest mniej przekonująca niż w przypadku straty oszacowanej.Rzeczywista strata prognozy prawdopodobnie będzie asymetryczna (jak omówiono w niektórych poprzednich odpowiedziach) i nie będzie bardziej prawdopodobne, że wzrośnie kwadratowo niż liniowo z błędem przewidywania.Oczywiście w praktyce należy kierować się specyfikacją klienta dotyczącą przewidywanej straty.Tymczasem w przypadkowych przykładach i dyskusjach, w których nie ma w pobliżu konkretnego klienta, nie widzę mocnego argumentu przemawiającego za przedawnieniem błędu kwadratowego nad bezwzględnym.

jest to absolutnie na nosie i odnosi się dokładnie do punktów, w których byłem zdezorientowany.Zastosowanie metody opisanej w sekcji „przewidywanie” dla dowolnego rozkładu błędów i funkcji kosztu wymaga oszacowania oczekiwanej wartości funkcji kosztu.Wymaga to, aby iloczyn rozkładu błędu i funkcji kosztu był całkowalny.Czy to jest poprawne?
@RyanVolpi, tak, myślę, że to prawda.Co ciekawe, spotkałem się z sytuacjami, w których tak nie jest;patrz [„Przy wyborze modelu, co zrobić, jeśli oczekiwana strata wszystkich modeli to nieskończoność?”] (https://stats.stackexchange.com/questions/425663/).
„Ponieważ normalne błędy są powszechne w aplikacjach, prawdopodobnie bardziej niż błędy Laplace'a” Nie sądzę, aby trzeba było tego zastrzegać słowami „dyskusyjnymi” - zmienne rozproszone Laplaciana pojawiają się tylko wtedy, gdy różnica między dwiema zmiennymi o rozkładzie wykładniczym jestrzadka sytuacja w porównaniu ze zmienną, która sama jest sumą wielu zmiennych niezależnych (np. ~ Gaussa)
W konsekwencji rozważ problem klasyfikacyjny.Zwykle trenujemy z utratą krzyżowej entropii (tj. Zakładamy, że dane są wynikiem niezależnych prób Bernoulliego), ale uważamy metryki za dokładność lub przypominamy, patrząc na walidację lub dane testowe
@stuart10, dzięki za komentarz, skreśliłem „prawdopodobnie”.
Wygląda na to, że stwierdzasz, że to, co nazywasz „utratą oszacowania”, musi być MLE.Myślę, że jest tu argument okrężny.Dlaczego MLE?Wiemy, że MLE i OLS podają te same szacunki przy założeniu normalności.Wygląda na to, że łączysz założenie dotyczące dystrybucji z funkcją straty.To nie jest oczywiste i nie sądzę, że to prawda
@Aksakal, dziękuję za komentarz.Po pierwsze, nie mówię, że musi to być MLE;Mówię, że z częstego punktu widzenia jest to rozsądny pierwszy wybór ze względu na właściwości optymalizacyjne MLE.(Z perspektywy bayesowskiej byłby to rozsądny wybór w przypadku płaskiego wcześniejszego). Biorąc pod uwagę optymalność MLE i wszechobecność błędów o rozkładzie normalnym, strata kwadratowa jest rozsądnym błędem w oszacowaniu.Może to uzasadniać jego popularność.Moim głównym punktem jest jednak ujednoznacznienie utraty szacunków i utraty prognoz.To jest to, co ludzie często uważają za mylące.
@RichardHardy Twój główny punkt jest interesujący.Nie jestem pewien, ale rozdzielenie kroków w ten sposób jest optymalne.Wyobraź sobie, że zrobiłeś coś takiego jak MLE prosto do optymalnej prognozy.w mojej odpowiedzi zakładam implicite, że rozkład jest znany, więc w tym sensie tak naprawdę nie mieszam oszacowania i prognozy, udaję, że szacowanie nie jest potrzebne.
@Aksakal, to ciekawe pytanie, które również rozważałem wcześniej i omawiałem gdzieś w komentarzach.Z punktu widzenia bayesowskiego oraz w ramach maksymalizacji oczekiwanej użyteczności, dwa kolejne kroki byłyby optymalne.Z częstego punktu widzenia uważam, że właściwości optymalności są trudniejsze do uchwycenia (patrz [„Optymalne decyzje oparte na częstych estymatorach”] (https://stats.stackexchange.com/questions/451246)) i mniej istotne dla praktycznego rozwiązywania problemów.W każdym razie ramy, które przedstawiam, są dość ortodoksyjne;nowość, jeśli w ogóle, tkwi w jej artykulacji.
@Aksakal,, a tutaj kilka luźniej powiązanych pytań: [„Oczekiwana maksymalizacja użyteczności, gdy przekonania są niedokładne”] (https://stats.stackexchange.com/questions/425655), [„Optymalność funkcji strat AIC wt używanych do oceny”](https://stats.stackexchange.com/questions/425675), ["Czy rozbieżność między funkcjami strat używanymi do dopasowania a doborem parametrów dostrajania może być uzasadniona?"] (https://stats.stackexchange.com/questions/369589).
A potem jest ciekawy argument przeciwko prawidłowym regułom punktacji, które mogą być w jakiś sposób powiązane z dyskusją.Gdy użyteczność nie jest afiniczną transformacją wyniku (co może być uzasadnione awersją do ryzyka itp.), Maksymalizacja oczekiwanej użyteczności byłaby w konflikcie z maksymalizacją oczekiwanego wyniku;patrz „Zasady punktacji” Winkler i Jose (2010).(Na razie to bardziej uwaga dla siebie).
stuart10
2020-06-06 19:05:33 UTC
view on stackexchange narkive permalink

Myślę, że warto cofnąć się o krok i zastanowić się, co oznaczają te dwie straty.

Patrząc na to z probabilistycznego punktu widzenia, funkcja straty jest równoważna założonej funkcji logarytmicznej wiarygodności, a zatem powinna odpowiadać temu, jak uważamy, że nasze pomiary są rozmieszczone wokół ich nieznanych „prawdziwych” wartości.

Jak powiedziałeś, w przypadku OLS jest to równoważne z założeniem prawdopodobieństwa Gaussa, gdzie jako bezwzględna funkcja utraty błędu jest równoważna prawdopodobieństwu Laplaca.Prawdopodobieństwa Gaussa znacznie częściej są dobrze dopasowane do rzeczywistego życia w wyniku centralnego twierdzenia granicznego.

Ogólnie rzecz biorąc, nasze przewidywania są ulepszane dzięki temu, że nasz zakładany (i niejawnie generujący) model jest możliwie najbliższy rzeczywistości.W wielu (większości?) Przypadkach poprawi to dokładność przewidywania za pomocą dowolnego rozsądnego wskaźnika (w tym np. Średniego błędu bezwzględnego).O wiele częściej jest tak przy założeniu, że prawdopodobieństwo Gaussa to osiągnie.

Czy twierdzisz, że model dopasowany przez OLS będzie faktycznie miał niższą oczekiwaną wartość MAE dla niewidocznych danych niż model pasujący przy użyciu MAE?
Nie w absolutnie wszystkich przypadkach nie, ale jeśli podstawowy proces generujący dane jest (w przybliżeniu) gaussowski, to założenie kwadratowej straty w uczeniu (tj. Prawdopodobieństwo Gaussa) często daje niższe MAE na niewidocznych danych niż zakładanie wyraźnie niepoprawnego modelu w uczeniu(tj. prawdopodobieństwo Laplaca).
Museful
2020-06-06 19:20:59 UTC
view on stackexchange narkive permalink

Jeśli błędy są niezależne i mają rozkład normalny (o dowolnej wariancji, ale spójny), to suma kwadratów błędów odpowiada ich łącznemu prawdopodobieństwu / prawdopodobieństwu.

$ \ Pi e ^ {- x_i ^ 2} = e ^ {- \ Sigma x_i ^ 2} $

Zatem w tych warunkach minimalizowanie sumy błędów kwadratowych jest tym samym, co maksymalizowanie prawdopodobieństwa.


Jeśli potrzebna jest prognoza minimalizująca koszty (gdzie miernik kosztu różni się od MSE), ogólne / dokładne podejście polegałoby na wyraźnym zminimalizowaniu oczekiwanego kosztu w całym rozkładzie modeli ważonych według ich prawdopodobieństw (lub prawdopodobieństw, jeśli masz wcześniejsza wiedza). To całkowicie oddziela problem minimalizacji oczekiwanych kosztów od problemu szacowania w obecności hałasu.

Załóżmy, że mierzysz stałą wielkość w obecności szumu Gaussa. Nawet jeśli miernikiem kosztów przyszłych wyników jest MAE, wolałbyś raczej przewidywać na podstawie średniej (minimalizując poprzednie MSE) niż mediany (minimalizując przeszłe MAE), jeśli rzeczywiście wiesz, że ilość jest stała, a szum pomiaru jest Gaussa.

Przykład

Rozważ następujący rozkład trafień zadawanych przez działo, które było mechanicznie unieruchomione. Na tarczy umieszczasz okrąg o podanej wielkości. Jeśli następny strzał wyląduje całkowicie w Twoim kręgu, wygrywasz, w przeciwnym razie przegrywasz. Funkcja kosztu ma postać $ f_C (x, y) = znak ((x-x_C) ^ 2 + (y-y_C) ^ 2-R ^ 2) $ span>.

enter image description here

Jeśli zminimalizujesz $ \ sum_i f_C (x_i, y_i) $ , umieścisz okrąg na niebieskiej pozycji, zawierającej w całości maksymalną liczbę poprzednich strzałów. Ale gdybyś wiedział, że broń jest zamocowana na miejscu, a błąd jest gaussowski, umieściłbyś okrąg w zielonej pozycji, pośrodku średniej / centroidu danych (minimalizując MSE), ponieważ optymalizujesz przyszłe oczekiwane wypłaty, a nie średnią przeszłość wypłata.

Czy istnieje praktyczny powód, dla którego maksymalizacja prawdopodobieństwa byłaby lepsza niż minimalizacja oczekiwania co do realistycznej miary kosztów?
@RyanVolpi Rozważmy na przykład najprostszy przypadek: próbę zmierzenia stałej wielkości w obecności szumu Gaussa.Nawet jeśli miarą kosztu przyszłych wyników jest błąd bezwzględny, wolałbyś raczej przewidywać za pomocą średniej (minimalizacja przeszłego błędu kwadratowego) niż mediany (minimalizacja przeszłego błędu bezwzględnego), jeśli rzeczywiście wiesz, że ilość jest stała, a szum pomiaru jest gaussowski.
@RyanVolpi Moim zdaniem minimalizacja kosztów prognozowania (przyszłości) jest kwestią odrębną od tłumienia szumu pomiaru (przeszłość).Wyraźnym sposobem na to byłoby zminimalizowanie dystrybucji modeli ważonych.
Nigdy nie myślałem o tym w ten sposób.Zatem w obecności szumu gaussowskiego średnia minimalizuje oczekiwane MAE lepiej niż mediana.Czy dotyczy to innych okoliczności?Na przykład, w przypadku modelu liniowego z błędem gaussowskim, czy oszacowania metodą najmniejszych kwadratów są lepsze niż bezwzględne oszacowania błędu pod względem oczekiwanego MAE?
@RyanVolpi Zakładam, że tak, o ile błędy pochodzą (ze względów praktycznych) z przypadkowego szumu gaussowskiego, a nie z nadmiernego ograniczenia modelu.
Czy byłbyś skłonny zmienić swoją odpowiedź, aby wyrazić to bardziej szczegółowo?Myślę, że jest to bardzo ważna kwestia, której nie uzyskałem z innych odpowiedzi.
@RyanVolpi Nie ma problemu, ale zajmie mi to trochę czasu, ponieważ nie mówię biegle żargonem.
@Aksakal centrowanie koła na średniej robi to.
@Aksakal na średniej próbki (środek ciężkości) w przypadku braku wcześniejszej informacji: punkt minimalizujący MSE w próbce.
@Museful po prostu nigdy nie przyszło mi do głowy, że trafienia z broni palnej są modelowane według skorelowanego rozkładu Gaussa.można by pomyśleć, że powinno być skośne rozmieszczenie na obu osiach z powodu asymetrii pistoletu względem korpusu i odrzutu.często patrzę na arkusz docelowy, ale nigdy nie myślałem o modelowaniu danych.ciekawy przykład
supercat
2020-06-06 22:35:58 UTC
view on stackexchange narkive permalink

Załóżmy, że ktoś rzuca jedną kością (ponumerowaną od 1 do 6) i chce obliczyć jej średnie odchylenie od średniej wartości 3,5. Dwie rolki różniłyby się o 0,5, dwa o 1,5 i dwa o 2,5, przy średnim odchyleniu 1,5. Jeśli weźmiemy średnią kwadratów wartości, otrzymamy jedno odchylenie 0,25, jedno 2,25 i jedno 6,25, co daje średnią 2,916 (35/12).

Teraz załóżmy, że zamiast rzucać jedną kostką, jeden rzuca dwoma. Średnie odchylenie wyniosłoby 1,94 (35/18), a średni kwadrat odchylenia wyniósłby 5,833 (70/12).

Jeśli zamiast rzucić dwiema kośćmi, ktoś chciałby oszacować oczekiwane odchylenie na podstawie tego, jakie było przy jednej kostce, podwojenie liniowego średniego odchylenia na pojedynczej kostce (tj. 1,5) dałoby wartość 3, czyli znacznie większą niż rzeczywiste średnie odchylenie liniowe 1,94. Z drugiej strony podwojenie średniego kwadratu odchylenia przy użyciu jednej kostki (2,916) dałoby dokładnie średni kwadrat odchylenia przy użyciu dwóch kości.

Ogólnie rzecz biorąc, pierwiastek kwadratowy średniej z kwadratów jest bardziej użyteczną liczbą niż średnia samych kwadratów, ale jeśli chce się obliczyć pierwiastek kwadratowy średniej z kilku kwadratów, łatwiej jest zachować wartości, które mają zostać dodane jako kwadraty, niż wziąć pierwiastki kwadratowe za każdym razem, gdy je zgłaszasz, a następnie przed ich dodaniem lub uśrednieniem należy je podnieść do kwadratu.

Drunk Deriving
2020-06-07 04:32:24 UTC
view on stackexchange narkive permalink

Moim zdaniem sprowadza się to do tego, że kwadratowy błąd gwarantuje unikalne rozwiązanie, łatwiejsze w obsłudze, a co za tym idzie dużo większą intuicję. Tylko przy dwóch głównych założeniach (i liniowości składnika błędu), kwadratowa funkcja straty gwarantuje, że oszacowany współczynnik jest unikalny zminimalizowany. Odchyłki najmniej bezwzględne nie mają tej właściwości. Zawsze istnieje nieskończona liczba rozwiązań. Zakładając, że $ \ istnieje \ theta_o \ in \ Theta $ takie, że $ E (y | x) = m (x, \ theta_o) $ i $ E ((m (x, \ theta) -m (x, \ theta_o) ^ 2) >0 $ dla wszystkich $ \ theta \ neq \ theta_o $ , a następnie $ \ theta_o $ jest unikalnym minimalizatorem dla najmniej liniowych kwadraty.

Dowód: niech $ y = m (x, \ theta_o) + u $ i $ E (u | x ) = 0 $ . Następnie $$ E _ {\ theta_o} ((ym (x, \ theta)) ^ 2) = E _ {\ theta_o} ((ym (x, \ theta_o) + m (x , \ theta_0) -m (x, \ theta)) ^ 2) $$

$$ = E _ {\ theta_o} (u ^ 2) + E _ {\ theta_o} ((m (x, \ theta_o) -m (x, \ theta)) ^ 2) + 2E _ {\ theta_o} (u (m (x, \ theta_o) -m (x, \ theta))). $$

Zgodnie z prawem iteracyjnych oczekiwań trzeci człon wynosi zero. Dlatego

$$ E _ {\ theta_o} ((ym (x, \ theta)) ^ 2) = u ^ 2 + E _ {\ theta_o} ((m (x, \ theta_o) -m (x, \ theta)) ^ 2) $$ jest unikalnie zminimalizowany w $ \ theta_o $ .

Kolejną fajną właściwością jest całkowite prawo wariancji

$$ Var (Y) = Var_X (E_Y (Y | X)) + E_X (Var_Y (Y | X)), $$

, którą można odczytać jako wariancję zmiennej zależnej, to wariancja dopasowanej wartości plus wariancja reszty.

Z bardziej technicznego punktu widzenia, asymptotyczne wzory są znacznie łatwiejsze w przypadku kwadratowej funkcji straty.Co ważne, wzory nie zależą od gęstości prawdopodobieństwa składnika błędu.Niestety nie dotyczy to odchyleń najmniej bezwzględnych.Dlatego większość praktyków w końcu musi założyć niezależność składnika błędu (formuła ma warunkową gęstość składnika błędu równą 0 w zależności od $ x $ , co jest niemożliwe dooszacowanie ( $ f_ {u | x} (0) $ )) do oszacowania $ f_u (0) $ span>.

A najmniej rygorystyczną kwestią jest to, że ludzie mają łatwy czas na zrozumienie, czym jest średnia lub oczekiwana wartość, a kwadratowa strata rozwiązuje warunkowe oczekiwanie.Najmniej bezwzględne odchylenia podeszwy mediany, które są po prostu trudniejsze do zinterpretowania.Kolejny powód, dla którego regresje kwantylowe nie są zbyt popularne.



To pytanie i odpowiedź zostało automatycznie przetłumaczone z języka angielskiego.Oryginalna treść jest dostępna na stackexchange, za co dziękujemy za licencję cc by-sa 4.0, w ramach której jest rozpowszechniana.
Loading...