Dlaczego użycie błędu kwadratowego jest standardem, skoro błąd bezwzględny jest bardziej odpowiedni dla większości problemów?

Ryan Volpi

2020-06-06 00:47:04 UTC

view on stackexchange narkive permalink

Rozumiem, że fragmenty tego tematu zostały omówione na tym forum. Kilka przykładów:

Czy minimalizacja błędu kwadratowego jest równoznaczna z minimalizacją błędu bezwzględnego? Dlaczego błąd kwadratowy jest bardziej popularny niż ten drugi?
Dlaczego podnieść różnicę do kwadratu zamiast przyjmować wartość bezwzględną jako odchylenie standardowe?

Nadal nie rozumiem, dlaczego regresja OLS jest nadal domyślnym rozwiązaniem problemu regresji liniowej. Wydaje mi się, że w większości praktycznych sytuacji koszty związane z błędami są liniowe lub w przybliżeniu liniowe. Jeśli zamówię 2 dodatkowe części, poniosę dwa razy więcej niepotrzebnych kosztów w porównaniu z zamówieniem 1 dodatkowej części. Dlatego optymalne rozwiązanie, które produkuje OLS, nie będzie w rzeczywistości odpowiadać optymalnemu rozwiązaniu. Rozumiem, że ogólnie można zminimalizować wszelkie metryki błędów, które są najbardziej sensowne w danej sytuacji. Moje pytanie nie dotyczy tego, czy użycie MAE w konkretnym przypadku jest możliwe lub dobry; chodzi o konwencję. Dlaczego MSE jest zminimalizowane w prawie wszystkich prostych przypadkach zamiast MAE, skoro rzeczywisty koszt jest zazwyczaj liniowy?

Przypadki, które widziałem w celu zminimalizowania MSE, obejmują następujące:

MSE jest stale różnicowalne
Kwadrat powoduje większe straty w przypadku dużych błędów
Ma to sens, ponieważ zakładamy, że błędy są dystrybuowane normalnie

Jeśli jednak z łatwością możemy przeprowadzić regresję z błędami bezwzględnymi, a my zajmujemy się przede wszystkim prognozowaniem, nie widzę, w jaki sposób te punkty prowadzą kogokolwiek do wybierania błędów kwadratowych. Jeśli mamy wybrać konwencję, czy absolutny błąd nie jest lepszy?

Ten post otrzymał wiele znakomitych odpowiedzi, z których wszystkie były dla mnie przydatne. Spośród tych odpowiedzi i odpowiedzi w innych miejscach, które według modów odpowiadają na moje pytanie, żadna z nich nie odnosi się dokładnie do prawdziwego źródła mojego zamieszania, z wyjątkiem odpowiedzi @ richard-hardy.

Coś w rodzaju @stephan-kolassa,, ale nie omawia wyboru, aby zminimalizować jedną stratę nad drugą, ani dlaczego wszędzie stosuje się błąd kwadratowy.Jest to jednak pomocne źródło informacji.

„nie omawia wyboru, aby zminimalizować jedną stratę w stosunku do drugiej” - widzę, „w jakim przypadku średni kwadratowy błąd byłby bardziej odpowiednią miarą błędu niż średni bezwzględny błąd” w tym pytaniu, które wydaje się byćdokładnie to, o co pytasz.Co do tego, dlaczego MSE jest wszechobecne, cóż, z jednej strony jest to argument o różniczkowalności, az drugiej jest to jedyny błąd, który zostanie zminimalizowany przez obiektywne szacunki / prognozy, czego bardzo często chcemy.Zobacz [moja odpowiedź] (https://stats.stackexchange.com/a/210857/1352) w tym wątku.

@StephanKolassa, on bias - tylko wtedy, gdy bias jest zdefiniowany jako $ E [y] - \ hat y $ i może tylko wtedy, gdy rozkład jest symetryczny (nie jestem pewien co do tego drugiego)

@Aksakal: no cóż, czyli * to * definicja błędu (z wyjątkiem technicznego zastosowania w sieciach neuronowych).I nie, fakt, że (R) MSE (i nic więcej) jest optymalizowany w oczekiwaniu właśnie przez obiektywną prognozę, jest prawdziwy nie tylko dla rozkładów symetrycznych.But jest z drugiej strony: w przypadku rozkładów symetrycznych MAE jest również minimalizowane przez obiektywną prognozę (ponieważ jest minimalizowane przez medianę, która jest oczekiwana w przypadku symetrii), ale generalnie tak nie jest i to jestpowód, by spojrzeć na MSE.

Myślę, że analityczna podatność na kwadrat straty jest historycznie potężnym punktem na jej korzyść.

Oto kolejne powiązane pytanie: https://stats.stackexchange.com/q/369589/164061.Kiedy optymalizujemy wynik funkcji kosztu, która zależy od bezwzględnego błędu, nadal może być przydatne użycie szacunków opartych na MSE.Istotną kwestią jest nie tylko funkcja kosztu, ale także rozkład błędów.Więc ... często używamy MSE, ponieważ tak wygląda większość rozkładów błędów (jak argumentował Gauss na podstawie kilku prostych aksjomatów).Ale w przypadku bardziej zabawnych dystrybucji sensowne jest użycie innych metod i uważam, że są one wszechobecne (tylko czasami przebrane za najmniejszych kwadratów, jak GLM).

Czy zduplikowane pytanie naprawdę odpowiada na to pytanie?Istnieje * wiele sposobów * na omówienie względnego wykorzystania MAE w porównaniu z MSE.W tym pytaniu sposób porównania wydaje się polegać na optymalizacji wyniku * w stosunku do jakiejś funkcji kosztu *.Nie widzę tego w drugim zduplikowanym pytaniu.W * żadnej * odpowiedzi nie widzę wyjaśnienia dotyczącego rozkładu próby oszacowania i pomysłu, że wybranie metody optymalizującej najniższy oczekiwany koszt może nadal optymalizować MSE, nawet jeśli funkcja kosztu jest związana z błędem bezwzględnym.

Konfiguracja

Załóżmy, że masz problem z przewidywaniem w miejscu, w którym znajduje się model $$ y = X \ beta + \ varepsilon $$ gdzie $ \ varepsilon \ sim D (0, \ sigma) $ , $ D $ to jakiś rozkład prawdopodobieństwa z lokalizacją 0 $ i skalą $ \ sigma $ . Zamierzasz przewidzieć $ y_0 $ , biorąc pod uwagę $ x_0 $ , a Twoja prognoza punktów będzie wynosić $ \ hat y_0 $ , funkcja $ x_0 $ , próbka danych, model i kara (minus nagroda) zdefiniowana na podstawie błędu prognozy. Funkcja kary, przed którą stoisz, to $ L_P (y- \ hat y) $ . Ma minimum na zero (wartość $ L_P (0) $ można ustawić na zero bez utraty ogólności) i nie zmniejsza się po obu stronach zera; jest to typowa charakterystyka rozsądnej funkcji prediction loss. Możesz dowolnie wybrać funkcję estimation loss $ L_E (\ cdot) $ i funkcję przewidywania punktowego $ y_hat_0 $ span >. Jakie są dla Ciebie optymalne wybory? Będzie to zależeć od rozkładu błędów $ D $ i funkcji przewidywania utraty $ L_P (\ cdot) $ .

Szacunkowa strata

Utrata oszacowania określa, w jaki sposób oszacowania parametrów modelu są uzyskiwane z przykładowych danych. W naszym przykładzie regresji liniowej dotyczy ona oszacowania $ \ beta $ i $ \ sigma $ . Możesz je oszacować, minimalizując sumę kwadratów reszt (OLS) między rzeczywistą wartością $ y $ a odpowiednimi dopasowanymi wartościami, sumą reszt bezwzględnych (regresja kwantylowa przy medianie ) lub inną funkcją. O wyborze straty oszacowania można decydować rozkład błędów modelu. Najdokładniejszy estymator w pewnym sensie technicznym * zostanie osiągnięty przez stratę oszacowania, która sprawia, że estymator parametrów jest estymatorem największej wiarygodności (ML). Jeśli błędy modelu są dystrybuowane normalnie ( $ D $ jest normalne), będzie to OLS; jeśli są rozłożone zgodnie z rozkładem Laplace'a ( $ D $ to Laplace), będzie to regresja kwantylowa przy średniej; itp.
* Aby uprościć, biorąc pod uwagę estymator ML, możesz oczekiwać dokładniejszych oszacowań parametrów od swojego modelu niż te zapewniane przez alternatywne estymatory.

Przewidywanie utraty

Utrata prognozy określa, w jaki sposób błędy prognoz są karane. Nie wybierasz tego, to jest dane. (Zazwyczaj określa to klient. Jeśli klient nie jest w stanie tego zrobić matematycznie, analityk powinien starać się to zrobić, uważnie słuchając argumentów klienta). Jeśli błąd prognozy powoduje stratę klienta (np. Stratę finansową) ), aby rosnąć kwadratowo i symetrycznie wokół zera, grozi nam kwadratowa utrata prognoz. Jeśli strata klienta rośnie liniowo i symetrycznie około zera, masz do czynienia ze stratą wynikającą z prognoz bezwzględnych. Istnieje wiele innych możliwości typów strat wynikających z prognoz, z którymi możesz się również zmierzyć.

Prognoza

Biorąc pod uwagę oszacowania parametrów modelu i wartości regresorów interesującego punktu, $ x_0 $ , należy wybrać prognozę punktową $ \ hat y_0 $ na podstawie przewidywanej straty. W przypadku straty kwadratowej wybierzesz szacunkową średnią $ y_0 $ , ponieważ prawdziwa średnia minimalizuje średnią stratę kwadratową (gdzie średnia jest brana z losowych próbek $ y_0 $ z zastrzeżeniem $ x = x_0 $ ). W przypadku straty bezwzględnej wybierzesz szacunkową medianę. W przypadku innej funkcji straty wybierzesz inne cechy rozkładu $ y_0 $ , które wymodelowałeś.

Wróć do pytania

Dlaczego ludzie często wybierają błąd kwadratowy zamiast błędu bezwzględnego lub odpowiednio kwadratową stratę zamiast straty bezwzględnej, jako estimation loss? Ponieważ zwykłe błędy ( $ D $ to normalne) są częste w aplikacjach, ~~prawdopodobnie~~ częściej niż błędy Laplace'a ( $ D $ to Laplace). Dzięki nim estymatory regresji są również wykonalne analitycznie. Jednak nie są one dużo łatwiejsze do obliczenia. Złożoność obliczeniowa OLS (odpowiadająca estymacji ML przy normalnych błędach) w porównaniu z regresją kwantylową przy medianie (odpowiadająca estymacji ML przy błędach Laplace'a) nie różni się znacząco. Dlatego istnieją pewne rozsądne argumenty przemawiające za wyborem OLS zamiast regresji kwantylowej przy medianie lub błędu kwadratowego względem błędu bezwzględnego.

Dlaczego ludzie wybierają błąd kwadratowy lub odpowiednio kwadratową stratę jako prediction loss?Może dla prostoty.Jak mogły wspomnieć niektóre z poprzednich odpowiedzi, musisz wybrać jakiś punkt odniesienia dla prezentacji podręcznika;nie można szczegółowo omówić wszystkich możliwych przypadków.Jednak argument za preferowaniem straty kwadratowej nad stratą bezwzględną, ponieważ strata wynikająca z prognozowania jest mniej przekonująca niż w przypadku straty oszacowanej.Rzeczywista strata prognozy prawdopodobnie będzie asymetryczna (jak omówiono w niektórych poprzednich odpowiedziach) i nie będzie bardziej prawdopodobne, że wzrośnie kwadratowo niż liniowo z błędem przewidywania.Oczywiście w praktyce należy kierować się specyfikacją klienta dotyczącą przewidywanej straty.Tymczasem w przypadkowych przykładach i dyskusjach, w których nie ma w pobliżu konkretnego klienta, nie widzę mocnego argumentu przemawiającego za przedawnieniem błędu kwadratowego nad bezwzględnym.

Przykład

Rozważ następujący rozkład trafień zadawanych przez działo, które było mechanicznie unieruchomione. Na tarczy umieszczasz okrąg o podanej wielkości. Jeśli następny strzał wyląduje całkowicie w Twoim kręgu, wygrywasz, w przeciwnym razie przegrywasz. Funkcja kosztu ma postać $ f_C (x, y) = znak ((x-x_C) ^ 2 + (y-y_C) ^ 2-R ^ 2) $ span>.

Jeśli zminimalizujesz $ \ sum_i f_C (x_i, y_i) $ , umieścisz okrąg na niebieskiej pozycji, zawierającej w całości maksymalną liczbę poprzednich strzałów. Ale gdybyś wiedział, że broń jest zamocowana na miejscu, a błąd jest gaussowski, umieściłbyś okrąg w zielonej pozycji, pośrodku średniej / centroidu danych (minimalizując MSE), ponieważ optymalizujesz przyszłe oczekiwane wypłaty, a nie średnią przeszłość wypłata.