W pierwszych 5 odpowiedziach nie ma rozróżnienia między estimation loss i prediction loss, co jest kluczowe dla odpowiedzi na pytanie.A priori, nie ma powodu, aby te dwa elementy się pokrywały.Omówię oba typy strat w kontekście predykcji punktowej z wykorzystaniem regresji liniowej.Dyskusję można rozszerzyć na modele inne niż regresja liniowa i zadania inne niż przewidywanie punktowe, ale istota pozostaje taka sama.
Konfiguracja
Załóżmy, że masz problem z przewidywaniem w miejscu, w którym znajduje się model
$$
y = X \ beta + \ varepsilon
$$
gdzie $ \ varepsilon \ sim D (0, \ sigma) $ , $ D $ to jakiś rozkład prawdopodobieństwa z lokalizacją 0 $ i skalą $ \ sigma $ . Zamierzasz przewidzieć $ y_0 $ , biorąc pod uwagę $ x_0 $ , a Twoja prognoza punktów będzie wynosić $ \ hat y_0 $ , funkcja $ x_0 $ , próbka danych, model i kara (minus nagroda) zdefiniowana na podstawie błędu prognozy. Funkcja kary, przed którą stoisz, to $ L_P (y- \ hat y) $ . Ma minimum na zero (wartość $ L_P (0) $ można ustawić na zero bez utraty ogólności) i nie zmniejsza się po obu stronach zera; jest to typowa charakterystyka rozsądnej funkcji prediction loss. Możesz dowolnie wybrać funkcję estimation loss $ L_E (\ cdot) $ i funkcję przewidywania punktowego $ y_hat_0 $ span >. Jakie są dla Ciebie optymalne wybory? Będzie to zależeć od rozkładu błędów $ D $ i funkcji przewidywania utraty $ L_P (\ cdot) $ .
Szacunkowa strata
Utrata oszacowania określa, w jaki sposób oszacowania parametrów modelu są uzyskiwane z przykładowych danych. W naszym przykładzie regresji liniowej dotyczy ona oszacowania $ \ beta $ i $ \ sigma $ . Możesz je oszacować, minimalizując sumę kwadratów reszt (OLS) między rzeczywistą wartością $ y $ a odpowiednimi dopasowanymi wartościami, sumą reszt bezwzględnych (regresja kwantylowa przy medianie ) lub inną funkcją. O wyborze straty oszacowania można decydować rozkład błędów modelu. Najdokładniejszy estymator w pewnym sensie technicznym * zostanie osiągnięty przez stratę oszacowania, która sprawia, że estymator parametrów jest estymatorem największej wiarygodności (ML). Jeśli błędy modelu są dystrybuowane normalnie ( $ D $ jest normalne), będzie to OLS; jeśli są rozłożone zgodnie z rozkładem Laplace'a ( $ D $ to Laplace), będzie to regresja kwantylowa przy średniej; itp.
* Aby uprościć, biorąc pod uwagę estymator ML, możesz oczekiwać dokładniejszych oszacowań parametrów od swojego modelu niż te zapewniane przez alternatywne estymatory.
Przewidywanie utraty
Utrata prognozy określa, w jaki sposób błędy prognoz są karane. Nie wybierasz tego, to jest dane. (Zazwyczaj określa to klient. Jeśli klient nie jest w stanie tego zrobić matematycznie, analityk powinien starać się to zrobić, uważnie słuchając argumentów klienta). Jeśli błąd prognozy powoduje stratę klienta (np. Stratę finansową) ), aby rosnąć kwadratowo i symetrycznie wokół zera, grozi nam kwadratowa utrata prognoz. Jeśli strata klienta rośnie liniowo i symetrycznie około zera, masz do czynienia ze stratą wynikającą z prognoz bezwzględnych. Istnieje wiele innych możliwości typów strat wynikających z prognoz, z którymi możesz się również zmierzyć.
Prognoza
Biorąc pod uwagę oszacowania parametrów modelu i wartości regresorów interesującego punktu, $ x_0 $ , należy wybrać prognozę punktową $ \ hat y_0 $ na podstawie przewidywanej straty. W przypadku straty kwadratowej wybierzesz szacunkową średnią $ y_0 $ , ponieważ prawdziwa średnia minimalizuje średnią stratę kwadratową (gdzie średnia jest brana z losowych próbek $ y_0 $ z zastrzeżeniem $ x = x_0 $ ). W przypadku straty bezwzględnej wybierzesz szacunkową medianę. W przypadku innej funkcji straty wybierzesz inne cechy rozkładu $ y_0 $ , które wymodelowałeś.
Wróć do pytania
Dlaczego ludzie często wybierają błąd kwadratowy zamiast błędu bezwzględnego lub odpowiednio kwadratową stratę zamiast straty bezwzględnej, jako estimation loss? Ponieważ zwykłe błędy ( $ D $ to normalne) są częste w aplikacjach, prawdopodobnie częściej niż błędy Laplace'a ( $ D $ to Laplace). Dzięki nim estymatory regresji są również wykonalne analitycznie. Jednak nie są one dużo łatwiejsze do obliczenia. Złożoność obliczeniowa OLS (odpowiadająca estymacji ML przy normalnych błędach) w porównaniu z regresją kwantylową przy medianie (odpowiadająca estymacji ML przy błędach Laplace'a) nie różni się znacząco. Dlatego istnieją pewne rozsądne argumenty przemawiające za wyborem OLS zamiast regresji kwantylowej przy medianie lub błędu kwadratowego względem błędu bezwzględnego.
Dlaczego ludzie wybierają błąd kwadratowy lub odpowiednio kwadratową stratę jako prediction loss?Może dla prostoty.Jak mogły wspomnieć niektóre z poprzednich odpowiedzi, musisz wybrać jakiś punkt odniesienia dla prezentacji podręcznika;nie można szczegółowo omówić wszystkich możliwych przypadków.Jednak argument za preferowaniem straty kwadratowej nad stratą bezwzględną, ponieważ strata wynikająca z prognozowania jest mniej przekonująca niż w przypadku straty oszacowanej.Rzeczywista strata prognozy prawdopodobnie będzie asymetryczna (jak omówiono w niektórych poprzednich odpowiedziach) i nie będzie bardziej prawdopodobne, że wzrośnie kwadratowo niż liniowo z błędem przewidywania.Oczywiście w praktyce należy kierować się specyfikacją klienta dotyczącą przewidywanej straty.Tymczasem w przypadkowych przykładach i dyskusjach, w których nie ma w pobliżu konkretnego klienta, nie widzę mocnego argumentu przemawiającego za przedawnieniem błędu kwadratowego nad bezwzględnym.