Pytanie:
Suma kwadratów reszt zamiast sumy reszt
Blee
2013-01-27 20:15:55 UTC
view on stackexchange narkive permalink

Kiedy przeglądałem książkę o statystyce, natknąłem się na temat regresji liniowej. W trakcie rozdziału autor zaczyna od wyjaśnienia, że ​​chcesz zminimalizować pozostałości, aby Twoje y = a + bx były jak najlepiej dopasowane: Rozumiem to, ale w połowie rozdziału nagle reszty zamieniają się w sumę kwadraty reszt. Dlaczego to się dzieje? Szukałem w Google, ale nie mogłem znaleźć właściwej odpowiedzi. Kto chciałby mi pomóc zrozumieć, dlaczego sumy kwadratów reszt są używane zamiast samych sum reszt?

Z poważaniem, Bas

Musisz połączyć reszty w jakimś kryterium, aby je ogólnie zminimalizować. Sumy kwadratów są algebraicznie wygodnym sposobem na zrobienie tego i mają kilka prawdopodobnie przydatnych właściwości.
http://stats.stackexchange.com/questions/46019/why-squared-residuals-instead-of-absolute-residuals-in-ols-estimation jest zasadniczo duplikatem.
Pięć odpowiedzi:
Peter Flom
2013-01-27 20:23:40 UTC
view on stackexchange narkive permalink

Suma reszt zawsze będzie wynosić 0, więc to nie zadziała.

Bardziej interesującym pytaniem jest, dlaczego należy używać sumy kwadratów reszt a sumy bezwzględnej wartości reszt. To kala duże pozostałości bardziej niż małe. Uważam, że powodem tego jest to, że matematyka działa łatwiej, a przed komputerami znacznie łatwiej było oszacować regresję za pomocą kwadratów reszt. Obecnie ten powód nie ma już zastosowania średnia regresja odchylenia bezwzględnego jest rzeczywiście możliwa. Jest to jedna z form silnej regresji.

@Peter Flom, myślałem, że dodatkowa kara w postaci dużych reszt jest ** zaletą ** stosowania kwadratów wartości? Ponieważ większe reszty rzadziej będą przypadkowymi odchyleniami. Wydaje Ci się, że to ** wada **? Czy znasz jakieś powody?
@kwanti Jeśli masz wartości odstające, użycie kwadratów wartości zazwyczaj powoduje, że dopasowanie bardziej dostosowuje się do wartości odstających, niż gdybyś użył wartości bezwzględnej reszt. Zatem minimalizowanie sumy bezwzględnych reszt może być postrzegane jako bardziej odporne na wartości odstające.
Suma reszt niekoniecznie musi wynosić zero. Aby było to ogólnie prawdą, w modelu musi być obecny wyraz wolny.
@cardinal dobra uwaga. Zapomniałem o tym. Punkt przecięcia jest oczywiście standardem, ale w żadnym wypadku nie jest uniwersalny
@kwanti To niekoniecznie jest zaletą lub wadą; to jest różnica. Regresja MAD jest bardziej odporna na wartości odstające. To może być dobre lub złe.
Inną różnicą między metodą najmniejszych kwadratów a MAD jest to, że metoda najmniejszych kwadratów daje jedną unikalną odpowiedź, podczas gdy istnieją przypadki używające MAD, które spowodują nieskończenie wiele linii, które dają taką samą minimalną wartość MAD.
@GregSnow Nie wiedziałem tego. Czy możesz to wyjaśnić? Albo masz referencje? Jakie rodzaje przypadków powodują ten problem?
@PeterFlom, zobacz odpowiedź, którą dodałem (jest więcej niż zmieściłoby się w komentarzu).
Lucas
2013-01-27 23:04:12 UTC
view on stackexchange narkive permalink

Innym sposobem na motywowanie kwadratowych reszt jest przyjmowanie często rozsądnego założenia, że ​​reszty mają rozkład Gaussa. Innymi słowy, zakładamy, że $$ y = ax + b + \ varepsilon $$ dla szumu gaussowskiego $ \ varepsilon $. W tym przypadku prawdopodobieństwo logiczne parametrów $ a, b $ jest podane przez $$ \ log p (y \ mid x, a, b) = \ log \ mathcal {N} (y; ax + b, 1 ) = - \ frac {1} {2} (y - [a + bx]) ^ 2 + \ text {const}, $$ tak, że maksymalizacja prawdopodobieństwa sprowadza się do minimalizacji kwadratów reszt.

Gdyby szum $ \ varepsilon $ był rozkładem Laplace'a, bardziej odpowiednia byłaby wartość bezwzględna reszt. Ale ze względu na centralne twierdzenie graniczne, szum Gaussa jest znacznie bardziej powszechny.

To prawda, ale interesujące jest to, że z historycznego punktu widzenia jest to argument idealnie kołowy: po raz pierwszy powstał rozkład Gaussa, ponieważ Gauss odkrył, że jest to rozkład, dla którego MLE minimalizuje sumę kwadratów reszt!
@whuber, tak, ale ponieważ rozkład Gaussa ma wyraźnie swoje miejsce w naturze (tj. Ma wiele innych „właściwości naturalnych”), możesz na nim budować, jeśli opowiesz historię w inny sposób :-) („właściwości naturalne” -> Dystr gaussowski . -> kwadraty reszt)
Mike Dunlavey
2013-01-29 03:45:09 UTC
view on stackexchange narkive permalink

Dobre odpowiedzi, ale może mogę dać bardziej intuicyjną odpowiedź. Załóżmy, że dopasowujesz model liniowy, reprezentowany tutaj przez linię prostą sparametryzowaną przez nachylenie i punkt przecięcia.

Każda reszta jest sprężyną między każdy punkt danych i linię, i próbuje przyciągnąć linię do siebie. enter image description here
Rozsądną rzeczą do zrobienia jest znalezienie nachylenia i punktu przecięcia, które minimalizują energię systemu. Energia każdej sprężyny (tj. Szczątkowa) jest proporcjonalna do kwadratu jej długości, więc system minimalizuje sumę kwadratów reszt, czyli minimalizuje sumę energii w sprężynach.

Adam Bailey
2013-01-29 01:13:12 UTC
view on stackexchange narkive permalink

Oprócz punktów przedstawionych przez Petera Floma i Lucasa, powodem minimalizowania sumy kwadratów reszt jest Twierdzenie Gaussa-Markowa. To mówi, że jeśli założenia klasycznej regresji liniowej są spełnione, to zwykły estymator najmniejszych kwadratów jest bardziej wydajny niż jakikolwiek inny liniowy estymator nieobciążony. „Bardziej wydajne” oznacza, że ​​wariancje oszacowanych współczynników są niższe; innymi słowy, oszacowane współczynniki są dokładniejsze. Twierdzenie jest prawdziwe, nawet jeśli reszty nie mają rozkładu normalnego lub Gaussa.

Jednak twierdzenie to nie ma zastosowania do konkretnego porównania między minimalizacją sumy wartości bezwzględnych a minimalizacją sumy kwadratów od poprzedniego nie jest estymatorem liniowym . Zobacz tę tabelę porównującą ich właściwości, pokazującą zalety metody najmniejszych kwadratów jako stabilność w odpowiedzi na niewielkie zmiany w danych i zawsze mając jedno rozwiązanie.

* „Bardziej wydajne oznacza, że ​​wariancje są mniejsze” * - myślę, że kręcisz się w kółko, ponieważ wariancja jest oparta na sumie kwadratów. Gdyby zamiast tego używałeś innej miary opartej na wartościach bezwzględnych, prawdopodobnie faworyzowałoby to wartości bezwzględne.
@Tomas Dziękuję, rozumiem, o co chodzi, prowadzi to z powrotem do pytania, dlaczego lub powinniśmy chcieć, aby szacunki współczynników były precyzyjne, mierzone za pomocą minimalnej wariancji, a nie jakąś inną miarą dokładności. Powiedziawszy to, minimalna wariancja jest popularną miarą dokładności, więc twierdzenie G-M pomaga wyjaśnić, dlaczego regresja OLS jest szeroko stosowana.
W http://stats.stackexchange.com/questions/46019/why-squared-residuals-instead-of-absolute-residuals-in-ols-estimation?rq=1 i http : //stats.stackexchange.com/questions/118/why-square-the-difference-instead-of-taking-the-absolute-value-in-standard-devia.
Gaus-Markov sugeruje, że żadna inna metoda nie ma mniejszej wariancji. Jeśli chcesz zminimalizować wariancję, użyj metody najmniejszych kwadratów. Nie widzę, gdzie to „krąży w kółko” tak bardzo, jak coś, co ma sens. Aby uzupełnić odpowiedź na zadane pytanie, można by powiedzieć: „Używamy kwadratów zamiast absolutów, ponieważ chcemy zminimalizować wariancję. Twierdzenie GM pokazuje nam, że używanie kwadratów (wykonywanie OLS) jest rzeczywiście metodą minimalizującą wariancja ”. Jest to bardzo dobre wyjaśnienie używania kwadratów (edytuj: biorąc pod uwagę wszystkie założenia itp.)
Te komentarze pojawiają się w miejscach, w których używa się „wariancji” w dwóch znaczeniach: wariancji * reszt * i wariancji * oszacowań. * Wśród * estymatorów liniowych * (nie „wszystkich” estymatorów, * tempo * IMA), metoda najmniejszych kwadratów minimalizuje wariancję estymacji. Jest to twierdzenie, że wariancja estymacji jest „oparta na sumie kwadratów” * reszt *, * pod warunkiem *, że estymator jest liniowy. @Tomas Jeśli estymator nie jest liniowy, to wariancja estymacji nie jest proporcjonalna do sumy kwadratów reszt, więc w stwierdzeniu Adama nie ma nic kołowego - a on ma jasność co do założeń.
Greg Snow
2013-01-31 01:11:15 UTC
view on stackexchange narkive permalink

To jest bardziej odpowiedź na komentarz @ PeterFlom dotyczący mojego komentarza, ale jest zbyt duży, aby zmieścić się w komentarzu (i odnosi się do pierwotnego pytania).

Oto kod R do pokazania przypadek, w którym istnieje wiele wierszy, z których wszystkie podają te same minimalne wartości MAD / SAD.

Pierwsza część przykładu to wyraźnie wymyślone dane do zademonstrowania, ale koniec zawiera więcej losowego elementu, aby to wykazać ogólna koncepcja będzie nadal obowiązywać w bardziej realistycznych przypadkach.

  x <- rep (1:10, each = 2) y <- x / 10 + 0: 1plot (x, y) sad <- function (x, y, coef) {# mad is sad / n yhat <- coef [1] + coef [2] * x reszta <- y - yhat sum (abs (RES))} biblioteka (quantreg) fit0 <- rq (y ~ x) abline (fit0) fit1 <- lm (y ~ x, podzbiór = c (1,20)) fit2 <- lm (y ~ x, podzbiór = c (2,19)) fit3 <- lm (y ~ x, podzbiór = c (2,20)) fit4 <- lm (y ~ x, podzbiór = c (1,19)) fit5.coef <- c (0,5, 1/10) abline ( fit1) ablin e (fit2) abline (fit3) abline (fit4) abline (fit5.coef) for (i in seq (-0,5, 0,5, by = 0,1)) {abline (fit5.coef + c (i, 0))} tmp1 <- seq (coef (fit1) [1], coef (fit2) [1], len = 10) tmp2 <- seq (coef (fit1) [2], coef (fit2) [2], len = 10) dla (i in seq_along (tmp1)) {abline (tmp1 [i], tmp2 [i])} sad (x, y, coef (fit0)) sad (x, y, coef (fit1)) sad (x, y, coef (fit2)) sad (x, y, coef (fit3)) sad (x, y, coef (fit4)) sad (x, y, fit5.coef) for (i in seq (-0,5, 0,5, by = 0.1)) {print (sad (x, y, fit5.coef + c (i, 0)))} for (i in seq_along (tmp1)) {print (sad (x, y, c (tmp1 [i], tmp2 [i])))} set.seed (1) y2 <- y + rnorm (20,0,0.25) plot (x, y2) fitnew <- rq (y2 ~ x) # zwróć uwagę na wciąż nieunikalną linię ostrzegawczą (fitnew) abline (coef (fitnew) + c (.1,0)) abline (coef (fitnew) + c (0, 0,01)) sad (x, y2, coef (fitnew)) sad (x, y2, coef (fitnew) + c (.1,0)) sad (x, y2, coef (fitnew) + c (0,0.01))  


To pytanie i odpowiedź zostało automatycznie przetłumaczone z języka angielskiego.Oryginalna treść jest dostępna na stackexchange, za co dziękujemy za licencję cc by-sa 3.0, w ramach której jest rozpowszechniana.
Loading...