Pytanie:
Dlaczego martwimy się o nadmierne dopasowanie, nawet jeśli „wszystkie modele są złe”?
Gillian
2019-10-31 18:27:31 UTC
view on stackexchange narkive permalink

Zastanawiam się, dlaczego tak bardzo zależy nam na przeuczeniu.Wiemy, że modele statystyczne to narzędzia przekazujące nam pewne informacje, ale nie są one nawet w pełni dokładne.

Żadne ubranie nie ma dokładnie takiego kształtu, jak osoba, która je nosi.Dlaczego więc powinniśmy dbać o dobre krawiectwo?
„Wszystkie” modele naprawdę oznaczają * wszystkie * modele.W tym model otoczenia, który tworzy twój mózg, interpretując otrzymywane sygnały świetlne.Więc po prostu zamknij oczy, i tak nie możesz im ufać.
> [...] ale nie są nawet w pełni dokładne.Nie muszą być w pełni dokładne, aby były przydatne.
Witamy w CV, Gillian.„Wszystkie teorie ostatecznie okazały się błędne i odrzucone, ale niektóre teorie nie są nawet tymczasowo poprawne” - Richard Levins
Inny powód, dla którego [musimy] tak bardzo przejmować się nadmiernym dopasowaniem, może leżeć w sposobie działania naszego mózgu: prawdopodobnie my, ludzie, jesteśmy dość słabi w wykrywaniu nadmiernego dopasowania, tj. Mamy tendencję do nadmiernego dopasowywania modeli również w naszych mózgach.Dlatego musimy poświęcić temu tematowi szczególną uwagę, zarówno w przypadku naszych modeli in vivo, jak i tych in silico.
„Lepiej być mniej więcej dobrze niż dokładnie źle” - różne atrybucje
-1.Istnieje wiele literatury na ten temat, z których większość jest łatwo dostępna dla nie-ekspertów (takich jak ja).Nie jest jasne, o co chodzi, ani że w ogóle istnieje pytanie.
Wszystkie modele są błędne, ale niektóre są o wiele mniej błędne niż inne.
Siedem odpowiedzi:
Dave
2019-10-31 18:31:58 UTC
view on stackexchange narkive permalink

Cytat Box jest podobny do „Wszystkie modele są błędne, ale niektóre są przydatne”.

Jeśli mamy złe nadmierne dopasowanie, nasz model nie będzie przydatny w prognozowaniu nowych danych.

Naprawdę powinno być: „Wszystkie modele są złe, ale niektóre są bardziej przydatne niż inne”.
Obecnie jest to odpowiedź z największą liczbą głosów pozytywnych.Myślę, że to pytanie zasługuje na dłuższą odpowiedź, np.jeden, który wyjaśnia, dlaczego nadmierne dopasowanie pociąga za sobą słabe uogólnienie, co powoduje nadmierne dopasowanie, a może nawet, czym jest nadmierne dopasowanie, a czym nie.
Na przykład: Jeśli nadmierne dopasowanie byłoby zdefiniowane jako uzyskanie przykładowego błędu prognozowania, który jest znacznie poniżej błędu w danych, to nie wiem, jak i dlaczego oznacza to słabe uogólnienie.
Ben
2019-11-01 08:32:36 UTC
view on stackexchange narkive permalink

Dlaczego martwimy się o nadmierne dopasowanie, nawet jeśli „wszystkie modele są złe”?

Twoje pytanie wydaje się być odmianą błędu nirwany, co pośrednio sugeruje, że jeśli nie ma idealnego modelu, to każdy model jest równie zadowalający (a zatem wady w modelach są nieistotne). Zauważ, że równie łatwo możesz zadać to samo pytanie dotyczące każdej wady modelu:

  • Dlaczego martwimy się o oszacowanie maksymalnego prawdopodobieństwa, nawet jeśli „wszystkie modele są błędne”?

  • Dlaczego martwimy się o błędy standardowe, nawet jeśli „wszystkie modele są błędne”?

  • Dlaczego martwimy się o czyszczenie danych, nawet jeśli „wszystkie modele są złe”?

  • Dlaczego martwimy się o poprawną arytmetykę, nawet jeśli „wszystkie modele są błędne”?

Prawidłowa odpowiedź na wszystkie takie pytania jest taka, że ​​nie powinniśmy czynić z doskonałości wrogiem dobra --- nawet jeśli „wszystkie modele są złe”, model, który jest mniej zły jest nadal lepszy od modelu, który jest bardziej zły .

Cliff AB
2019-11-01 05:47:41 UTC
view on stackexchange narkive permalink

Cały cytat brzmi: „Wszystkie modele są błędne, ale niektóre są przydatne”.Dbamy o overfitting, bo wciąż chcemy, żeby nasze modele były użyteczne.

Jeśli znasz kompromis odchylenia-wariancji, stwierdzenie „wszystkie modele są błędne” jest mniej więcej równoważne stwierdzeniu, że „wszystkie modele mają niezerowe odchylenie”.Nadmierne dopasowanie polega na tym, że chociaż możemy zwiększyć liczbę parametrów w modelu, aby zmniejszyć odchylenie, zwykle im więcej mamy parametrów, tym więcej wariancji będzie w naszych oszacowaniach.Użytecznym modelem jest taki, który balansuje między byciem na tyle elastycznym, aby zmniejszyć odchylenie, ale nie na tyle elastycznym, by wariancja była zbyt duża.

@CagdasOzgenc, to jest interesujące.Jak dokładnie definiujesz odchylenie modelu?(Pomocny mógłby być trywialny przykład uzupełniający teoretyczną odpowiedź). Powiązany wątek to: [Jaka jest zmienna losowa, gdy mówimy o modelu o wysokiej wariancji lub modelu o wysokim odchyleniu?] (Https://stats.stackexchange.com/questions/433972/ what-is-the-random-variable-when-my-talk-about-high-variance-model-or-high-bias / 433988 # 433988).Twoja odpowiedź również mogłaby zostać doceniona;Nadal walczę z moim preparatem.
„Standardowa literatura zakłada, że model parametryczny uwzględnia prawdę, dlatego możemy mówić o wektorze odchylenia zbliżającym się do zera”.Celem cytatu „Wszystkie modele są złe” jest to, że chociaż często zaczynamy od tego założenia, ponieważ ułatwia to obliczenia, jest to założenie zasadniczo błędne.
@CagdasOzgenc, czy twoja definicja błędu modelowego jest zgodna z następującą charakterystyką?Oczekiwany kwadratowy błąd prognozowania można addytywnie rozłożyć na kwadratowe odchylenie, wariancję i błąd nieredukowalny.Deterministyczna część modelu daje w wyniku oczekiwany kwadratowy błąd równy kwadratowi odchylenia + wariancja.Przy doskonałej dokładności oszacowania wariancja wynosi zero.W związku z tym odchylenie kwadratowe jest oczekiwanym kwadratem błędu szacowania deterministycznej części wyniku, gdy dokładność szacowania jest doskonała.Zatem odchylenie odzwierciedla najlepsze możliwe przybliżenie MZD dopuszczalnego przez model.
@CagdasOzgenc: Myślę, że twój argument jest taki, że „istnieją modele, które się nie mylą”.Warto o tym porozmawiać, ale staje się to znacznie bardziej skomplikowane.Ponadto zazwyczaj * wprowadzamy * ** odchylenie ** do takich modeli bez ograniczania elastyczności (tj. Regularyzacji) w celu ujarzmienia wariancji.Można to omówić na kilka różnych sposobów, więc powiedziałbym, że wykracza to poza zakres tego pytania.
Regularyzacja @CliffAB, wprowadza odchylenie w estymatorze parametrów, a nie w modelu.Na przykład, jeśli model (forma funkcjonalna) pokrywa się z MZD (choć mało prawdopodobne, załóżmy, że na potrzeby ilustracji) nie ma odchylenia modelu.Jednak nadal możemy wprowadzić odchylenie w estymatorze parametrów tego modelu, wykonując pewną regularyzację.
@CagdasOzgenc, dziękuję.Rysunek obok jest również pomocny;Zapomniałem o tym, ale teraz cieszę się, że mogę to odkryć na nowo.
James
2019-10-31 19:19:39 UTC
view on stackexchange narkive permalink

Citroën 2CV to pod wieloma względami kiepski samochód. Powolny, nierafinowany i tani. Ale jest wszechstronny i może skutecznie działać zarówno na utwardzonych drogach, jak i na świeżo zaoranych polach.

Dla porównania bolid F1 jest uważany za szczyt techniki motoryzacyjnej. Szybki, precyzyjny i przy użyciu tylko najlepszych komponentów. Nie miałbym jednak ochoty jeździć nim po otwartym polu.

2CV ma ogólne zastosowanie, podczas gdy bolid F1 ma tylko bardzo szczególne zastosowanie. Bolid F1 został przystosowany do specyficznego problemu jak najszybszego pokonywania toru wyścigowego, z korzyścią dla zespołu profesjonalnych inżynierów, którzy monitorują, oceniają i rozwiązują wszelkie problemy, które mogą wyniknąć z wysokiej wydajności działania.

Podobnie, model z nadmiernym dopasowaniem sprawdzi się dobrze w sytuacjach, w których jest zbyt dopasowany, ale słabo (lub wcale) gdzie indziej. Model o ogólnym zastosowaniu będzie bardziej przydatny, jeśli będzie wystawiony na działanie różnych środowisk pozostających poza Twoją kontrolą, nawet jeśli nie jest tak dobry, jak konkretne modele.

Adwokat diabła: Problem z prowadzeniem F1 po otwartym terenie nie polega na tym, że F1 tak dobrze pasuje do torów wyścigowych (mogłem sobie wyobrazić, że może istnieć samochód, który świetnie nadaje się zarówno na otwarte pola, jak i tory wyścigowe),ale F1 nie nadaje się tylko do otwartych pól.
@Dirk właściwie tak, całkiem dosłownie, problem z prowadzeniem F1 po otwartym polu polega na tym, że tak dobrze pasuje do torów wyścigowych.Mianowicie _ bardzo dobrze pasuje_ do podłoża płaskiej bieżni (mały prześwit), ale w związku z tym nie jest tak elastyczny, aby pasował również do wszystkiego, co nie jest płaskie.Zwykły samochód ma bardziej elastyczne zawieszenie, co oznacza, że nie „przykleja się do chodnika”, ale w zamian wykonuje również inne zadania.- „Może być samochód, który świetnie sprawdzi się zarówno na otwartym terenie, jak i na torze wyścigowym” - wymagałby bardzo dobrego aktywnego zawieszenia, prawdopodobnie byłby ciężki, a przez to wolniejszy.
Nie uważam tego za dobrą analogię.Model mocno dopasowany (taki jak wielomian n-stopni dopasowany do n + 1 punktów) nie jest do niczego przydatny.F1 nie jest nadmiernie wyposażony, jest po prostu wysoce wyspecjalizowanym narzędziem przydatnym do bardzo określonej roli.Analogią statystyczną byłby model, który jest wyszkolony i przydatny do bardzo specyficznego rodzaju prognozowania, ale nie jest przydatny w innych rolach;taki model nie jest nadmiernie wyposażony, tylko bardzo ograniczony zakres.
@gerrit, model nadmiernie dopasowany przewiduje dokładnie n + 1 punktów.To jest bezużyteczne tylko gdzie indziej.
@Caleth Punkty szkoleniowe nie są prognozą / prognozą, są pomiarem.
@gerrit Overfitted modele są przydatne w zadaniach takich jak kompresja danych, gdzie celem jest rekonstrukcja danych testowych.Samochody F1 rekonstruują tor.Dlatego zmieniają konfigurację dla każdego toru, zamiast używać ogólnej konfiguracji na cały sezon.
@James Przyznaję, że nie wiem zbyt wiele o kompresji ani o tym, co oznacza nadmierne dopasowanie, chociaż wydaje mi się, że przechowywanie wielomianu n-stopniowego zamiast (n + 1) punktów danych nie oszczędza dużo ani żadnej przestrzeni.
@gerrit Mogę podać 10000 punktów danych z krzywej kwadratowej, ale możesz to w całości opisać za pomocą zaledwie 3 parametrów.
@James Tak - ale wtedy nie jesteś przesadzony.Widzę, jak modele można wykorzystać do kompresji, ale nie jestem pewien, jak pasuje do tego nadmierne dopasowanie.W twoim przykładzie kompresja bezstratna zadziała tylko wtedy, gdy pozostałe punkty danych będą idealnie pasować do modelu, a dla kompresji stratnej (być może na krzywej kwadratowej jest szum) ponownie potrzebny jest model, który uogólnia (interpoluje) tak, że używając równieżwiele parametrów pogorszyłoby dopasowanie, prawda?Nadmierne dopasowanie nie zawsze prowadzi do niewłaściwego uogólnienia.
@gerrit Szum jest sygnałem.Przekształcasz się, dopóki nie przechwycisz całego szumu, więc odzyskujesz oryginalne dane z określonym wejściem (skompresowanego sygnału) i nie przejmujesz się, że nie będzie to przydatne z innym wejściem (i faktycznie wolisz to).
Pozwól nam [kontynuować tę dyskusję na czacie] (https://chat.stackexchange.com/rooms/100584/discussion-between-gerrit-and-james).
Peter Flom
2019-11-01 16:57:29 UTC
view on stackexchange narkive permalink

Jak zauważyli inni, pełny cytat brzmi: „wszystkie modele są błędne, ale niektóre są przydatne”.

Kiedy przepełniamy zbiór danych, tworzymy model, który nie jest użyteczny. Na przykład ułóżmy pewne dane: set.seed (123)

  x1 <- rnorm (6)
x2 <- rnorm (6)
x3 <- rnorm (6)
x4 <- rnorm (6)
y <- rnorm (6)
 

co tworzy 5 zmiennych, każda standardowa normalna, każda z N = 6.

Teraz dopasujmy model:

  overfit <- lm (y ~ x1 + x2 + x3 + x4)
 

Model ma R ^ 2 $ w wysokości 0,996. x2 ma znaczącą wartość p, a x4 jest prawie sig. (na zwykłym poziomie 0,05).

  Współczynniki:
            Oszacuj Std. Wartość t błędu Pr (> | t |)
(Punkt przecięcia) -0,54317 0,08887 -6,112 0,1032
x1 2,01199 0,14595 13,785 0,0461 *
x2 0,14325 0,08022 1,786 0,3250
x3 0,45653 0,08997 5,074 0,1239
x4 1,21557 0,15086 8,058 0,0786.
---
Signif. kody: 0 „***” 0,001 „**” 0,01 „*” 0,05 „.” 0,1 „” 1

Resztkowy błąd standardowy: 0,1601 na 1 stopniu swobody
Wielokrotne R-kwadrat: 0,9961, Skorygowane R-kwadrat: 0,9805
Statystyka F: 64,01 na 4 i 1 DF, wartość p: 0,09344
 

Prawie idealnie pasuje do danych, np. spróbuj

działka (przewidywanie (przesadzanie), y)

Ale to wszystko jest przypadkowe.

Jeśli spróbujemy zastosować ten model do innych danych, otrzymamy śmieci.

Carl
2019-11-01 16:46:54 UTC
view on stackexchange narkive permalink

Każdy model ma błąd. Najlepszy model to taki, który minimalizuje błąd związany z jego przewidywaniami. Z tego powodu modele są zwykle konstruowane przy użyciu tylko części danych (w próbie), a następnie stosowane do pozostałego zbioru danych „poza próbą”. Nadmiernie dopasowany model będzie miał zwykle większy błąd prognozowania w praktyce niż model dobrze sformułowany. Ponadto model powinien być wytrzymały intelektualnie: nie ma sensu budować modelu, który działa w jednym „reżimie”, jeśli w ogóle nie działa w przypadku zmiany reżimu. Taki model może wydawać się bardzo dobrze ukształtowany do czasu zmiany reżimu, ponieważ zasadniczo taki model został skonstruowany „w próbie”. Innym sposobem na powiedzenie tego jest to, że oczekiwany błąd modelu również musi być dobrze sformułowany. Jest też kwestia „Brzytwy Ockhama”, która jest filozoficzną ideą, że zasadniczo model powinien być możliwie najprostszy, przy użyciu jak najmniejszej liczby zmiennych wymaganych do opisania modelowanego systemu. Służy to raczej jako przydatny przewodnik, a nie podstawowa reguła, ale uważam, że jest to idea, która kryje się za używaniem „skorygowanego R do kwadratu” zamiast R do kwadratu, aby dostosować się do naturalnej poprawy dopasowania związanego więcej zmiennych (np. idealnie pasowałbyś, R do kwadratu 100%, gdybyś miał osobną zmienną dla każdego elementu danych!). To także idea, którą należy zastosować do nowoczesnych technik ML: rzucanie np. tysiące zmiennych w algorytmie ML jest niebezpieczne, chyba że masz miliony fragmentów danych (a nawet wtedy ... może lepiej byłoby najpierw przekształcić dane, aby zmniejszyć liczbę zmiennych). Ostatnia uwaga: każdy model wymaga wiary. Nawet nasze prawa fizyki opierają się na obserwacji i rzeczywiście wymagały modyfikacji, gdy przeszliśmy od fizyki newtonowskiej do dziedzin bardzo małych (mechanika kwantowa) i bardzo dużych (ogólna teoria względności). Nie możemy powiedzieć z absolutną pewnością, że nasze obecne prawa fizyki będą obowiązywać w przyszłości, czy nawet w przeszłości (np. W okresie Wielkiego Wybuchu). Ale odwołanie się do naszej filozoficznej wiary w brzytwę Ockhama powoduje, że akceptujemy te modele i pomysły, ponieważ są to najprostsze modele, jakie kiedykolwiek opracowano, które pasują do naszych obserwacji i danych.

Podsumowując, nie ma sztywnych zasad.Wyobraź sobie złożony (chaotyczny?) Dynamiczny system, na przykład globalną gospodarkę.Możesz skonstruować dobrze uformowany model, który będzie działał dobrze przez krótki okres czasu.Ale `` zmiana reżimu '' to bardzo realna kwestia: system gospodarczy jest bardzo złożony i nieliniowy, a zmiennych jest znacznie więcej niż można zmierzyć, co może nie mieć żadnego znaczenia w systemie w próbie, ale ma ogromne znaczeniew innym „reżimie”.Ale w twoim krótkim okresie, w zasadzie w próbce, może się okazać, że regresja liniowa działa całkiem dobrze.Powinien zwyciężyć zdrowy rozsądek: czasami wymagany jest bardzo złożony model, ale należy go mocno ostrzec, jeśli błąd związany z jego przewidywaniami jest nieznany.

Jestem pewien, że właściwy statystyk może udzielić znacznie lepszej odpowiedzi niż ta, ale ponieważ wydaje się, że żaden z powyższych punktów nie został jeszcze omówiony, pomyślałem, że będę się nadstawiać ...

NotThatGuy
2019-11-01 20:27:51 UTC
view on stackexchange narkive permalink

Wszystkie modele są błędne, ale niektóre są mniej błędne niż inne

Nadmierne dopasowanie generalnie sprawia, że model bardziej błędnie radzi sobie z danymi ze świata rzeczywistego.

Gdyby lekarz próbował zdiagnozować, czy masz raka, czy wolałbyś, żeby mylił się w 50% przypadków ( bardzo źle), czy w 0,1% (znacznie mniej źle)?

Albo załóżmy, że rozdajesz coś za darmo, jeśli Twój model przewiduje, że doprowadzi to klienta do zakupu czegoś później.Czy wolałbyś rozdawać wiele rzeczy za darmo, bez wpływu na to, czy klienci kupują rzeczy później (całkiem źle), czy też większość klientów wraca, by coś kupić później (mniej źle)?

Oczywiście mniej błędów znaczy lepiej



To pytanie i odpowiedź zostało automatycznie przetłumaczone z języka angielskiego.Oryginalna treść jest dostępna na stackexchange, za co dziękujemy za licencję cc by-sa 4.0, w ramach której jest rozpowszechniana.
Loading...