Zastanawiam się, dlaczego tak bardzo zależy nam na przeuczeniu.Wiemy, że modele statystyczne to narzędzia przekazujące nam pewne informacje, ale nie są one nawet w pełni dokładne.
Zastanawiam się, dlaczego tak bardzo zależy nam na przeuczeniu.Wiemy, że modele statystyczne to narzędzia przekazujące nam pewne informacje, ale nie są one nawet w pełni dokładne.
Cytat Box jest podobny do „Wszystkie modele są błędne, ale niektóre są przydatne”.
Jeśli mamy złe nadmierne dopasowanie, nasz model nie będzie przydatny w prognozowaniu nowych danych.
Dlaczego martwimy się o nadmierne dopasowanie, nawet jeśli „wszystkie modele są złe”?
Twoje pytanie wydaje się być odmianą błędu nirwany, co pośrednio sugeruje, że jeśli nie ma idealnego modelu, to każdy model jest równie zadowalający (a zatem wady w modelach są nieistotne). Zauważ, że równie łatwo możesz zadać to samo pytanie dotyczące każdej wady modelu:
Dlaczego martwimy się o oszacowanie maksymalnego prawdopodobieństwa, nawet jeśli „wszystkie modele są błędne”?
Dlaczego martwimy się o błędy standardowe, nawet jeśli „wszystkie modele są błędne”?
Dlaczego martwimy się o czyszczenie danych, nawet jeśli „wszystkie modele są złe”?
Dlaczego martwimy się o poprawną arytmetykę, nawet jeśli „wszystkie modele są błędne”?
Prawidłowa odpowiedź na wszystkie takie pytania jest taka, że nie powinniśmy czynić z doskonałości wrogiem dobra --- nawet jeśli „wszystkie modele są złe”, model, który jest mniej zły jest nadal lepszy od modelu, który jest bardziej zły .
Cały cytat brzmi: „Wszystkie modele są błędne, ale niektóre są przydatne”.Dbamy o overfitting, bo wciąż chcemy, żeby nasze modele były użyteczne.
Jeśli znasz kompromis odchylenia-wariancji, stwierdzenie „wszystkie modele są błędne” jest mniej więcej równoważne stwierdzeniu, że „wszystkie modele mają niezerowe odchylenie”.Nadmierne dopasowanie polega na tym, że chociaż możemy zwiększyć liczbę parametrów w modelu, aby zmniejszyć odchylenie, zwykle im więcej mamy parametrów, tym więcej wariancji będzie w naszych oszacowaniach.Użytecznym modelem jest taki, który balansuje między byciem na tyle elastycznym, aby zmniejszyć odchylenie, ale nie na tyle elastycznym, by wariancja była zbyt duża.
Citroën 2CV to pod wieloma względami kiepski samochód. Powolny, nierafinowany i tani. Ale jest wszechstronny i może skutecznie działać zarówno na utwardzonych drogach, jak i na świeżo zaoranych polach.
Dla porównania bolid F1 jest uważany za szczyt techniki motoryzacyjnej. Szybki, precyzyjny i przy użyciu tylko najlepszych komponentów. Nie miałbym jednak ochoty jeździć nim po otwartym polu.
2CV ma ogólne zastosowanie, podczas gdy bolid F1 ma tylko bardzo szczególne zastosowanie. Bolid F1 został przystosowany do specyficznego problemu jak najszybszego pokonywania toru wyścigowego, z korzyścią dla zespołu profesjonalnych inżynierów, którzy monitorują, oceniają i rozwiązują wszelkie problemy, które mogą wyniknąć z wysokiej wydajności działania.
Podobnie, model z nadmiernym dopasowaniem sprawdzi się dobrze w sytuacjach, w których jest zbyt dopasowany, ale słabo (lub wcale) gdzie indziej. Model o ogólnym zastosowaniu będzie bardziej przydatny, jeśli będzie wystawiony na działanie różnych środowisk pozostających poza Twoją kontrolą, nawet jeśli nie jest tak dobry, jak konkretne modele.
Jak zauważyli inni, pełny cytat brzmi: „wszystkie modele są błędne, ale niektóre są przydatne”.
Kiedy przepełniamy zbiór danych, tworzymy model, który nie jest użyteczny. Na przykład ułóżmy pewne dane: set.seed (123)
x1 <- rnorm (6)
x2 <- rnorm (6)
x3 <- rnorm (6)
x4 <- rnorm (6)
y <- rnorm (6)
co tworzy 5 zmiennych, każda standardowa normalna, każda z N = 6.
Teraz dopasujmy model:
overfit <- lm (y ~ x1 + x2 + x3 + x4)
Model ma R ^ 2 $ w wysokości 0,996. x2 ma znaczącą wartość p, a x4 jest prawie sig. (na zwykłym poziomie 0,05).
Współczynniki:
Oszacuj Std. Wartość t błędu Pr (> | t |)
(Punkt przecięcia) -0,54317 0,08887 -6,112 0,1032
x1 2,01199 0,14595 13,785 0,0461 *
x2 0,14325 0,08022 1,786 0,3250
x3 0,45653 0,08997 5,074 0,1239
x4 1,21557 0,15086 8,058 0,0786.
---
Signif. kody: 0 „***” 0,001 „**” 0,01 „*” 0,05 „.” 0,1 „” 1
Resztkowy błąd standardowy: 0,1601 na 1 stopniu swobody
Wielokrotne R-kwadrat: 0,9961, Skorygowane R-kwadrat: 0,9805
Statystyka F: 64,01 na 4 i 1 DF, wartość p: 0,09344
Prawie idealnie pasuje do danych, np. spróbuj
działka (przewidywanie (przesadzanie), y)
Ale to wszystko jest przypadkowe.
Jeśli spróbujemy zastosować ten model do innych danych, otrzymamy śmieci.
Każdy model ma błąd. Najlepszy model to taki, który minimalizuje błąd związany z jego przewidywaniami. Z tego powodu modele są zwykle konstruowane przy użyciu tylko części danych (w próbie), a następnie stosowane do pozostałego zbioru danych „poza próbą”. Nadmiernie dopasowany model będzie miał zwykle większy błąd prognozowania w praktyce niż model dobrze sformułowany. Ponadto model powinien być wytrzymały intelektualnie: nie ma sensu budować modelu, który działa w jednym „reżimie”, jeśli w ogóle nie działa w przypadku zmiany reżimu. Taki model może wydawać się bardzo dobrze ukształtowany do czasu zmiany reżimu, ponieważ zasadniczo taki model został skonstruowany „w próbie”. Innym sposobem na powiedzenie tego jest to, że oczekiwany błąd modelu również musi być dobrze sformułowany. Jest też kwestia „Brzytwy Ockhama”, która jest filozoficzną ideą, że zasadniczo model powinien być możliwie najprostszy, przy użyciu jak najmniejszej liczby zmiennych wymaganych do opisania modelowanego systemu. Służy to raczej jako przydatny przewodnik, a nie podstawowa reguła, ale uważam, że jest to idea, która kryje się za używaniem „skorygowanego R do kwadratu” zamiast R do kwadratu, aby dostosować się do naturalnej poprawy dopasowania związanego więcej zmiennych (np. idealnie pasowałbyś, R do kwadratu 100%, gdybyś miał osobną zmienną dla każdego elementu danych!). To także idea, którą należy zastosować do nowoczesnych technik ML: rzucanie np. tysiące zmiennych w algorytmie ML jest niebezpieczne, chyba że masz miliony fragmentów danych (a nawet wtedy ... może lepiej byłoby najpierw przekształcić dane, aby zmniejszyć liczbę zmiennych). Ostatnia uwaga: każdy model wymaga wiary. Nawet nasze prawa fizyki opierają się na obserwacji i rzeczywiście wymagały modyfikacji, gdy przeszliśmy od fizyki newtonowskiej do dziedzin bardzo małych (mechanika kwantowa) i bardzo dużych (ogólna teoria względności). Nie możemy powiedzieć z absolutną pewnością, że nasze obecne prawa fizyki będą obowiązywać w przyszłości, czy nawet w przeszłości (np. W okresie Wielkiego Wybuchu). Ale odwołanie się do naszej filozoficznej wiary w brzytwę Ockhama powoduje, że akceptujemy te modele i pomysły, ponieważ są to najprostsze modele, jakie kiedykolwiek opracowano, które pasują do naszych obserwacji i danych.
Podsumowując, nie ma sztywnych zasad.Wyobraź sobie złożony (chaotyczny?) Dynamiczny system, na przykład globalną gospodarkę.Możesz skonstruować dobrze uformowany model, który będzie działał dobrze przez krótki okres czasu.Ale `` zmiana reżimu '' to bardzo realna kwestia: system gospodarczy jest bardzo złożony i nieliniowy, a zmiennych jest znacznie więcej niż można zmierzyć, co może nie mieć żadnego znaczenia w systemie w próbie, ale ma ogromne znaczeniew innym „reżimie”.Ale w twoim krótkim okresie, w zasadzie w próbce, może się okazać, że regresja liniowa działa całkiem dobrze.Powinien zwyciężyć zdrowy rozsądek: czasami wymagany jest bardzo złożony model, ale należy go mocno ostrzec, jeśli błąd związany z jego przewidywaniami jest nieznany.
Jestem pewien, że właściwy statystyk może udzielić znacznie lepszej odpowiedzi niż ta, ale ponieważ wydaje się, że żaden z powyższych punktów nie został jeszcze omówiony, pomyślałem, że będę się nadstawiać ...
Wszystkie modele są błędne, ale niektóre są mniej błędne niż inne
Nadmierne dopasowanie generalnie sprawia, że model bardziej błędnie radzi sobie z danymi ze świata rzeczywistego.
Gdyby lekarz próbował zdiagnozować, czy masz raka, czy wolałbyś, żeby mylił się w 50% przypadków ( bardzo źle), czy w 0,1% (znacznie mniej źle)?
Albo załóżmy, że rozdajesz coś za darmo, jeśli Twój model przewiduje, że doprowadzi to klienta do zakupu czegoś później.Czy wolałbyś rozdawać wiele rzeczy za darmo, bez wpływu na to, czy klienci kupują rzeczy później (całkiem źle), czy też większość klientów wraca, by coś kupić później (mniej źle)?
Oczywiście mniej błędów znaczy lepiej