Mamy zbiór danych zawierający 10 000 ręcznie oznaczonych wystąpień oraz klasyfikator, który został przeszkolony na podstawie wszystkich tych danych. Klasyfikator został następnie oceniony na WSZYSTKICH tych danych, aby uzyskać 95% wskaźnik sukcesu.
Co dokładnie jest nie tak w tym podejściu? Czy po prostu statystyka 95% nie jest zbyt pouczająca w tej konfiguracji? Czy nadal może być jakaś wartość w tej 95% liczbie? Chociaż rozumiem, że teoretycznie nie jest to dobry pomysł, nie mam wystarczającego doświadczenia w tej dziedzinie, aby być pewnym. Zwróć też uwagę, że nie zbudowałem ani nie oceniłem tego klasyfikatora.
Pomijając zdrowy rozsądek, czy ktoś mógłby mi podać bardzo solidne, autorytatywne odniesienie, mówiąc, że ta konfiguracja jest w jakiś sposób błędna?
Wszystko, co znajduję w Internecie, to przykłady zabawek, które mają przekazać jakąś intuicję. Tutaj mam projekt profesjonalistów z ugruntowaną historią, więc nie mogę po prostu powiedzieć „to źle”, zwłaszcza że nie wiem na pewno.
Na przykład to strona mówi:
Ocena wydajności modelu za pomocą danych użytych do uczenia jest niedopuszczalna w eksploracji danych, ponieważ może łatwo wygenerować zbyt optymistyczne i nadmiernie dopasowane modele.
Nie jest to jednak odniesienie autorytatywne. W rzeczywistości ten cytat jest po prostu błędny, ponieważ ocena nie ma nic wspólnego z generowaniem nadmiernie dopasowanych modeli. Może generować zbyt optymistyczne dane naukowców, którzy wybraliby niewłaściwe modele, ale konkretna strategia oceny nie ma nic wspólnego z nadmiernym dopasowaniem modeli jako takich.