Dlaczego nie przeprowadzić walidacji na całym zestawie uczącym?

osa

2015-01-02 22:34:46 UTC

view on stackexchange narkive permalink

Mamy zbiór danych zawierający 10 000 ręcznie oznaczonych wystąpień oraz klasyfikator, który został przeszkolony na podstawie wszystkich tych danych. Klasyfikator został następnie oceniony na WSZYSTKICH tych danych, aby uzyskać 95% wskaźnik sukcesu.

Co dokładnie jest nie tak w tym podejściu? Czy po prostu statystyka 95% nie jest zbyt pouczająca w tej konfiguracji? Czy nadal może być jakaś wartość w tej 95% liczbie? Chociaż rozumiem, że teoretycznie nie jest to dobry pomysł, nie mam wystarczającego doświadczenia w tej dziedzinie, aby być pewnym. Zwróć też uwagę, że nie zbudowałem ani nie oceniłem tego klasyfikatora.

Pomijając zdrowy rozsądek, czy ktoś mógłby mi podać bardzo solidne, autorytatywne odniesienie, mówiąc, że ta konfiguracja jest w jakiś sposób błędna?

Wszystko, co znajduję w Internecie, to przykłady zabawek, które mają przekazać jakąś intuicję. Tutaj mam projekt profesjonalistów z ugruntowaną historią, więc nie mogę po prostu powiedzieć „to źle”, zwłaszcza że nie wiem na pewno.

Na przykład to strona mówi:

Ocena wydajności modelu za pomocą danych użytych do uczenia jest niedopuszczalna w eksploracji danych, ponieważ może łatwo wygenerować zbyt optymistyczne i nadmiernie dopasowane modele.

Nie jest to jednak odniesienie autorytatywne. W rzeczywistości ten cytat jest po prostu błędny, ponieważ ocena nie ma nic wspólnego z generowaniem nadmiernie dopasowanych modeli. Może generować zbyt optymistyczne dane naukowców, którzy wybraliby niewłaściwe modele, ale konkretna strategia oceny nie ma nic wspólnego z nadmiernym dopasowaniem modeli jako takich.

Wiele osób (słusznie lub niesłusznie) korzysta z ocen modelu, aby wybrać ostateczny model.Jeśli tak, to w pewnym sensie dana (nieodpowiednia) strategia oceny może generować nadmiernie dopasowane [ostateczne] modele.

Chciałbym po prostu wyrazić swoje wątpliwości bardziej bezpośrednio.Biorąc pod uwagę, że mówisz, że są profesjonalistami z ugruntowaną historią, dlaczego nie zapytasz ich konkretnie, dlaczego nie skorzystali z niezależnego zestawu testów.Podejrzewam, że to nieporozumienie - być może użyli oddzielnego zestawu testowego, a następnie przeszkolili się na wszystkich danych.

@seanv507,, o które będziemy pytać.Po prostu upewniam się, że nie ma nowatorskich badań w zakresie walidacji na zestawie szkoleniowym ...

Chociaż nie jest to pełna odpowiedź na twoje pytanie, być może można uzyskać trochę intuicji, rozważając następujący przypadek.Gdyby algorytm jawnie zapamiętał wszystkie 10000 twoich oznaczonych wystąpień, miałby 100% dokładność po wyświetleniu któregokolwiek z tych wystąpień.Ale co by to zrobiło z etykietą, której nigdy wcześniej nie widziała ...

Teraz, kiedy o tym myślę, ze względu na naturę uczenia się, cokolwiek to jest, każdy rozsądny model powinien działać lepiej, gdy zobaczy dane, na których jest testowany.Byłoby naprawdę dziwne, gdyby model radził sobie lepiej na innych zestawach danych ze świata rzeczywistego niż na tym, na którym był trenowany, i statystycznie mało prawdopodobne wydaje się uzyskanie takiego samego, powiedzmy, 81% w obu przypadkach.