Pytanie:
Dlaczego liniowa analiza dyskryminacyjna jest wrażliwa na walidację krzyżową (problem nadmiernego dopasowania LDA)?
SdidS
2017-10-06 03:36:16 UTC
view on stackexchange narkive permalink

Mam zestaw ponad 500 obserwacji (ponad 200 wymiarów wektora cech) składający się z 7 klas i chcę poprawić mój współczynnik klasyfikacji (z SVM lub KNN).

Aby zmniejszyć wymiar i przekształcić macierz cech do niższego wymiaru (z powodu przekleństwa wymiarowości), używam LDA. Mapuje moje dane wysokowymiarowe do niższych 6 wymiarów. Jednak zastosowanie krzyżowo walidowanej LDA nie pomaga i dramatycznie pogarsza wyniki.

Kiedy nawet używam leave out (LOOCV) do obliczenia macierzy projekcji LDA, oblicza się ją, obejmując tylko jedną obserwację. Moje pytanie brzmi: dlaczego nawet w tym przypadku macierz projekcji ($ W $) jest tak nadmiernie dopasowana i wrażliwa na walidację krzyżową? Intuicyjnie podałem tylko jedną próbkę, ale wydaje się, że macierz projekcji nie może poprawnie odwzorować wstrzymanej obserwacji.

Interesują mnie dwie części:

  • Matematyka stojąca za takim eksperymentem.
  • Rozważania lub rozwiązania dotyczące lepszej weryfikacji funkcji w ramach weryfikacji krzyżowej zamiast LDA.

Aktualizacja

  • w oparciu o @Andrew M, pierwsza odpowiedź, mam różną liczbę obserwacji na klasę. Na przykład jedna klasa ma przykładowe 120 obserwacji, a druga tylko 40.
LDA ma kilka znaczeń.Co to oznacza?
@sycorax oznacza liniową analizę dyskryminacyjną, za pomocą której można rzutować duże dane wymiarowe na niższy (C-1) wymiar.$ C $ to liczba klas.
Trzy odpowiedzi:
Karolis Koncevičius
2017-10-07 14:04:58 UTC
view on stackexchange narkive permalink

Wygląda na to, że rozmiar próbki nie jest dużo większy niż wymiarowość danych (rozmiar zestawu funkcji). To może być problem dla LDA i może być przesadzone. Ponieważ opiera się na obliczaniu wewnątrzklasowej macierzy rozproszenia, która wymaga scenariusza N >> p (# próbek >> # funkcji).

Jednym z szybkich sposobów sprawdzenia, czy osiągasz nadmierne dopasowanie do LDA, jest przyjrzenie się prognozom. W wyniku LDA masz wektory projekcji C-1. Próbowałbym rzutować dane na te wektory jeden po drugim i wizualizować je. Jeśli LDA rzeczywiście jest nadmiernie wyposażony - zobaczysz, że klasy rozdzielają się prawie idealnie i są skupione wokół oddzielnych punktów na rzutowanej osi. (W przypadku p> N wszystkie próbki byłyby rzutowane na różne punkty C z idealnie oddzielonymi klasami).

Efekt ten został nazwany „gromadzeniem danych” przez J. S. Marrona w jego artykule Distance Weighted Discrimination . Aby dowiedzieć się, jak to może wyglądać, sprawdź dane zawarte w tym artykule.

Zakładając, że tak się stanie, zrobiłbym jedną z następujących rzeczy:

1) Użyj uregulowanej wersji LDA. Najprostszym pomysłem jest prawdopodobnie po prostu dodanie jakiejś stałej do przekątnej wewnątrzklasowej macierzy rozproszenia w celu zwiększenia wariancji we wszystkich kierunkach. Ale jest wiele różnych sposobów uregulowania LDA.

2) Użyj innej metody redukcji wymiarowości, która jest dostosowana do twojego scenariusza małej wielkości próby. Dobrym wyborem może być tutaj dyskryminacja ważona na odległość (DWD).

3) Pobierz więcej próbek (zawsze zalecane)

[1] Dyskryminacja ważona odległością . J. S. Marron, Michael J. Todd i Jeongyoun Ahn. Journal of the American Statistical Association, tom. 102, nr 480 (grudzień 2007), str. 1267-1271

cbeleites unhappy with SX
2017-10-08 17:24:06 UTC
view on stackexchange narkive permalink

Kiedy nawet używam pominięcia jednego (LOOCV) do obliczenia macierzy projekcji LDA, jest ona obliczana przez uwzględnienie tylko jednej obserwacji. Moje pytanie brzmi: dlaczego nawet w tym przypadku macierz projekcji ($ W $) jest tak nadmiernie dopasowana i wrażliwa na walidację krzyżową? Intuicyjnie przedstawiłem tylko jedną próbkę, ale wydaje się, że macierz projekcji nie może poprawnie odwzorować wstrzymanej obserwacji.

Cóż, walidacja krzyżowa prawdopodobnie robi to, co powinna: przy prawie tych samych danych szkoleniowych mierzona jest wydajność. Zauważasz, że modele są niestabilne (co jest jednym z symptomów nadmiernego dopasowania). biorąc pod uwagę sytuację z danymi, wydaje mi się całkowicie prawdopodobne, że pełny model równie źle pasuje.

Walidacja krzyżowa sama w sobie nie chroni przed nadmiernym dopasowaniem (ani nie poprawia sytuacji) - po prostu informuje Cię, że jesteś nadmiernie dopasowany i od Ciebie zależy, czy zrobisz coś przeciwko temu.

Pamiętaj, że zalecana liczba przypadków szkoleniowych, w których możesz być dość pewny, że masz stabilne dopasowanie dla (nieregularnych) klasyfikatorów liniowych, takich jak LDA, wynosi n> 3 do 5 p w każdej klasie . W twoim przypadku byłoby to, powiedzmy, 200 * 7 * 5 = 7000 przypadków, więc przy 500 przypadkach jesteś więcej niż o rząd wielkości poniżej tego zalecenia.


Sugestie:

  • Patrząc na LDA jako metodę projekcji, możesz również sprawdzić PLS (częściowe najmniejsze kwadraty). Jest to związane z LDA ( Barker & Rayens: Partial najmniejszych kwadratów dla dyskryminacji J Chemom, 2003, 17, 166-173). W przeciwieństwie do PCA, PLS bierze pod uwagę zmienną zależną do swojej projekcji. Ale w przeciwieństwie do LDA (i podobnie jak PCA) oferuje bezpośrednio regularyzację.

  • W sytuacjach o małej wielkości próby, gdzie n jest niewiele większe od p, wiele problemów można rozwiązać za pomocą klasyfikacji liniowej. Poleciłbym sprawdzić, czy nieliniowy 2. stopień w Twojej klasyfikacji jest naprawdę potrzebny.

  • Niestabilne modele można poprawić, przełączając się na model zagregowany (zespolony). Chociaż najbardziej znaną odmianą jest pakowanie w worki, można również zagregować krzyżową walidację LDA (np. Beleites, C. & Salzer, R .: Ocena i poprawa stabilności modeli chemometrycznych w przypadku małych próbek) Anal Bioanal Chem, 2008, 390 , 1261-1271.
    DOI: 10.1007 / s00216-007-1818-6
    )

  • Ze względu na łączenie macierzy kowariancji spodziewałbym się, że nierównomierny rozkład przypadków w różnych klasach będzie mniej trudny dla LDA w porównaniu z wieloma innymi klasyfikatorami, takimi jak SVM. Oczywiście odbywa się to kosztem tego, że wspólna macierz kowariancji może nie być dobrym opisem danych. Jednakże, jeśli twoje klasy są bardzo nierówne (lub nawet masz raczej źle zdefiniowane klasy negatywne, takie jak „coś poszło nie tak z procesem”), możesz chcieć przyjrzeć się klasyfikatorom jednoklasowym. Zwykle potrzebują więcej przypadków szkoleniowych niż klasyfikatorów dyskryminacyjnych, ale mają tę zaletę, że rozpoznawanie klas, w których masz wystarczającą liczbę przypadków, nie będzie zagrożone przez klasy z tylko kilkoma instancjami szkoleniowymi, a te źle zdefiniowane klasy można opisać tak, jak należy do żadnej z dobrze zdefiniowanych klas.

Andrew M
2017-10-07 00:52:32 UTC
view on stackexchange narkive permalink

LDA jest optymalna, gdy rozkład cech uwarunkowany etykietami jest Gaussa z równymi, ale nieustrukturyzowanymi macierzami kowariancji.Jeśli warunkowy model Gaussa nie mieści się w przybliżeniu, możesz nie chcieć używać LDA.Wyniki sugerowane przez LOO-CV

  1. Warunkowy model Gaussa jest słabo dopasowany i / lub
  2. Nie masz wystarczającej liczby obserwacji, aby precyzyjnie oszacować wewnątrzklasową macierz kowariancji.
świetny.Kiedy zaktualizowałem moje pytanie, prawdopodobnie tak jest.Czy masz zamiast tego jakąś sugestię?Używaliśmy PCA przed LDA, ale to nie pomogło w ulepszeniu (podczas gdy model wydaje się mniej dopasowany).
Jeśli używałeś PCA przed LDA, upewnij się, że zmniejszyłeś wymiarowość w kroku PCA (na przykład weź liczbę komponentów PCA, aby zachować 80% wariancji).W przeciwnym razie, jeśli użyjesz wszystkich głównych składników, będzie to miało niewielki wpływ na LDA.


To pytanie i odpowiedź zostało automatycznie przetłumaczone z języka angielskiego.Oryginalna treść jest dostępna na stackexchange, za co dziękujemy za licencję cc by-sa 3.0, w ramach której jest rozpowszechniana.
Loading...