Pytanie:
Liniowa analiza dyskryminacyjna i dane o rozkładzie innym niż normalny
user39663
2014-08-06 21:27:11 UTC
view on stackexchange narkive permalink

Jeśli dobrze rozumiem, Liniowa Analiza Dyskryminacyjna (LDA) zakłada normalne rozproszone dane, niezależne cechy i identyczne kowariancje dla każdej klasy dla kryterium optymalności.

Ponieważ średnia i wariancja są szacowane na podstawie dane treningowe, czy nie jest to już naruszenie?

Znalazłem cytat w artykule (Li, Tao, Shenghuo Zhu i Mitsunori Ogihara. „ Korzystanie z analizy dyskryminacyjnej w klasyfikacji wieloklasowej: badanie eksperymentalne”. Wiedza i Information Systems 10, no. 4 (2006): 453–72.)

„Liniowa analiza dyskryminacyjna często osiąga dobre wyniki w zadaniach rozpoznawania twarzy i obiektów, mimo założeń wspólnej kowariancji macierz między grupami i normalność są często naruszane (Duda i in., 2001) ”

- niestety nie udało mi się znaleźć odpowiedniej sekcji w Duda i in. glin. „Klasyfikacja wzorów”.

Jakieś doświadczenia lub przemyślenia na temat stosowania LDA (w porównaniu z uregulowaną LDA lub QDA) do nienormalnych danych w kontekście redukcji wymiarowości?

Pytasz konkretnie o wieloklasowe LDA. Co sprawia, że ​​sądzisz, że wieloklasowe LDA i dwuklasowe LDA zachowują się inaczej pod tym względem (z naruszeniem normalności i / lub wspólnych założeń kowariancji)?
Jeśli czegoś tu nie brakuje, to powinno opierać się na tych samych założeniach, prawda? Po prostu nie widziałem żadnych założeń w artykule Rao w odniesieniu do normalności, ale uogólniłem pytanie
Jeden odpowiedź:
amoeba
2014-08-07 03:46:26 UTC
view on stackexchange narkive permalink

Oto co Hastie i in. muszę o tym powiedzieć (w kontekście dwuklasowej LDA) w The Elements of Statistical Learning, sekcja 4.3:

Ponieważ to wyprowadzenie kierunku LDA za pomocą najmniejszych kwadratów nie wykorzystuje założenia Gaussa w przypadku funkcji jej zastosowanie wykracza poza sferę danych Gaussa. Jednak wyprowadzenie konkretnego punktu przecięcia lub przecięcia podanego w (4.11) wymaga danych Gaussa. Dlatego warto zamiast tego wybrać punkt odcięcia, który empirycznie minimalizuje błąd uczenia dla danego zbioru danych. Okazało się, że jest to coś, co działa dobrze w praktyce, ale nie widziałem tego w literaturze.

Nie w pełni rozumiem wyprowadzenie metodą najmniejszych kwadratów, do którego się odnoszą , ale ogólnie [Aktualizacja: w pewnym momencie podsumuję to krótko] Myślę, że ten akapit ma sens: nawet jeśli dane są bardzo różne od kowariancji Gaussa lub klas, oś LDA prawdopodobnie nadal dają pewną rozróżnialność. Jednak punkt odcięcia na tej osi (oddzielający dwie klasy) podany przez LDA może być całkowicie wyłączony. Optymalizacja go oddzielnie może znacznie poprawić klasyfikację.

Zwróć uwagę, że odnosi się to tylko do wydajności klasyfikacji. Jeśli wszystko, czego szukasz, to redukcja wymiarowości, to oś LDA jest wszystkim, czego potrzebujesz. Sądzę więc, że w celu zmniejszenia wymiarowości LDA często wykonuje dobrą robotę, nawet jeśli zostaną naruszone założenia.

Odnośnie rLDA i QDA: rLDA musi być używane, jeśli nie ma wystarczającej liczby punktów danych do wiarygodnego oszacowania w -klasowa kowariancja (i jest istotna w tym przypadku). QDA jest metodą nieliniową, więc nie jestem pewien, jak jej użyć do redukcji wymiarowości.

Jeszcze raz dziękujemy za tę cenną i dokładną opinię! Zostawię to pytanie na kilka dni, aby zebrać więcej opinii
Minęło kilka dni :)
Czy mogę to wiedzieć w kontekście redukcji wymiarowości przy użyciu LDA / FDA. `LDA / FDA może zaczynać się od n wymiarów i kończyć na k wymiarów, gdzie k c”.


To pytanie i odpowiedź zostało automatycznie przetłumaczone z języka angielskiego.Oryginalna treść jest dostępna na stackexchange, za co dziękujemy za licencję cc by-sa 3.0, w ramach której jest rozpowszechniana.
Loading...