Pytanie:
Wykryj, czy w próbce są rzeczywiście dwie populacje
The_Tams
2020-06-09 14:20:11 UTC
view on stackexchange narkive permalink

Liczyłem aparaty szparkowe na skamieniałych liściach, aby określić związek między indeksem szparkowym a CO2. Myślałem, że cały materiał pochodzi z jednej populacji (jednego gatunku w danym miejscu). Jednak analiza danych sugeruje, że mogą istnieć dwie populacje. Interpretuję je jako gatunek, na który celowałem i hybrydę, którą trudno odróżnić na podstawie morfologii liści (ze względu na stratygrafię możemy wykluczyć, że były to w rzeczywistości dwa różne czasy, a zatem różne „rzeczywiste” wartości CO2).

Udało mi się znaleźć informacje, jak określić, czy dwie próbki pochodzą z różnych populacji, ale nie, jeśli pobrałeś jedną próbkę i wydaje się, że masz dwie różne populacje. Czy byłoby dopuszczalne podzielenie rozkładu (powiedzmy podziel go na 6,5) i użycie testu Wilcoxona-Manna-Whitneya do określenia, czy dwie próbki znacznie się różnią?

W jaki sposób można określić, czy są to naprawdę dwie populacje?

Oto wyniki indeksu szparkowego dla 41 liści.

[1] 5,172414 5,246914 5,276382 5,278592 5,288462 5,306122 5,323194 5,325444 5,357143 5,366726 [11] 5,367232 5,376344 5,384615 5,504587 6,053269 6,854839 6,910569 7,006369 7,036247 7,112069 [21] 7.156673 7.231920 7.311828 7.416268 7.440476 7.448494 7.491857 7.526882 7.526882 7.534247 [31] 7,547170 7,559395 7,605634 7,671233 7,749077 7,925408 7,964602 8,064520 8,247423 8,252427 [41] 8.436214

Histogram of the Stomatal Index by Frequency

Cztery odpowiedzi:
carlo
2020-06-09 14:44:38 UTC
view on stackexchange narkive permalink

Nie ma sposobu, aby to zrobić za pomocą paradygmatu nieparametrycznego, pomyśl tylko: rozkład próbkowany jest całkowicie uzasadniony, nic nie stoi na przeszkodzie, aby dystrybucja pojedynczej populacji miała dwie oddzielne strefy o wysokiej gęstości.

Ale jeśli przejdziesz do modeli parametrycznych, możesz założyć, że twoje subpopulacje są gaussowskie, a rozkład gaussa ma tylko jeden region o wysokiej gęstości w kształcie dzwonu. Jeśli to zrobisz, możesz uruchomić grupowanie EM, aby oszacować prawdopodobieństwo modelu mieszanego dwóch klastrów gaussowskich i porównać go ze scenariuszem dla jednej populacji z testem współczynnika wiarygodności.

Patrząc na Twoje dane, ten test z pewnością będzie miał duże znaczenie. Ale są problemy:

  • Klastrowanie EM ma tendencję do zawyżania prawdopodobieństwa hipotezy wielu subpopulacji, gdy rzeczywiste rozkłady nie są do końca gaussowskie.
  • co ważniejsze, wykonanie testu na hipotezie sformułowanej po przeanalizowaniu danych daje błąd automatycznego potwierdzenia.

Krótko mówiąc, radzę odpuścić i po prostu skomentować obserwowaną dystrybucję jako „prawdopodobnie pochodzącą z odrębnych subpopulacji” lub coś wokół tej linii. Każdy test na ten temat byłby stronniczy i zawodny.

Dziękuję Ci Mam dwie metody określania CO2.Jeden na całych danych daje wartości 380–500, a drugi 260–420.Istnienie dwóch różnych równań dla tego samego gatunku, które wydają się działać, jest istotnym problemem w mojej dziedzinie.Jeśli mam dwie oddzielne klastry, powiedzmy, że jedna jest hybrydą, a druga gatunkiem docelowym, i stosuję dwie metody, jeden klaster wykorzystujący metodę A sugeruje zakres 390-440, a drugi klaster wykorzystujący metodę B zakres395-421.Moja próbka jest oczywiście zbyt mała, ale może to być ważna obserwacja, która pomoże pokierować przyszłą pracą.
Nie jestem pewien, czy rozumiem, o co pytasz w tym komentarzu.Jeśli jest to inny problem niż ten, którego dotyczy Twoje pierwotne pytanie, może opublikuj nowy, podając więcej szczegółów.
Przepraszam Carlo.Myślę, że przeoczyłem / nie przyswoiłem sobie twoje drugie ostatnie zdanie.Tłumaczyłem, dlaczego ważne / konieczne jest wskazanie prawdopodobnej odrębności dwóch klastrów, ale nie ma to związku z kwestią, którą poczynisz na temat błędu automatycznego potwierdzania.Myślę, że rozumiem, czytając dziś ponownie Twój komentarz.Dziękuję Ci.
Skończyło się na zastosowaniu metody grupowania i testowania, ale następnie używając modelu wybrane skupienia do sprawdzenia, czy inne cechy liści również były różne w obu grupach i stwierdziłem, że kształt / rozmiar liści różni się znacznie w sposób, który nie byłoczywiste i mogą być przydatne w określaniu, co się dzieje.Mój tekst nadal będzie dotyczył kwestii błędu potwierdzenia i umieścił „środkową” wartość w grupie, której nie miałbym na oko.
to kolejny problem: jeśli weźmiesz dwie podpróbki utworzone przez grupowanie, nie ma sensu testować ich pod kątem średniej różnicy, wynik zawsze będzie znaczący, jeśli masz wystarczającą ilość danych, ponieważ grupowanie nie pozwala na ich mieszanie.
Tim
2020-06-09 14:56:09 UTC
view on stackexchange narkive permalink

Zacznijmy od terminologii. Populacja w statystykach to „zbiór badanych jednostek”. Projektując badanie, określamy interesującą nas populację, a następnie pobieramy próbki z tej populacji. Zatem próbka nie może „składać się” z wielu populacji. Bardziej odpowiednim sformułowaniem byłoby określenie „grup”, „klastrów” lub „subpopulacji”.

Aby znaleźć klastry w swoich danych, możesz użyć algorytmów , które spróbują podzielić dane na wstępnie zdefiniowaną liczbę grup na podstawie takich kryteriów. Zwykle dążymy do tego, aby próbki w każdym klastrze były jak najbardziej do siebie podobne, podczas gdy klastry jak najbardziej odmienne. Zwróć uwagę na logiczny problem: jeśli najpierw pogrupujesz rzeczy w taki sposób, że grupy są do siebie niepodobne, a następnie przetestujesz, czy się różnią, to zrobi się cyklicznie. Jeśli twój test się nie powiedzie, być może algorytm grupowania nie był wystarczająco dobry lub test nie był wystarczająco czuły? Otwiera wiele sposobów na „torturowanie danych, dopóki się nie przyzna” i ogólnie jest złym pomysłem.

Jedną z metod, które można uzasadnić, jest użycie grupowania opartego na modelach (tj. , jak wspomniał w drugiej odpowiedzi Stephan Kolassa ) z jednym lub dwoma skupieniami, a następnie przeprowadź test współczynnika wiarygodności, aby porównać dwa modele. Jeśli dane są bardziej „prawdopodobne”, biorąc pod uwagę model dwóch klastrów, można powiedzieć, że rozwiązanie z dwoma klastrami „lepiej pasuje” do danych, chociaż nie dowodzi, że istniały rzeczywiste subpopulacje. Takie podejście wymagałoby, abyś był w stanie zdefiniować model statystyczny, który opisuje dane, więc jest to bardziej skomplikowane niż użycie algorytmu grupowania „czarnej skrzynki”.

Wydaje mi się, że byłem psychicznie uwięziony w populacji, którą zamierzałem studiować, w porównaniu z populacją, którą badałem.Dziękuję za sugestie dotyczące brzmienia. Przeczytanie tego wszystkiego zajmie mi trochę czasu, ale jestem na to - zbyt nowy, by głosować!
Nie bardzo rozumiem, dlaczego ten głos został odrzucony.+1 ode mnie.
Wybrałem to zamiast @StephanKolassa ze względu na dodatkowe szczegóły, ale dziękuję wam obojgu.Ponieważ w tym systemie oczekiwany byłby rozkład normalny, zastosowałem podejście modelu mieszanki gaussa i porównałem za pomocą testu współczynnika wiarygodności.Ze wszystkich przedstawionych powodów pokazało to, że model z 2 klastrami był lepiej dopasowany.Następnie założyłem, że są to dwa oddzielne skupiska i przetestowałem, czy inne cechy liści również różniły się istotnie między klastrami za pomocą testów t (ponieważ dane były zgodne z założeniami).Wystąpiła również znaczna różnica w wielkości liści, więc ciekawy wynik!
Stephan Kolassa
2020-06-09 14:36:18 UTC
view on stackexchange narkive permalink

W kategoriach statystycznych zastanawiasz się, czy Twoje dane pochodzą z mieszanki dwóch (lub więcej) populacji, czy nie pochodzą z jednej populacji.Przydatne będzie przyjrzenie się , a dokładniej znacznikom . Liczba składników modelu mieszaniny Gaussa? zawiera bardzo dobre podejście do decydowania o jednym lub dwóch składnikach na podstawie porównania prawdopodobieństw.

Dzięki @Stephan Kolassa!Zajmie mi trochę czasu, zanim przeczytam to, ale zaplanowałeś mi jutro.Wrócę, aby potwierdzić, kiedy to działa.
gung - Reinstate Monica
2020-06-10 12:05:33 UTC
view on stackexchange narkive permalink

Inne odpowiedzi dotyczyły grupowania, które jest tutaj odpowiednie. Pozwólcie, że krótko omówię test Wilcoxona-Manna-Whitneya. Zasadniczo test MW ocenia, czy wartości w jednej grupie są zwykle wyższe niż w drugiej (zobacz moje odpowiedzi tutaj lub tutaj). To znaczy, czy jeśli wybrałbyś liczbę z jednej grupy i liczbę z drugiej, czy pierwsza byłaby zazwyczaj większa? Jeśli podzielisz dane na wyższy niż jakiś punkt odcięcia i niższy niż punkt odcięcia, odpowiedź zawsze będzie brzmiała tak zgodnie z projektem. Kwestia, czy MW będzie znacząca, to kwestia mocy. Jeśli masz co najmniej 4 dane w każdej grupie, przebieg MW danych zawsze będzie znaczący. Krótko mówiąc, procedura, o której myślisz, „zadziała” w tym sensie, że da ci znaczący rezultat, ale nie powie ci tego, co chcesz wiedzieć. Aby zapoznać się z przykładem modelowania mieszanin Gaussa, przetestowanego metodą parametrycznego dopasowania krzyżowego bootstrap, zobacz moją odpowiedź tutaj: Jak sprawdzić, czy mój rozkład jest multimodalny?

Dziękuję za wyjaśnienie.Miałem przeczucie, że będzie to rodzaj samospełniającej się przepowiedni, jeśli wolisz, ale doceniam, że poświęciłeś czas na wyjaśnienie dlaczego.
Nie ma za co, @The_Tams.Powodzenia w Twoim projekcie.


To pytanie i odpowiedź zostało automatycznie przetłumaczone z języka angielskiego.Oryginalna treść jest dostępna na stackexchange, za co dziękujemy za licencję cc by-sa 4.0, w ramach której jest rozpowszechniana.
Loading...