Pytanie:
Wskaźniki odległości pacjenta
Xodarap
2010-10-08 22:52:20 UTC
view on stackexchange narkive permalink

Istnieje wiele milionów artykułów naukowych dotyczących związków między różnymi cechami pacjentów (np. jak gen x wpływa na stan y?). Interesuje mnie jednak miernik odległości pomiędzy pacjentami w całości. Coś jak gdybym tworzył serwis randkowy, chciałbym wiedzieć, jak podobne są dwie osoby. (Z wyjątkiem tego przypadku „podobieństwo” oznacza podobieństwo zdrowia, a nie podobieństwo osobowości lub jakiekolwiek inne strony randkowe, na które patrzą.)

Czy ktoś mógłby wskazać mi badania dotyczące tego problemu? Jak dotąd jedyną pracą, jaką znalazłem, która naprawdę próbuje rozwiązać ten problem, jest:

Melton, G. B., S. Parsons, F. P. Morrison, A. S. Rothschild, M. Markatou i G. Hripcsak. „Wskaźniki odległości między pacjentami przy użyciu SNOMED CT definiujące relacje”. Journal of Biomedical Informatics 39, no. 6 (2006): 697-705.

EDYCJA:

Aby wyjaśnić moje pytanie (ponieważ różni się nieco od wielu na tej stronie): Nie pytam „Mam pewne dane zestaw, jak mogę to przeanalizować? ” Pytam „gdybym podał lekarzowi zestaw danych, w jaki sposób oni by go przeanalizowali?” Nie obchodzi mnie szczególnie, czy istnieje jakaś zależność między atrybutem X i Y. Zależy mi na tym, czy lekarz uważa , że istnieje związek między X i Y.

Tj. moje pytanie brzmi: daję lekarzowi dwie karty pacjentów. Jak mogę przewidzieć, jakie według nich jest podobieństwo? Czy patrzą na określone cechy? Czy jest w ogóle możliwe stwierdzenie typu „oni są podobni do 9?”. Czy lepsze jest stwierdzenie, że „są podobne w wymiarze X i .8 w wymiarze Y?”. Czym różnią się choroby przewlekłe od tymczasowych? itd. itp.

To może być na marginesie tego, do czego jest przeznaczona ta strona, ale mam nadzieję, że ktoś sobie z tym poradził i może wskazać mi dobry kierunek, nawet jeśli to nie jest pytanie o danej technice statystycznej jako takiej.

EDYCJA 2:

Dziękuję wszystkim za sugestie. Jednak naprawdę szukałem osób, które wykonały tę pracę wcześniej - nie mam dostępu do wielu danych, więc miałem nadzieję, że znajdę kogoś, kto miał te dane i wykorzystał ich wnioski.

Pięć odpowiedzi:
chl
2010-10-17 17:06:39 UTC
view on stackexchange narkive permalink

Zadałeś trudne pytanie, ale jestem trochę zaskoczony, że różne wskazówki, które zostały ci zasugerowane, otrzymały tak mało uwagi. Głosowałem za nimi wszystkimi, ponieważ uważam, że są one w zasadzie pożytecznymi odpowiedziami, chociaż w swojej rzeczywistej formie wzywają do dalszej pracy bibliograficznej.

Zastrzeżenie: Nigdy nie miałem do czynienia z taką problem, ale regularnie muszę ujawniać wyniki statystyczne, które mogą różnić się od a priori przekonań lekarzy i wiele się uczę, odkrywając ich tok rozumowania. Mam również pewne doświadczenie w nauczaniu ludzkiej decyzji / wiedzy z perspektywy sztucznej inteligencji i nauk kognitywnych i myślę, że to, o co pytałeś, nie jest tak dalekie od tego, w jaki sposób eksperci faktycznie decydują, że dwa obiekty są podobne lub nie, na podstawie ich atrybutów i wspólne rozumienie ich relacji.

Z twojego pytania zwróciłem uwagę na dwa interesujące stwierdzenia. Pierwsza dotyczyła tego, jak ekspert ocenia podobieństwo lub różnicę między dwoma zestawami pomiarów:

Nie obchodzi mnie, czy istnieje jakaś zależność między atrybutem X i Y. Na czym mi zależy jeśli lekarz uważa, że ​​istnieje związek między X i Y.

Drugi,

Jak mogę przewidzieć, jakie według niego jest podobieństwo? Czy patrzą na określone atrybuty?

wygląda na to, że jest on w pewnym stopniu podciągnięty do pierwszego, ale wydaje się być ściślej powiązany z najważniejszymi atrybutami, które pozwalają na wyraźne oddzielenie obiekty zainteresowania.

Na pierwsze pytanie odpowiedziałbym: Cóż, jeśli nie ma charakterystycznej lub obiektywnej relacji między dowolnymi dwoma przedmiotami, jakie byłoby uzasadnienie dla stworzenia hipotetycznego? Raczej myślę, że pytanie powinno brzmieć: jeśli mam tylko ograniczone zasoby (wiedza, czas, dane), aby podjąć decyzję, w jaki sposób mogę zoptymalizować swój wybór? Na drugie pytanie moja odpowiedź brzmi: Chociaż wydaje się, że częściowo zaprzecza to twojemu wcześniejszemu twierdzeniu (jeśli w ogóle nie ma związku, oznacza to, że dostępne atrybuty nie są dyskryminujące ani bezużyteczne), myślę, że przez większość czasu jest to kombinacja atrybutów, która ma sens, a nie tylko to, jak dana osoba osiąga wyniki w pojedynczym atrybucie.

Pozwólcie, że rozwodzę się nad tymi dwoma punktami. Istoty ludzkie mają ograniczoną lub ograniczoną racjonalność i może podjąć decyzję (często właściwą) bez sprawdzania wszystkich możliwych rozwiązań. Istnieje również ścisły związek z abdukcyjnym rozumowaniem. Powszechnie wiadomo, że istnieje pewna rozbieżność między poszczególnymi ocenami, a nawet między orzeczeniami tego samego biegłego wydanymi w dwóch przypadkach. Tym właśnie interesują nas badania niezawodności. Ale chcesz wiedzieć, w jaki sposób ci eksperci opracowują swoje oceny. W psychologii poznawczej istnieje ogromna liczba artykułów na ten temat, zwłaszcza na temat tego, że sądy względne są łatwiejsze i bardziej wiarygodne niż absolutne . Pod tym względem decyzje lekarzy są interesujące, ponieważ potrafią podjąć „dobrą” decyzję mając ograniczoną ilość informacji, ale jednocześnie korzystają z coraz większej wewnętrznej bazy wiedzy, z której mogą wyciągać oczekiwane relacje (ekstrapolacja) . Innymi słowy, mają wbudowaną maszynerię wnioskowania (zakładaną, że jest to hipotetyczno-dedukcyjna) maszyneria i gromadzą pozytywne dowody lub kontrfakty wynikające z doświadczenia lub praktyki. Odtwarzanie tej zdolności wnioskowania i użycie wiedzy deklaratywnej było celem kilku systemów eksperckich lub reguł produkcyjnych w latach 70., z których najsłynniejszym był MYCIN, a bardziej ogólnie Artifical Inteligencja na początku 1946 r. (Czy w sztucznym systemie możemy odtworzyć inteligentne zachowanie obserwowane u człowieka?). Automatyczne traktowanie mowy, rozwiązywanie problemów, wizualne rozpoznawanie kształtów są nadal aktywnymi projektami w dzisiejszych czasach i wszystkie mają do czynienia z identyfikacją najistotniejszych cech i ich relacji, aby podjąć odpowiednią decyzję (tj. dwa różne procesy generujące?).

Podsumowując, nasi lekarze są w stanie wyciągnąć optymalne wnioski z ograniczonej ilości danych, kompensując hałas, który powstaje po prostu jako produkt uboczny indywidualnej zmienności (na poziomie pacjentów). Tak więc istnieje wyraźny związek ze statystyką i teorią prawdopodobieństwa, a pytanie brzmi, co świadoma lub podświadoma metodologia pomaga lekarzom w formułowaniu ich sądów. Sieci semantyczne (SN), sieci przekonań i drzewa decyzyjne są odpowiednie dla zadanego pytania. Cytowany artykuł dotyczy wykorzystania ontologii jako podstawy formalnych sądów, ale jest to nic innego jak rozszerzenie SN i wiele projektów zostało zainicjowanych w tym kierunku (mogę pomyśleć o Ontologia genów do badań genomicznych, ale wiele innych istnieje w różnych dziedzinach).

Spójrzmy teraz na następującą hierarchiczną klasyfikację kategorii diagnostycznych (jest z grubsza zaczerpnięta z Dunn 1989, str. 25):

alt text

A teraz spójrz na klasyfikację ICD; Myślę, że nie jest to zbyt daleko od tej schematycznej klasyfikacji. Zaburzenia psychiczne są podzielone na różne kategorie, z których niektóre są sobie bliższe. To, co czyni je podobnymi, to bliskość ich ekspresji (fenotypu) u każdego pacjenta oraz fakt, że mają pewne podobieństwa w etiologii somatycznej / psychologicznej. Ocena, czy dwóch lekarzy dokonałoby tej samej diagnozy, jest typowym przykładem badania porozumienia między oceniającymi , w którym dwóch psychiatrów jest proszonych o umieszczenie każdego z kilku pacjentów w wykluczających się kategoriach. Hierarchiczna struktura powinna znaleźć odzwierciedlenie w sporze między poszczególnymi lekarzami, to znaczy mogą nie zgadzać się co do dokładniejszego rozróżnienia między klasami diagnostycznymi (listkami), ale gdyby nie zgadzali się między bezsennością a schizofrenią, cóż, byłoby to trochę niepokojące. . To, w jaki sposób ci dwaj lekarze decydują, do której klasy należy dany pacjent, jest tylko problemem skupiającym: Jakie jest prawdopodobieństwo, że dwie osoby, biorąc pod uwagę zestaw obserwowanych wartości różnych atrybutów, będą na tyle podobne, że zdecyduję, że mają to samo członkostwo w klasie?

Otóż, niektóre atrybuty mają większy wpływ niż inne i właśnie to znajduje odzwierciedlenie w wadze przypisanej danemu atrybutowi w analizie klas ukrytych (którą można traktować jako rozszerzenie probabilistyczne metod grupowania, takich jak k-średnie) lub zmienna ważność w Random Forests. Musimy pakować rzeczy do pudełek, bo na pierwszy rzut oka jest to prostsze. Problem polega na tym, że często rzeczy do pewnego stopnia się pokrywają, więc musimy wziąć pod uwagę różne poziomy kategoryzacji. W rzeczywistości analiza skupień jest sercem rzeczywistych kategorii DSM, a wiele artykułów faktycznie obraca się wokół przypisania jednego pacjenta do określonej kategorii syndromowej, w oparciu o profil jego odpowiedzi na baterię ocen neuropsychologicznych . Wygląda to po prostu na podejście podtypów ; Za każdym razem staramy się zawęzić wstępnie ustaloną kategorię diagnostyczną, dodając reguły wyjątków lub dodatkowy istotny objaw lub upośledzenie.

Podobnym tematem są drzewa decyzyjne , które są zdecydowanie najlepiej rozumianymi przez lekarzy technikami statystycznymi. Przez większość czasu opisywali zagnieżdżoną serię twierdzeń logicznych (Czy boli cię gardło? Jeśli tak, czy masz temperaturę? Itd.), Ale spójrz na przykład publicznego drzewa diagnostycznego grypy ), zgodnie z którym możemy podjąć decyzję dotyczącą bliskości pacjentów (tj. jak podobni pacjenci są uwzględniani w atrybutach branych pod uwagę przy budowaniu drzewa - im bliżej są, tym większe jest prawdopodobieństwo, że znajdą się w tym samym liściu). Reguły asocjacji i algorytm C4.5 opierają się na tym samym pomyśle. W pokrewnym temacie jest metoda indukcji reguł pacjenta (PRIM). Teraz musimy wyraźnie rozróżnić wszystkie te metody, które efektywnie wykorzystują dużą ilość danych i obejmują gromadzenie lub przyspieszanie w celu zrekompensowania kruchości modelu lub problemów z nadmiernym dopasowaniem, a lekarzami, którzy nie mogą przetwarzać ogromnych ilości danych w automatycznym i algorytmiczny sposób. Ale w przypadku małej lub średniej liczby deskryptorów myślę, że mimo wszystko działają one całkiem dobrze.

Jednak podejście tak lub nie nie jest panaceum. W genetyce behawioralnej i psychiatrii powszechnie twierdzi się, że podejście klasyfikacyjne nie jest prawdopodobnie najlepszą drogą i że powszechne choroby (zaburzenia uczenia się, depresja, zaburzenia osobowości itp.) Odzwierciedlają raczej kontinuum niż klasy o przeciwnej wartościowości. Nikt nie jest doskonały!

Podsumowując, myślę, że lekarze faktycznie posiadają rodzaj zinternalizowanego mechanizmu wnioskowania, który pozwala im przypisywać pacjentów do odrębnych klas, które charakteryzują się ważoną kombinacją dostępnych dowodów; innymi słowy, są w stanie efektywnie organizować swoją wiedzę, a te wewnętrzne reprezentacje i relacje, które dzielą, mogą zostać wzmocnione w trakcie doświadczenia. Rozumowanie oparte na przypadkach prawdopodobnie również w pewnym momencie wchodzi w grę. Wszystko to może podlegać (a) korekcie z nowo dostępnymi danymi (nie działamy po prostu jako ostateczne klasyfikatory binarne i jesteśmy w stanie włączyć nowe dane do naszego procesu decyzyjnego) oraz (b) subiektywne uprzedzenia wynikające z wcześniejszych doświadczeń błędne reguły asocjacji stworzone przez siebie. Są jednak podatne na błędy, ponieważ każdy system decyzyjny ...

Wszystkie techniki statystyczne odzwierciedlające te kroki - drzewa decyzyjne, gromadzenie / zwiększanie, analiza skupień, analiza utajonych skupień - wydają się odpowiednie dla twoich pytań , chociaż ich wystąpienie może być trudne w jednej regule decyzyjnej.

Oto kilka odniesień, które mogą być pomocne jako pierwszy początek w podejmowaniu decyzji przez lekarzy:

Dzięki chl. Myślę, że problem w tym, że wiele odpowiedzi było zbyt dobrych - np. wyszukanie hasła „analiza skupień pacjentów” w Google scholar zwraca 650 000 wyników. Więc zamiast mówić „tutaj jest kilka dobrych kierunków”, chciałem uzyskać bardziej dyskretną bibliografię.
(+1) Dzięki za precyzję. Łatwiej jest edytować oryginalne pytanie i poprosić o dedykowane referencje, w przeciwnym razie niektórzy z nas mogą być zdezorientowani; bez poparcia nie możemy wiedzieć, czy odpowiedzi były przydatne, czy nie, ani ich ulepszyć. W każdym razie powodzenia!
russellpierce
2010-10-15 20:50:13 UTC
view on stackexchange narkive permalink

Mogę tu źle rozumieć Twoje cele, ale wydaje mi się to problemem wielowymiarowego skalowania (MDS). Sam nigdy nie korzystałem z MDS, ale mam poczucie, że powinno to pozwolić na uzyskanie globalnej miary podobieństwa, a także wymiarów podobieństwa. Pamiętam, że jest w stanie obsłużyć zarówno pozycje ciągłe (np. Częstość tętna), jak i elementy nominalne (np. Płeć), co wydaje się, że byłoby to ważne do rozważenia tego, co próbujesz zrobić.

Sympa
2010-10-09 01:05:15 UTC
view on stackexchange narkive permalink

Cała dziedzina analizy skupień jest odpowiednia dla Twojej koncepcji odległości statystycznej wielu zmiennych. Powiązana książka na ten temat jest bardzo krótka i całkiem dobra.

user88
2010-10-09 16:59:07 UTC
view on stackexchange narkive permalink

Prosty pomysł polega na zrobieniu PCA i odległości bazowej kilku pierwszych komponentów (jednak nie podoba mi się ta technika ze względu na przyjęte przez nią założenia).

Złożoną ideą jest użycie uczenia maszynowego; uzyskane odległości ujawnią strukturę klasyfikatora, więc będą mniej więcej tak dobre, jak dokładność klasyfikacji. Najprostszym podejściem jest tutaj po prostu losowa odległość obiektu leśnego ( przykład Breimana), ale można również użyć jądra uzasadnionego przez SVM, patrz na przykład Winters-Hilt & Merat 2007.

carlosdc
2010-10-10 11:12:37 UTC
view on stackexchange narkive permalink

Istnieje podpole o nazwie Nauka z metryk na odległość. Jedną z takich metod jest uczenie się oparte na teorii informacji (ITML).



To pytanie i odpowiedź zostało automatycznie przetłumaczone z języka angielskiego.Oryginalna treść jest dostępna na stackexchange, za co dziękujemy za licencję cc by-sa 2.0, w ramach której jest rozpowszechniana.
Loading...