Pytanie:
Czy zmienna może mieć rozkład normalny w skończonym przedziale?
ThePhysicist92
2020-01-28 17:19:19 UTC
view on stackexchange narkive permalink

Obliczam stawki, które mogą przyjmować dowolną wartość z zakresu od 0 do 1. Czy można to rozkładać normalnie, mimo że domena nie jest liczbami rzeczywistymi?


Normal distribution fit to the means of the lapses (bootstrapped data)

Dziękuję bardzo za odpowiedzi, tutaj przedstawiam średnie z danych, które są dopasowane do rozkładu normalnego. Stworzyłem około 1000 sposobów danych za pomocą ładowania początkowego.

Raw data

Jeśli chodzi o surowe dane, są one rzeczywiście mocno wypaczone z dużą dodatnią wartością skośności. Na podstawie twoich odpowiedzi nie można założyć 100% normalności testu t. Zamiast testów t próbuję obliczyć przedziały ufności. Mam jeden przedział ufności dla prognozy z użyciem ładowania początkowego, chociaż nie jestem w 100% pewien, czy to jest właściwy sposób. Porównuję 4 modele predykcyjne, aby zdecydować, co daje najlepsze wyniki. Indywidualne przewidywane stawki są grupowane według wieku polisy i przyjmowane jako średnia, więc prognozy są na przykład: dla wieku = 4 stopa = 4,2%. Chcę użyć innej metody dla CI, a mianowicie nierówności Czebyszewa. Ale w tym celu muszę dopasować dystrybucję do danych. Próbowałem już weibull, beta, gamma, ale żaden z nich nie działa.

EDIT: Stworzony przeze mnie model przewiduje indywidualne stawki i biorę średnią z tych stawek, aby uzyskać średnią stawkę dla grupy. Średnia ta musi zostać prawidłowo oszacowana, a także przypisać jej CI. Doszedłem do wniosku, że jeśli wykonam test t na każdej grupie między przewidywaniami modelu a rzeczywistymi wartościami, które należy przewidzieć (testowy zbiór danych) i otrzymam nieistotne wartości p, to model jest dobry. Potrzebowałem tych informacji dotyczących możliwej normalności wartości z powodu testu t.

Bardzo dziękuję za wszystkie informacje, które mi przekazałeś! Jesteś świetny!

Tylko w przybliżeniu.Alternatywnie, jeśli sprawdzisz, powiedzmy, dystrybucję beta, przekonasz się, że przestrzega ona granic, ale może być bliska symetrii.
... może być też dokładnie symetryczny!
W wielu przypadkach stawki nie wykazują rozkładów, które można dobrze przybliżyć rozkładem normalnym, zwłaszcza gdy wiele z nich jest skrajnych (blisko 0 USD lub 1 USD), więc jeśli próbujesz, możesz szukać w niewłaściwym miejscuaby opracować model prawdopodobieństwa dla obliczonych stawek.
To zależy * bardzo * od sytuacji.Może się zdarzyć, że twoje stawki można przybliżyć za pomocą rozkładu normalnego (zakładam, że to przybliżenie, zamiast dokładnej równoważności, jest tym, do czego dążysz).Kiedy obliczasz stawki, często liczysz.Liczby te mogą mieć rozkład dwumianowy, który można dobrze przybliżyć rozkładem normalnym, jeśli liczba jest wystarczająco duża ...
.... Zobacz [tutaj] (https://stats.stackexchange.com/questions/398436/ab-testing-ratio-of-sums), aby zobaczyć przykład, w którym stawki są dobrze przybliżone przez rozkład normalny (jest tostosunek dwóch zmiennych w przybliżeniu o rozkładzie normalnym, która sama w sobie jest również w przybliżeniu o rozkładzie normalnym. Ale tak, dokładniej wynika z nieco innego rozkładu, który można dokładniej opisać inną, ale bardziej złożoną krzywą)
Głosuję za zamknięciem tego pytania.W domyśle to pytanie dotyczy tego, czy * praktyczne * jest użycie przybliżenia z rozkładem normalnym.Aby odpowiedzieć na to pytanie, musisz wyjaśnić więcej na temat „Obliczam stawki”
Czy z ciekawości zadziała na to homeomorfizm?(-inf, inf) jest podobne do (0,1) w topologicznym sensie nie?Pytam, bo nie jestem pewien.Zakładam, że pytanie oznaczało ograniczony interwał w przeciwieństwie do skończonego interwału.
Czy możesz dodać dodatkowe informacje, które podałeś w komentarzach, do pierwotnego pytania?Nie każdy czyta komentarze ..., a Q mają być samodzielne bez potrzeby dodatkowych informacji
Co starasz się osiągnąć?dlaczego jest ważne, czy (i w jakim stopniu) Twoje dane są „normalnie rozprowadzane na [0,1]”
Do edycji: (1) nie możesz poprawnie użyć nierówności Czebyszewa do skonstruowania CI, ponieważ wymaga to pewnej wiedzy na temat wariancji podstawowej dystrybucji.(2) Jednak nierówność Czebyszewa dotyczy wszystkich dystrybucji, więc gdybyś mógł ją zastosować, nie musiałbyś dopasowywać rozkładu do danych.
Twój rozkład ma dwa składniki, jeden bliski 0 i jeden bliski 1. Dlaczego chcesz porównać tylko średnią (która jest kombinacją dużo większej ilości informacji, a mianowicie rozkład między tymi dwoma składowymi, a także średnie wartości w tych składowych)?Jakie są stawki w prognozowaniu, czy model przewidujący wartości bliskie 1 jest lepszy, czy też model, który przewiduje modele bliskie 0, lepszy?Czy model, który dobrze przewiduje średnią, jest lepszy, czy też model, który dobrze przewiduje osoby (ale nie tak dobry średni wynik) jest lepszy?
@Sextus Empiricus: Stworzony przeze mnie model przewiduje stawki indywidualne i biorę średnią z tych stawek, aby otrzymać średnią dla grupy.Średnia ta musi zostać poprawnie oszacowana, a także przypisać jej CI.Doszedłem do wniosku, że jeśli wykonam test t na każdej grupie między przewidywaniami modelu a rzeczywistymi wartościami, które należy przewidzieć (testowy zbiór danych) i otrzymam nieistotne wartości p, to model jest dobry. Potrzebowałem tych informacji dotyczących możliwej normalności wartości ze względu na test t.
@whuber: (1): Ale czy uda mi się dopasować rozkład do danych?Jeśli dopasuję dystrybucję beta i otrzymam parametry z maksymalnym prawdopodobieństwem i wezmę jej średnią i wariancję do stworzenia granic Czebyszewa?Albo jest w tym zbyt wiele niepewności.
Pięć odpowiedzi:
kjetil b halvorsen
2020-01-28 17:29:08 UTC
view on stackexchange narkive permalink

Nie, nie może.Przynajmniej jeśli „rozprowadzane jako” oznacza dokładnie .Zakres rozkładu normalnego rozciąga się od minus do plus nieskończoności.W praktyce jeśli wariancja jest wystarczająco mała, powiedzmy w kolejności $ (0,1) ^ 2 $ , wtedy zmienna ograniczonado $ (0,1) $ może być w przybliżeniu rozłożony normalnie.

Dziękuję Ci!Mam wartości takie jak 0,004, 0,02 i tak dalej ... to są wskaźniki rezygnacji, więc wariancja jest bardzo mała. Dziękuję Ci!Biorę średnią z tych wartości i otrzymuję 0,04 (z 400 000 próbek).Czy zgodnie z twierdzeniem o granicy pola widzenia mogę powiedzieć, że ta średnia jest zgodna z rozkładem normalnym?W tym przypadku w przybliżeniu rozkład normalny.
Wskaźnik rezygnacji może oznaczać wiele rzeczy, ale żadna, o której wiem, nie ma górnej granicy 1 (te, o których wiem, mają jednostki miary, więc nawet jeśli jest ograniczona, górna granica zależy od konwencji dotyczącej jednostek).
Przez współczynnik wygaśnięcia rozumiem prawdopodobieństwo wykupu danej polisy ubezpieczeniowej.Prawdopodobieństwo przewiduję indywidualnie, więc znam prawdopodobieństwo wygaśnięcia dla każdego kontraktu.Następnie obliczam średnią z tych prawdopodobieństw na podstawie jakiejś metody grupowania.Przedmiotowa średnia jest średnią z tych prawdopodobieństw.
W porządku;to naprawdę prawdopodobieństwo.W ogóle nie użyłbym tutaj normalności, nawet dla środków.
Zakładam, że średnia ma rozkład normalny ze względu na centralne twierdzenie graniczne, ale tylko dlatego, że chcę wykonać test t między średnią rzeczywistą a przewidywaną.Tak więc normalność jest wymagana tylko dla testu t.Czy uważasz, że ten wymóg został spełniony?Jeśli nie, dlaczego?Dziękuję Ci!
Mówisz nam, że średnia jest bardzo blisko granicy.To zawsze jest niebezpieczne.Nie mogę, ale wolę pracować w przekształconej skali lub używać rozkładu nienormalnego jako odniesienia, gdybym miał podobne dane.Zakładanie, że dane są takie, jakie wolisz, ma wiele zalet, ale może to być myślenie życzeniowe.Twoje dane są, jak sądzę, nie tylko zbyt duże, aby nam je pokazać, ale także prawdopodobnie poufne lub wrażliwe, ale chciałbym zobaczyć wykres kwantylowy.
@user268825 * "Zakładam, że średnia ma rozkład normalny ..." * stanie się poprawnym stwierdzeniem, gdy zmienisz je na: Zakładam, że średnia ma rozkład normalny * w przybliżeniu *.
Zalecałbym, abyś logit przekształcił swoją zmienną (https://en.wikipedia.org/wiki/Logit).Ta transformacja wyeliminowałaby jeden z powodów, dla których zmienna nie może mieć rozkładu normalnego: zmienna transformowana będzie miała dziedzinę w liczbach rzeczywistych.Jeśli przekształcona zmienna ma wówczas w przybliżeniu rozkład normalny (np. Brak znaczących odchyleń na podstawie testu Shapiro), można zastosować test t do przekształconych wartości.
@fabiob test t może mieć również zastosowanie do zmiennej nietransformowanej.Będzie to zależeć od sytuacji, a sam fakt, że domena ma od 0 do 1, nie jest wystarczającą informacją.Wystarczającym dodatkowym warunkiem jest to, że odchylenie standardowe jest o rząd mniejsze niż średnia.
@SextusEmpiricus „Zakładam, że średnia ma rozkład normalny…” Stanie się to poprawne, gdy „średnią” zastąpisz „rozkładem średnich próbek o rozmiarze $ N = 400 000 $”.Średnia * pojedynczej * próbki nie ma rozkładu normalnego… nawet przybliżonego.
@Alexis Jestem lepszy w liczbach / obrazach niż słowach.Tak więc, kiedy poprawimy logikę (nie jest to * dokładnie * rozkład normalny) * i * język (* pojedynczy * średni nie * ma * rozkładu. Nie możemy powiedzieć, że obserwacja * jest * rozproszona), tostaje się: „Zakładam, że średnia ma być próbkowana z rozkładu, który można przybliżyć rozkładem normalnym” lub krótszy „Zakładam, że średnią można modelować / aproksymować rozkładem normalnym”.
@SextusEmpiricus prawda.Prawdą jest również, że test t może nie mieć zastosowania nawet do przekształconej zmiennej.Ale nadal uważam, że usunięcie jednego z powodów, dla których niektóre założenia leżące u podstaw testu t mogą nie zostać spełnione, jest rzeczą godną polecenia.
@fabiob, Na podstawie informacji zawartych w tym pytaniu * nie wiemy *, czy podstawowe założenia testu t nie są spełnione.Nie wiemy też, czy OP rzeczywiście chce przeprowadzić test t.* Samo wykonanie * transformacji logit na * zmiennej wynikowej * może być bez znaczenia.Tak, prawdopodobnie OP chciałby przeprowadzić regresję logistyczną, ale to * nie * to samo, co wykonanie transformacji logitowej (warunkową * średnią * wyniku należałoby traktować jako transformatę logitową podstawowej funkcji liniowej regresorów $\ beta X $).
@SextusEmpiricus OP chce wykonać test t, jak wspomina w jednym komentarzu.
@fabiob, ah te komentarze, które nigdy nie zostały zaktualizowane w pytaniach, przeoczyłem je.Jednak test t na przekształconej zmiennej również byłby bez znaczenia.Powiedzmy, że mierzysz tylko wartości 0,004 i 0,02, dlaczego przekształcenie tych wartości w inną skalę pozwoliłoby Ci lepiej wykonać test t-Studenta?Nie wierzę, że transformacja zmiennej bardzo pomaga testowi t-Studenta (również nie wierzę, że test t naprawdę bardzo obchodzi, niezależnie od rozkładu, ponieważ bardziej dotyczy rozkładu zmiennejoznaczać).
@SextusEmpiricus dlaczego bez znaczenia?zauważ, że transformacja logit nie tylko zmienia skalę.to prawda, test t dba o rozkład średniej.co jest normalne, nawet jeśli rozkład zmiennej pierwotnej nie jest normalny, jeśli spełnione są założenia centralnego twierdzenia granicznego.jeśli jednak oryginalna zmienna jest normalna, możesz mieć pewność, że średnia ma rozkład normalny.więc w tym kontekście transformacja logit zmniejsza ryzyko, że jedno z założeń, na których polegasz przy stosowaniu testu t-Studenta, nie zostanie spełnione.czy sie zgadzasz?
@fabiob Jeśli masz kilka rozproszonych wyników Bernoulliego, takich jak: $$ X = 0,004, 0,02, 0,02, 0,02, 0,02, 0,004 $$, ich transformacja będzie równie dobrze rozkładana Bernoulliego, ale tylko z różnymi wartościami $$ log (X/ (1-X)) = 5,52, -3,89, -3,89, -3,89, -3,89, -5,52 $$ Podczas regresji logistycznej często * nie * przekształcasz zmiennej wyniku, ale zamiast tego przekształcasz oczekiwanąoznaczać.
* „transformacja logit zmniejsza ryzyko, że jedno z założeń, na których polegasz przy stosowaniu testu t-Studenta, nie zostanie spełnione.” * Zmniejszasz ryzyko, uważnie rozważając rozważaną zmienną, a nie przez przypadkowe / ślepe zastosowanie szeregu przekształceńz * nadzieją *, że wszystko skończy się dobrze.
* "jeśli założenia centralnego twierdzenia granicznego są spełnione" * Założenia centralnego twierdzenia granicznego nie wymagają, aby pierwotna zmienna była rozłożona między $ - \ infty, \ infty $.W rzeczywistości byłoby jeszcze lepiej, gdyby rozkład był ograniczony do skończonego przedziału (co oznacza również skończoną wariancję).Na przykład, jeśli masz zmienną $ Y \ sim Cauchy $ (która jest podzielona między $ - \ infty, \ infty $) a $ X = logistic (Y) $ (która jest podzielona między 0,1 $ $), możeszużyj testu t na $ X $, ale * nie * na $ Y $.Przekształcenie $ X $ na $ Y $ w celu użycia testu t byłoby błędne.
Pozwól nam [kontynuować tę dyskusję na czacie] (https://chat.stackexchange.com/rooms/103890/discussion-between-fabiob-and-sextus-empiricus).
AilihdntnlCMT Beuatiful!Tak.
Acccumulation
2020-01-29 03:17:19 UTC
view on stackexchange narkive permalink

Odpowiedź na Twoje dosłowne pytanie brzmi „nie”, ale szersze, niejawne pytanie dotyczące sposobu modelowania danych jest bardziej skomplikowane. Jak mówi Jim, obcięty normalny model to jedna z opcji. Możesz również sprawdzić, jak przekonwertować swoje prawdopodobieństwa na rejestrowanie kursów, które będą się wahać od $ - \ infty $ do $ \ infty $ lub dystrybucja Beta, jak wspomina Nick Cox.

Centralne twierdzenie graniczne ma w pewnym sensie zastosowanie do twoich danych, ale CLT mówi tylko, że dane idą do rozkładu normalnego w przypadku granicznym, nie mówi, że jakikolwiek konkretny rozkład dla skończonej wielkości próbki ma rozkład normalny . Oznacza to, że dla każdego poziomu dokładności istnieje pewna wielkość próby, dla której rozkład jest normalny w ramach tego poziomu dokładności, ale nie oznacza to, że masz wystarczającą wielkość próbki, aby była normalna do wymaganego poziomu dokładności.

W komentarzach wspominasz, że prawdopodobieństwa są niewielkie, co prawdopodobnie oznacza, że ​​dane są wypaczone. Im bardziej wypaczone dane, tym większy rozmiar próbki jest potrzebny, aby uzyskać określony poziom dokładności przy użyciu CLT. Dlatego warto przyjrzeć się aproksymacji z rozkładem skośnym, takim jak Poissona. W zależności od danych można by uzyskać taki rozkład szybciej niż normalnie.

W najgorszym przypadku prawdopodobnie możesz użyć granic Czebyszewa.

Jim
2020-01-28 18:34:37 UTC
view on stackexchange narkive permalink

Z definicji normalna dystrybucja ma wsparcie $ (- \ infty, \ infty) $ .

Warto przyjrzeć się normalnej skróconej dystrybucji.Może mieć ograniczone wsparcie $ [a, b] $ .Cytując z jego wiki:

[...] obcięty rozkład normalny to rozkład prawdopodobieństwa wyprowadzony z rozkładu normalnego zmiennej losowej przez ograniczenie zmiennej losowej z dołu lub z góry (lub z obu).

Sextus Empiricus
2020-01-29 15:56:23 UTC
view on stackexchange narkive permalink

Wiele sytuacji nie ma dokładnie rozkładu normalnego. Prawdopodobnie większość praktycznych sytuacji może nie mieć rozkładu normalnego (kiedy modelujemy długość lub wagę człowieka za pomocą rozkładu normalnego, czy oznacza to, że bierzemy pod uwagę wartości ujemne?).

Rozkład normalny to rozkład wielu liczb. Gdy masz sumę wielu efektów / zmiennych, to rozkład będzie następował w przybliżeniu rozkład normalny. Pierwsze zastosowanie rozkładu normalnego (lub czegoś podobnego) sięga deMoivre'a, który użył go jako modelu do przybliżenia rozkładu dwumianowego (który nie ma nieskończonego wsparcia), który można uznać jako suma wielu zmiennych o rozkładzie Bernouilli.

Pytanie do Ciebie brzmi, czy Twoja szczególna sytuacja pozwala na użycie przybliżenia z rozkładem normalnym. Wspomniałeś w komentarzach o średniej / sumie 400 tys. Próbek, co brzmi bardzo podobnie do (w przybliżeniu) normalnej zmiennej o rozkładzie (chociaż, w zależności od celów, nadal możesz chcieć zbadać więcej niż tylko średnią z próbki i zebrać więcej informacji z dystrybucji swoich próbek, które prawdopodobnie nie są rozmieszczone normalnie, ponieważ mówimy o nielicznych, indywidualnych, liczbach).

Poniżej znajduje się obraz histogramu (i normalnego przybliżenia) $ X / 400000 $ z $ X \ sim Binom (n = 400000, p = 0,04) $ . Ta zmienna mieści się w zakresie od 0 do 1.

example

Itamar
2020-02-04 14:19:53 UTC
view on stackexchange narkive permalink

Ściśle mówiąc, zmienna zdefiniowana w skończonym przedziale nie może mieć rozkładu normalnego.Jednak, jak wspomniano wcześniej, może to być mniej więcej tak.

Ponadto w niektórych przypadkach można ją przekształcić w zmienną o rozkładzie normalnym.Na przykład współczynnik korelacji Pearsona między dwiema zmiennymi niezależnymi, który jest ograniczony do skończonego przedziału ( $ - 1 \ le r \ le1 $ ), można przekształcić ww przybliżeniu zmienna o rozkładzie normalnym $ z $ przy użyciu transformacji Fishera: $$ z = {1 \ over2} \ ln {1 + r \ over1-r} $$



To pytanie i odpowiedź zostało automatycznie przetłumaczone z języka angielskiego.Oryginalna treść jest dostępna na stackexchange, za co dziękujemy za licencję cc by-sa 4.0, w ramach której jest rozpowszechniana.
Loading...