Obliczam stawki, które mogą przyjmować dowolną wartość z zakresu od 0 do 1. Czy można to rozkładać normalnie, mimo że domena nie jest liczbami rzeczywistymi?
Dziękuję bardzo za odpowiedzi, tutaj przedstawiam średnie z danych, które są dopasowane do rozkładu normalnego. Stworzyłem około 1000 sposobów danych za pomocą ładowania początkowego.
Jeśli chodzi o surowe dane, są one rzeczywiście mocno wypaczone z dużą dodatnią wartością skośności. Na podstawie twoich odpowiedzi nie można założyć 100% normalności testu t. Zamiast testów t próbuję obliczyć przedziały ufności. Mam jeden przedział ufności dla prognozy z użyciem ładowania początkowego, chociaż nie jestem w 100% pewien, czy to jest właściwy sposób. Porównuję 4 modele predykcyjne, aby zdecydować, co daje najlepsze wyniki. Indywidualne przewidywane stawki są grupowane według wieku polisy i przyjmowane jako średnia, więc prognozy są na przykład: dla wieku = 4 stopa = 4,2%. Chcę użyć innej metody dla CI, a mianowicie nierówności Czebyszewa. Ale w tym celu muszę dopasować dystrybucję do danych. Próbowałem już weibull, beta, gamma, ale żaden z nich nie działa.
EDIT: Stworzony przeze mnie model przewiduje indywidualne stawki i biorę średnią z tych stawek, aby uzyskać średnią stawkę dla grupy. Średnia ta musi zostać prawidłowo oszacowana, a także przypisać jej CI. Doszedłem do wniosku, że jeśli wykonam test t na każdej grupie między przewidywaniami modelu a rzeczywistymi wartościami, które należy przewidzieć (testowy zbiór danych) i otrzymam nieistotne wartości p, to model jest dobry. Potrzebowałem tych informacji dotyczących możliwej normalności wartości z powodu testu t.
Bardzo dziękuję za wszystkie informacje, które mi przekazałeś! Jesteś świetny!