Pytanie:
Jaka jest matematycznie rygorystyczna definicja obszernych danych?
daOnlyBG
2016-02-12 04:57:53 UTC
view on stackexchange narkive permalink

W miejscu pracy niektóre urządzenia pomiarowe podlegają różnej dokładności numerycznej; w niektórych przypadkach dokładność może być dość słaba (tj. tylko do jednej lub dwóch znaczących wartości). Dlatego zamiast takich zestawów danych: $$ \ {0,012, 0,033, 0,042, 0,982, 1,028, 1,037, 1,950 \}, $$, w których każda z wartości jest unikalna, otrzymujemy zestaw danych, który wygląda następująco : $$ \ {0,0, 0,0, 0,0, 1,0, 1,0, 1,0, 2,0 \}. $$ Na wykresie pojedynczego ruchomego zakresu, ten drugi zestaw wydaje się bardziej „gruby”, a podstawowym problemem jest oszacowanie rzeczywistej zmienności w dane stają się trudniejsze, gdy przyrosty pomiarów są zbyt duże.

Moje pytanie jest następujące: Jeśli chciałem, aby komputer wykrywał obszerne dane, muszę podać logiczną definicję tego zjawiska. Widziałem definicje, które mówią „3 lub mniej różnych wartości” lub „4 lub mniej różne wartości”, ale nie mam pojęcia, jak te definicje zostały uzyskane i jaka jest podstawa / uzasadnienie dla takich standardów.

Czy ktoś byłby w stanie pomóc mi skierować mnie w stronę rygorystycznej definicji i uzasadnienia?

Na początek, co zamierzasz zrobić inaczej w zależności od tego, czy dane są „grube”, czy nie?
Nazwałbym te dane rzadkimi, a nie masywnymi.
Rzadkie @xeon: zwykle oznacza „dużo zer”.Chociaż 3/7 wartości to 0, nie sądzę, że jest to aspekt, do którego się odnoszą.
@CliffAB Stopień rzadkości zwykle można kontrolować, np.Regresja logistyczna z normą l1.W tym przykładzie wygląda na to, że wartości bliskie 0 są ograniczane do dokładnego 0.
@xeon: z regresją logistyczną, możesz zwiększyć rzadkość ** szacowanych efektów ** za pomocą Lasso, jak wspomniałeś.Ale OP pyta o zaokrąglenie ** danych **, co * może * oznaczać, że wartości są rzadkie, jeśli wiele z nich mieści się na przykład w przedziale [-0,5, 0,5), ale z pewnością niekoniecznie.Ponownie, nie sądzę, że pytają „co mam zrobić, jeśli wiele moich danych jest równych 0?”, Ale raczej „co, jeśli mam dane z bin”?
Cztery odpowiedzi:
Matt Krause
2016-02-12 06:30:21 UTC
view on stackexchange narkive permalink

Takie dane są często nazywane kwantowanymi , szczególnie gdy dokładność liczb jest ograniczona przez urządzenie pomiarowe. Na przykład skala może wyświetlać tylko liczby całkowite w gramach lub funtach. Jest to szczególnie częste, gdy sygnał analogowy (z mikrofonu, tensometru itp.) Jest digitalizowany. Wynikowy błąd (np. Różnica między 0,012 a 0 dla pierwszego punktu danych) nazywany jest błędem kwantyzacji. Możesz również nazwać to zaokrągleniem lub dyskretyzacją , chociaż to słabo sugeruje, że zostało to zrobione podczas przetwarzania końcowego.

Obcinanie również działa tutaj, ale należy rozróżnić między obcinaniem zakresu obserwacji (np. zamianą czegokolwiek powyżej 10 na 10 lub poniżej 0 do 0) a obcinaniem wartości poszczególnych obserwacji.


Nie znam sposobu na solidne wykrywanie kwantyzacji w każdej sytuacji. W rzeczywistości prawie wszystkie dane są do pewnego stopnia kwantowane, a stopień quanityzacji jest często znany z wyprzedzeniem ze specyfikacji urządzenia pomiarowego. Jest jednak kilka prostych heurystyk, które możesz wypróbować:
  • Ile masz unikalnych wartości? Przetworniki cyfrowo-analogowe używają stałej liczby bitów (zwykle 8, 12, 16 lub 24), co daje 2 ^ 8, 2 ^ {12}, 2 ^ {16} $ lub 2 ^ {24} $ unikalne wartości, a te wartości są często równo rozmieszczone między wartością maksymalną i minimalną.

  • Czy między wartościami występuje stała wielkość kroku. Innymi słowy, posortuj je, wyrzuć duplikaty i zobacz, czy sąsiednie wartości zwykle zwiększają się o tę samą wartość.

Mimo to myślę, że lepiej byłoby zapytać, w jaki sposób dane zostały wygenerowane.


Jeśli dane są skwantyzowane „łagodnie”, zwykle nie stanowi to problemu. Na przykład nie martwiłbym się zbytnio, gdyby masy ciała moich ludzi były zapisywane w (całkowitych) funtach lub kilogramach. Jeśli dane są silnie skwantyzowane, możesz traktować je jako dane cenzurowane interwałowo . Jest to szczególnie częste w analizach przeżycia, w których można tylko sprawdzić, czy ktoś żyje lub czy coś działa w ustalonych odstępach czasu (np. Cotygodniowe inspekcje fabryki). Wyszukaj regresję przedziałową , jeśli pasuje to do Twojej sytuacji.

Powinieneś być pewien, że rozumiesz hipotezę zerową leżącą u podstaw wszelkich testów przeprowadzanych na danych z kategoryzacji. Na przykład dane równomiernie rozmieszczone w 10 przedziałach różnią się od danych równomiernie rozłożonych w całym zakresie.

Cliff AB
2016-02-12 05:35:32 UTC
view on stackexchange narkive permalink

Ogólnie mówi się o „danych podzielonych”.

Jeśli myślisz o histogramie, każdy słupek odnosi się do kosza. Jeśli wartość znajduje się między górnym a dolnym końcem danego przedziału, jest umieszczana w tym przedziale. Na przykład, jeśli dane zostały podzielone na kategoryzowane w wyniku prostego zaokrąglania (tj. Prawdziwa wartość 1,01 jest reprezentowana jako 1,0 w zbiorze danych), możesz pomyśleć o wartości obserwowanej 1,0, co oznacza, że ​​prawdziwa wartość znajdowała się w przedziale [0,5, 1,5) .

Zazwyczaj ten aspekt danych jest często ignorowany; często nie ma problemu z użyciem liczby całkowitej badanego (28 lat) zamiast dokładnego wieku (28.153 ...). W przypadkach, gdy efekt binningu może być znaczny (np. Lata w firmie; 1/12 różni się znacznie od 5/12, ale oba zaokrąglenia wynoszą 0), dane można traktować jako cenzurowane interwałowo , aby uwzględniać tę niepewność w dokładnej wartości odpowiedzi.

Piotr Migdal
2016-02-12 15:24:09 UTC
view on stackexchange narkive permalink

W twoim przypadku nazywa się to kwantyzacją, częsty problem z przetwarzaniem sygnału. Zwykle widzisz równomiernie rozmieszczone dane (nawet jeśli nie otrzymujesz wielokrotności).

Ogólnie (czy jest wiele punktów blisko siebie, niekoniecznie z tą samą wartością lub odstępami), spójrz na grupowanie. W przypadku wartości jednowymiarowych posortuj je i weź histogram różnic między najbliższymi wartościami.

Sean
2016-02-20 13:37:31 UTC
view on stackexchange narkive permalink

Aby dodać do innych dobrych odpowiedzi i więcej komentarza na temat źródeł chunkiness - kwantyzacja może wystąpić również z powodów społecznych, np. jeśli spojrzysz na histogram zestawu danych diamentu, zobaczysz wyraźne skoki przy „dobrych” wartościach, 0,3, 0,4, 0,5, 0,7, 1,0, 1,2, 1,5, 2,0 itd. Jest bardzo mało diamentów o wadze 0,98, ale dużo o wadze nieco ponad 1,0, co zostało wyjaśnione jako - nikt nie chce dostać diamentu o masie 0,98 karata ... chcą diamentu o masie 1,0 karata !!

enter image description here

  biblioteka (ggplot2) dane (diamenty) ggplot (diamenty, aes (x = karat)) + geom_histogram (bins = 200) + xlim (0,2,1)  


To pytanie i odpowiedź zostało automatycznie przetłumaczone z języka angielskiego.Oryginalna treść jest dostępna na stackexchange, za co dziękujemy za licencję cc by-sa 3.0, w ramach której jest rozpowszechniana.
Loading...