Jak nazywasz średnią, która nie obejmuje wartości odstających?

dsimcha

2009-02-02 20:24:32 UTC

view on stackexchange narkive permalink

Nazywa się to średnią obciętą. Zasadniczo to, co robisz, to obliczanie średniej ze środkowych 80% danych, pomijając górne i dolne 10%. Oczywiście te liczby mogą się różnić, ale taka jest ogólna idea.

Stosowanie reguły takiej jak „największe 10%” nie ma sensu. A jeśli nie ma wartości odstających? Zasada 10% i tak wyeliminowałaby niektóre dane. Gorszący.

See my answer for a statistically-significant way to decide which data qualify as an "outlier."

Well, there's no rigorous definition of outlier. As for your response, if there are outliers they will affect your estimate of the standard deviation. Furthermore, standard deviation can be a bad measure of dispersion for non-normally distributed data.

Prawdą jest, że nie ma ścisłej definicji, ale eliminowanie na podstawie percentyla jest z pewnością błędne w wielu typowych przypadkach, w tym w przykładzie podanym w pytaniu.

Also, outliers will not affect standard deviation much. Unless there are many of them, in which case they aren't outliers! You might for example have a bi-modal or linearly random distribution, but then throwing out data is wrong, and indeed the notion of "average" might be wrong.

Średnia obcięta również ma tę zaletę, że uwzględnia medianę jako przypadek ograniczający, tj. Gdy obcina się 50% danych po obu stronach.

** Ta odpowiedź jest nieprawidłowa: ** ponieważ odrzucono tylko jedną (małą) wartość, wynik nie został „obcięty”, co z definicji usuwa równe liczby wartości na obu końcach rozkładu danych.

@whuber Nie tak.Literatura z pewnością obejmuje średnie obcięte, w których proporcje są nierówne w każdym ogonie, w tym przypadek zera w jednym ogonie.Przykłady są widoczne w http://onlinelibrary.wiley.com/book/10.1002/9781118165485 Rozsądną konwencją jest stosowanie równych proporcji (a) wszędzie tam, gdzie rozkłady są w przybliżeniu symetryczne (b) w przypadku braku uzasadnienia dla innego postępowania, alenie jest to jedyna możliwa definicja średniej obciętej.Oczywiście analiza i interpretacja muszą uwzględniać wszelkie różnice w proporcjach.

@Nick Dziękuję za wyjaśnienie.Poszedłbym jednak dalej i zasugerowałbym, że jeśli ten jeden „wynik odstający” nie został wykluczony ze względu na względy, które (a) były niezależne od obserwowanego rozkładu danych oraz (b) * a priori * sugerowały 20% obcięcie dolnego zakresu, wtedy scharakteryzowanie procesu w pytaniu jako procedury „przycinania” byłoby mylące.Wygląda na to, że wykrywanie i odrzucanie wartości odstających jest czyste i proste.Chociaż * wynik * może wyglądać tak samo, w przypadku * procedur statystycznych * oba procesy przycinania i usuwania wartości odstających są bardzo różne.

@whuber Zgadzam się;Osobiście nie użyłbym _trimming_ do opisania, co w efekcie jest podejściem do usuwania wartości odstających w oparciu o inne kryterium, w tym domysły trzewne.Ale rozróżnienie jest w umyśle patrzącego: istnieje różnica między „w przypadku takich danych, przycięcie 5% w każdym ogonie wydaje się dobrym pomysłem” a „Spojrzałem na dane i górne 5% jest prawdopodobnie najlepszeignorowane ”itp. Wzory nie znają postaw analityka, ale te drugie są uzasadnieniem badacza dla tego, co się robi.

Lamówka tutaj była jednostronna.Jeśli chcesz przyciąć zarówno od góry, jak i od dołu, usuniesz 92, odcinając również 40% rozkładu.

Jason Cohen

2009-02-02 20:44:31 UTC

view on stackexchange narkive permalink

Podejściem statystycznie sensownym jest użycie wartości odcięcia odchylenia standardowego.

Na przykład usuń wszelkie wyniki +/- 3 odchylenia standardowe.

Stosowanie reguły „największe 10%” nie ma sensu. A jeśli nie ma wartości odstających? Zasada 10% i tak wyeliminowałaby niektóre dane. Niedopuszczalne.

Chciałem powiedzieć, że to podejście nie działa (przypadek patologiczny = 1000 liczb między -1 a +1, a następnie pojedyncza wartość odstająca o wartości +10000), ponieważ wartość odstająca może wpłynąć na średnią tak, że żaden z wyników nie mieści się w granicach 3 stddev średniej, ale wygląda na to, że matematycznie * działa *.

It's not at all hard to prove that there has to be at least one data point within one standard deviation (inclusive) of the mean. Any outlier big enough to pull the mean way out is going to enlarge the standard deviation a lot.

http://en.wikipedia.org/wiki/Chebychev%27s_inequality This applies regardless of the distribution.

ooh! dzięki dsimcha! Czebyszew jest jednym z moich bohaterów matematyki (głównie dla przybliżeń funkcji).

Problem polega na tym, że „wartość odstająca” nie jest wnioskiem post-hoc dotyczącym konkretnego zrealizowanego zestawu danych. Trudno jest wiedzieć, co ludzie rozumieją przez wartość odstającą, nie wiedząc, jaki jest cel proponowanej przez nich średniej statystyki.

Zatem twoje kategoryczne stwierdzenie „niedopuszczalne” jest bezsensowne i niezbyt pomocne. Średnia obcięta ma kilka użytecznych właściwości, a niektóre mniej przydatne, jak każda statystyka.

@Gregg: Zgadzam się z tobą. Twoje stwierdzenie jest dokładniejsze niż moje. Jednak nadal uważam, że generalnie bardziej przydatne jest poleganie na rozproszeniu niż percentylu.

Zauważ, że w przeciwieństwie do komentarzy w innych częściach tego wątku, taka procedura nie jest związana ze znaczeniem statystycznym.

Mark Lavin

2009-02-02 21:11:56 UTC

view on stackexchange narkive permalink

Innym standardowym testem do identyfikacji wartości odstających jest użycie LQ $ - $ (1,5 $ \ razy $ IQR) i UQ $ + $ (1,5 $ \ razy $ IQR). Jest to nieco łatwiejsze niż obliczenie odchylenia standardowego i bardziej ogólne, ponieważ nie przyjmuje żadnych założeń, że dane bazowe pochodzą z rozkładu normalnego.

Ale jeśli nie przyjmuje żadnych założeń, na czym się opiera?Musi przynajmniej coś w rodzaju definicji wartości odstającej?

formuła jest oparta na kwartylu, więc zależy od mediany, a nie od średniej

Mnożnik 1,5 rodzi pytanie, dlaczego 1,5?I najwyraźniej opiera się w pewnym stopniu na rozkładzie normalnym. Jeśli zastosujesz to, bezpośrednio w dystrybucji guassian, otrzymasz: 0,675σ + 1,5 * (0,675 - [-0,675]) σ = 0,675σ + 1,5 * 1,35σ = 2,7σ co jest dopuszczalnym zakresem do oznaczenia jako „wartości odstające”. odniesienie: https://medium.com/mytake/why-1-5-in-iqr-method-of-outlier-detection-5d07fdc82097

nickf

2009-02-02 20:29:15 UTC

view on stackexchange narkive permalink

„Średnia”, o której mówisz, jest tak naprawdę nazywana „średnią”.

Nie odpowiada to dokładnie na Twoje pytanie, ale inną statystyką, na którą nie mają wpływu wartości odstające, jest mediana, czyli , środkowa liczba.

  {90,89,92,91,5} średnia: 73,4 {90,89,92,91,5} mediana: 90

Może ci się to przydać, nie wiem.

You are all missing the point. It has nothing to do with the mean, median, mode, stdev etc.Consider this: you have {1,1,2,3,2,400} avg = 68.17but what we want is:{1,1,2,3,2,400} avg = 1.8 //minus the [400] valueWhat do you call that?

@Tawani - nie wszyscy mijają się z celem. To, co mówisz, musi być zdefiniowane przy użyciu ogólnych terminów. Nie możesz iść z jednym przykładem. Bez ogólnych definicji, jeśli 400 to 30, czy nadal jest to wartość odstająca? A jeśli to 14? A 9? Gdzie się zatrzymujesz? Aby to zrobić, potrzebujesz stddev, zakresów, kwartyli.

Mr Fooz

2009-02-02 20:24:58 UTC

view on stackexchange narkive permalink

W przypadku bardzo konkretnej nazwy musisz określić mechanizm odrzucania wartości odstających. Jeden ogólny termin to „solidny”.

dsimcha wspomina o jednym podejściu: przycinaniu. Innym jest obcinanie: wszystkie wartości spoza znanego dobrego zakresu są odrzucane.

mvrak

2009-02-02 20:31:28 UTC

view on stackexchange narkive permalink

Nie ma oficjalnej nazwy z powodu różnych mechanizmów, takich jak test Q, używanych do usuwania wartości odstających.

Usuwanie wartości odstających nazywa się przycinaniem.

Żaden program, którego kiedykolwiek używałem, nie miał wartości średniej () ze zintegrowanym trymowaniem ()

`mean ()` w R ma argument przycinający http://stat.ethz.ch/R-manual/R-devel/library/base/html/mean.html

Podczas przycinania nie usuwa się wartości odstających;po prostu nie uwzględniasz ich w obliczeniach.„Usuń” może sugerować, że punktów nie ma już w zbiorze danych.I nie usuwasz ich (ani nie ignorujesz), ponieważ są wartościami odstającymi;kryterium jest (zwykle) tylko to, że znajdują się one w jakimś skrajnym ułamku danych.Wartość nieuwzględniona w średniej obciętej często jest tylko nieznacznie większa (lub mniejsza) niż najwyższa (najniższa) uwzględniona wartość.

Jason S

2009-02-02 20:25:44 UTC

view on stackexchange narkive permalink

Nie wiem, czy ma nazwę, ale możesz łatwo wymyślić kilka algorytmów odrzucających wartości odstające:

Znajdź wszystkie liczby od 10 do 90 percentyle (zrób to, sortując, a następnie odrzucając pierwsze N / 10 $ i ostatnie N / 10 $) i weź średnią wartość pozostałych wartości.
Sortuj wartości , odrzucaj wysokie i niskie wartości, o ile w ten sposób średnia / odchylenie standardowe zmieni się o więcej niż $ X \% $.
Sortuj wartości, odrzucaj wysokie i niskie wartości jako tak długo, jak robiąc to, wartości, o których mowa, są większe niż $ K $ odchylenia standardowego od średniej.

Nick Fortescue

2009-02-13 15:22:20 UTC

view on stackexchange narkive permalink

Najczęstszym sposobem uzyskania średniej solidnej (zwykle słowo oznaczające odporność na złe dane) jest użycie mediany . To jest tylko środkowa wartość na posortowanej liście (w połowie między dwiema środkowymi wartościami), więc dla naszego przykładu będzie to 90,5 = w połowie między 90 a 91.

Jeśli naprawdę chcesz uzyskać w solidne statystyki (takie jak rzetelne szacunki odchylenia standardowego itp.) Poleciłbym utratę kodu w grupie AGORAS, ale może to być zbyt zaawansowane dla twoich celów.

Sergio R F Oliveira

2014-12-03 18:18:40 UTC

view on stackexchange narkive permalink

... {90,89,92,91 (, 5)} avg = 90,5

Jak opisujesz tę średnią w statystykach? ...

Nie ma specjalnego oznaczenia dla tej metody. Nazwij to dowolną nazwą, pod warunkiem, że zawsze mówisz publiczności, w jaki sposób osiągnąłeś swój wynik, i masz pod ręką wartości odstające, aby im pokazać, jeśli o to poproszą (i uwierz mi: poproszą).

robin.datadrivers

2014-12-03 19:58:47 UTC

view on stackexchange narkive permalink

Jeśli wszystko, co masz, to jedna zmienna (jak sugerujesz), myślę, że niektórzy z powyższych respondentów są zbyt krytyczni wobec twojego podejścia. Z pewnością inne metody, które uwzględniają takie rzeczy jak dźwignia, są bardziej uzasadnione statystycznie; jednak oznacza to, że wykonujesz jakieś modelowanie. Jeśli masz na przykład wyniki z testu lub wiek seniorów (prawdopodobne przypadki na twoim przykładzie), myślę, że praktyczne i rozsądne jest podejrzliwość w stosunku do wyników odstających. Możesz spojrzeć na ogólną średnią i średnią obciętą i zobaczyć, jak bardzo się ona zmienia, ale będzie to funkcja wielkości twojej próby i odchylenia od średniej dla twoich wartości odstających.

W przypadku takich rażących wartości odstających z pewnością warto przyjrzeć się procesowi generowania danych, aby dowiedzieć się, dlaczego tak jest. Czy jest to wpis danych czy błąd administracyjny? Jeśli tak i jest to prawdopodobnie niezwiązane z rzeczywistą wartością rzeczywistą (czyli niezauważoną), to wydaje mi się, że jest idealnie w porządku. Jeśli jest to prawdziwa wartość, o ile możesz stwierdzić, możesz nie być w stanie usunąć, chyba że jesteś wyraźnie w swojej analizie na ten temat.

Samir Rachid Zaim

2020-01-12 23:40:44 UTC

view on stackexchange narkive permalink

Uwielbiam tę dyskusję - średnia obcięta to potężne narzędzie do uzyskiwania centralnego oszacowania tendencji skupionego wokół środka danych.

Jedną rzeczą, którą chciałbym dodać, jest to, że należy dokonać wyboru, której „metryki” użyć w przypadku małych i dużych próbek. W niektórych przypadkach mówimy o

oznacza w kontekście dużych próbek ze względu na centralne twierdzenie graniczne,
mediany jako solidne alternatywy dla małych próbek
i przycięte oznacza odporne na wartości odstające.

Oczywiście powyższe jest wielkim uogólnieniem, ale istnieją interesujące artykuły, które mówią o rodzinach i klasach estymatorów w dużych i małych ustawieniach próby oraz ich właściwościach. Pracuję w bioinformatyce i zwykle masz do czynienia z małymi próbkami (3-10 s), zwykle w modelach myszy, a co nie, a ten artykuł daje dobry techniczny przegląd tego, jakie istnieją alternatywy i jakie właściwości mają te estymatory.

Robust estymacja w bardzo małych próbkach

Źródła: Rousseeuw, P. J., & Verboven, S. (2002). Solidne oszacowanie w bardzo małych próbkach. Statystyka obliczeniowa Analiza danych &, 40 (4), 741-758.
Link: https://www.sciencedirect.com/science/article/pii/S0167947302000786

To nie jest oczywiście jeden artykuł, ale jest wiele innych, które omawiają tego typu estymatory. Mam nadzieję że to pomoże.

robert king

2018-03-09 01:09:55 UTC

view on stackexchange narkive permalink

zastrzeżenie - ta metoda jest ad hoc i nie wymaga rygorystycznych badań. Używasz na własne ryzyko :)

To, co okazało się całkiem dobre, to zmniejszenie trafności wkładu punktów do średniej przez square jego liczby odchyleń standardowych od średniej, ale tylko wtedy, gdy punkt jest więcej niż jednym odchyleniem standardowym od średniej.

Kroki:

Jak zwykle obliczyć średnią i odchylenie standardowe.
Oblicz ponownie średnią, ale tym razem dla każdej wartości, jeśli jest to . Więcej niż jedno odchylenie standardowe od średniej zmniejsza jej udział w średniej. Aby zmniejszyć jego udział, należy podzielić jego wartość przez kwadrat liczby odchyleń przed dodaniem do całości. Ponieważ wnosi mniejszy wkład, musimy zmniejszyć N, więc odejmij 1-1 / (kwadrat odchylenia wartości) od N.
Oblicz ponownie odchylenie standardowe, ale użyj tej nowej średniej zamiast starej.

przykład: stddev = 0,5 średnia = 10 wartość = 11

więc odchylenia = odległość od średniej / odchylenie standardowe = | 10-11 | /0,5 = 2

więc wartość zmienia się z 11 na 11 / (2) ^ 2 = 11/4

także N się zmienia, zostaje zredukowane do N-3/4.

kod:

  def mean (data):
    "" "Zwraca przykładową średnią arytmetyczną danych." ""
    n = len (dane)
    if n < 1:
        podnieść ValueError ('średnia wymaga co najmniej jednego punktu danych')
    return 1.0 * sum (data) / n # w Pythonie 2 użyj sum (data) / float (n)

def _ss (dane):
    "" "Zwracana suma odchyleń kwadratowych danych sekwencji." ""
    c = średnia (dane)
    ss = suma ((x-c) ** 2 dla x w danych)
    powrót ss, c

def stddev (dane, ddof = 0):
    "" "Oblicza odchylenie standardowe populacji
    domyślnie; określ ddof = 1, aby obliczyć próbkę
    odchylenie standardowe."""
    n = len (dane)
    if n < 2:
        podnieść ValueError ('wariancja wymaga co najmniej dwóch punktów danych')
    ss, c = _ss (dane)
    pvar = ss / (n-ddof)
    powrót pvar ** 0,5, c

def rob_adjusted_mean (wartości, s, m):
    n = 0,0
    tot = 0,0
    dla v w wartościach:
        diff = abs (v - m)
odchylenia = różn./s
        jeśli odchylenia > 1:
            # jest wartością odstającą, więc zmniejsz jej trafność / wagę o kwadrat liczby odchyleń
            n + = 1,0 / odchylenie ** 2
            tot + = v / odchylenia ** 2
        jeszcze:
            n + = 1
            tot + = v
    powrót tot / n

def rob_adjusted_ss (wartości, s, m):
    "" "Zwracana suma odchyleń kwadratowych danych sekwencji." ""
    c = rob_adjusted_mean (wartości, s, m)
    ss = suma ((x-c) ** 2 dla x w wartościach)
    powrót ss, c

def rob_adjusted_stddev (dane, s, m, ddof = 0):
    "" "Oblicza odchylenie standardowe populacji
    domyślnie; określ ddof = 1, aby obliczyć próbkę
    odchylenie standardowe."""
    n = len (dane)
    if n < 2:
        podnieść ValueError ('wariancja wymaga co najmniej dwóch punktów danych')
    ss, c = rob_adjusted_ss (dane, s, m)
    pvar = ss / (n-ddof)
    powrót pvar ** 0,5, c

s, m = stddev (wartości, ddof = 1)
drukuj s, m
s, m = rob_adjusted_stddev (wartości, s, m, ddof = 1)
drukuj s, m

dane wyjściowe przed i po regulacji moich 50 pomiarów:

  0.0409789841609 139.04222
0,0425867309757 139,030745443

Dlaczego to może być lepsze niż tradycyjne metody?

Dzięki, nie jestem zaznajomiony z tym podejściem.Dzielenie przez kwadrat odchylenia może dać nietypowe wyniki, gdy odchylenia są <| 1 |.Czy istnieją podstawy teoretyczne dla tej metody?

Wspomniałem, aby robić to tylko dla wartości, w których odchylenie standardowe jest większe niż 1, co w związku z nierównością Czebyszewa nieczęsto powoduje drastyczny wpływ na wartości.

Nie jestem pewien, czy ta technika była używana wcześniej, zdziwiłbym się, gdyby nie była używana wcześniej, ponieważ wydaje się dość intuicyjna.Używam go do powiadamiania pracowników fabryki o naruszeniach zasad Nelson dotyczących produktów na liniach produkcyjnych.Wydaje się, że zmniejsza liczbę zgłoszonych naruszeń, ale wydaje się, że nadal znajduje krytyczne naruszenia.Reguły Nelsona dotyczą wielu wartości w rzędzie powyżej lub poniżej 1 stddev lub mniejszej liczby punktów równej 2stddev lub 3stddev. @MichaelChernick Nie jestem zaznajomiony z tradycyjnymi metodami, Winsorized wygląda interesująco, może dawać różne wyniki w przypadku czarnych łabędzi.

Nie miałem na myśli dokładnie * liczby * SD.Wyobraź sobie przypadek, w którym SD = 0,3, a odchylenie to 0,54.Wtedy odchylenie jest> 1 SD, ale dzieląc przez kwadrat SD, dzielisz 0,54 / .3 ^ 2 = .54 / .09 = 6. Tj. Odchylenie jest teraz większe b / c korekty,zamiast być mniejszym.

Chociaż ta procedura jest * ad hoc *, w duchu jest bardzo podobna do [M-estymatora] (https://en.wikipedia.org/wiki/M-estimator).Jednym z powodów komentarzy, które otrzymujesz, jest to, że właściwości takich procedur można analizować i badać oraz, że ogólnie brak takiego badania pokazuje, że procedura nie jest dobrze zrozumiana i prawdopodobnie jest gorsza od innych.Zatem na każdym, kto zaproponuje nową procedurę, należy scharakteryzować jej właściwości w stopniu wystarczającym, aby umożliwić jej inteligentne i prawidłowe zastosowanie.W przypadku braku takiej charakterystyki czytelnicy powinni niechętnie ją przyjąć.

@gung Myślę, że miałem literówkę - przez odchylenie miałem na myśli liczbę odchyleń standardowych.więc jeśli SD wynosi .3, wartość musi być większa niż .3 od średniej, która ma być wykonana.jeśli odległość wartości od średniej wynosi 0,54, to jej odchylenia wynoszą 0,54 / 0,3 = 1,8, więc podzielilibyśmy przez 1,8 ^ 2 = 3,24, a więc wartość będzie 1 / 3,24 tak samo ważna jak poprzednio.

@whuber masz rację, ta procedura jest ad hoc.masz rację Czytelnicy powinni niechętnie go przyjąć.Cieszę się z komentarzy :) Fajnie by było, gdyby ktoś znalazł problem z moją metodą :) - do odpowiedzi dodam zastrzeżenie

Podziwiam Twoje nastawienie (serio!).Zwróć jednak uwagę, że ciężar dowodu spoczywa na tobie.Twoim zadaniem jest wykazanie poprawności lub przydatności Twojej rekomendacji (poprzez cytowanie lub uzasadniony argument).Nie ma obowiązku przeprowadzania takiej analizy.Wskazałem na teorię, która daje nadzieję, że ta procedura ma dobre właściwości, ale jest to ogólne - ale niezwykle skuteczne - metaprawo statystyki, że procedury * ad hoc * są niedopuszczalne, dopóki nie zostanie udowodnione inaczej (co po prostu oznacza, że istniejeinna procedura, która działa lepiej).

Dzięki za wyjaśnienie, to ma dużo więcej sensu.

NuclAcc

2018-03-09 02:07:58 UTC

view on stackexchange narkive permalink

Istnieją lepsze metody niż metody oparte na IQR lub SD. Ze względu na występowanie wartości odstających rozkład prawdopodobnie ma już problemy z normalnością (chyba że ouliers są równomiernie rozmieszczone na obu końcach rozkładu). To znacznie zawyża SD, przez co SD zużywa mniej niż jest to pożądane, jednak metoda SD ma pewne pożądane aspekty w porównaniu z metodą IQR, mianowicie 1,5-krotność IQR jest względnie subiektywną wartością odcięcia. Chociaż subiektywność w tych sprawach jest nieunikniona, lepiej jest ją zmniejszyć.

Z drugiej strony identyfikator Hampela wykorzystuje solidne metody szacowania wartości odstających. Zasadniczo jest to to samo, co metoda SD, ale należy zamienić średnie na mediany, a SD na Median Absolute Deviations (MAD). MAD to tylko mediana odległości od mediów. To MAD jest mnożone przez stałą skalowania 0,675. Wzór wychodzi na (X - Mediana) / (. 675 * MAD). Wynikowa statystyka jest traktowana identycznie jak Z-score. To omija kwestię prawdopodobnej nienormalności, która może występować w przypadku wartości odstających.

A jak to nazwać. Obcięte środki są zwykle zarezerwowane dla metody przycinania dolnej i górnej dziesięciu procent, o której wspomniał @dsimcha. Jeśli został całkowicie wyczyszczony, możesz nazywać go środkiem wyczyszczonym lub po prostu środkiem. Po prostu pamiętaj, aby jasno określić, co z tym zrobiłeś w swoim artykule.

Hampel, F. R., Ronchetti, E. M., Rousseeuw, P. J., & Stahel, W. A. (1986). Solidne statystyki. John Wiley & Sons, Nowy Jork.

Samster

2014-04-29 07:32:50 UTC

view on stackexchange narkive permalink

Może to być mediana. Nie zawsze, ale czasami. Nie mam pojęcia, jak to się nazywa przy innych okazjach. Mam nadzieję, że to pomogło. (Przynajmniej trochę.)

Mike

2016-03-26 08:13:52 UTC

view on stackexchange narkive permalink

W moim podręczniku statystyki jest to określane jako próbna średnia w przeciwieństwie do średniej populacji. Przykład sugeruje, że zastosowano ograniczenie do pełnego zbioru danych, chociaż nie dokonano żadnej modyfikacji (usunięcia) zbioru danych.

0. Witamy na stronie.1. Która książka?Proszę podać referencje.2. „Średnia próbna” zazwyczaj nie odnosi się do średniej uzyskanej po usunięciu wartości odstających.

To nie jest poprawne.