Pytanie:
Jakie jest prawdopodobieństwo, że 4 osoby w grupie 18 osób mogą mieć ten sam miesiąc urodzenia?
forecaster
2020-06-15 04:42:13 UTC
view on stackexchange narkive permalink

To jest not przypisanie do klasy.

Tak się złożyło, że 4 członków zespołu z mojej 18-osobowej grupy miało ten sam miesiąc urodzenia. Powiedzmy, czerwiec. . Jakie są szanse, że tak się stanie. Próbuję przedstawić to jako problem z prawdopodobieństwem na spotkaniu naszego zespołu.

Oto moja próba:

  • Wszystkie możliwe wyniki 12 USD ^ {18} $
  • 4 osoby wybrane spośród 18:18 $ C_4 $
  • Zwykły miesiąc można wybrać na 1 sposób: 12 C_1 $

Zatem prawdopodobieństwo, że 4 osoby na 18 mają ten sam miesiąc urodzenia wynosi $ \ frac {18C_4 * 12C_1} {12 ^ {18}} $ = bardzo bardzo mała liczba.

Pytania:

  1. Czy to właściwy sposób rozwiązania tego problemu?
  2. Jakie jest prawdopodobieństwo, że dokładnie 4 osoby dzielą miesiąc urodzenia?
  3. Jakie jest prawdopodobieństwo, że co najmniej 4 osoby (4 lub więcej osób) dzielą miesiąc urodzenia?

Uwaga: wiem, że wszystkie miesiące nie są równe, ale dla uproszczenia załóżmy, że wszystkie miesiące mają równe szanse.

Dokładnie 4 lub co najmniej 4 z 18?
Czy uwzględniasz lub wykluczasz, że istnieją dwie (, trzy lub cztery) podgrupy po cztery osoby, każdy członek danej podgrupy ma ten sam miesiąc urodzenia i żadna z dwóch podgrup nie ma tego samego miesiąca urodzenia.
Siedem odpowiedzi:
Thomas Lumley
2020-06-15 06:34:53 UTC
view on stackexchange narkive permalink

Możesz zobaczyć, że Twój argument jest niepoprawny, stosując go do standardowego problemu dotyczącego urodzin, w przypadku którego wiemy, że prawdopodobieństwo wynosi 50% przy 23 osobach. Twój argument dałby $ \ frac {{23 \ choose 2} {365 \ choose 1}} {365 ^ {23}} $ , co jest bardzo małe. Zwykłym argumentem jest stwierdzenie, że jeśli chcemy uniknąć zbiegów okoliczności, mamy opcje 365- (k-1) $ dla $ k $ urodzin osoby, więc prawdopodobieństwo braku zbiegów okoliczności w $ K $ ludziach wynosi $ \ prod_ {k = 1} ^ K \ frac {365-k + 1} {365} $

Niestety nie ma tak prostego argumentu za więcej niż dwoma przypadkowymi urodzinami. Jest tylko jeden sposób (aż do symetrii) dla $ k $ ludzi, aby nie mieć dwukierunkowego zbiegu okoliczności, ale jest wiele, wiele sposobów, aby nie mieć czterokierunkowego zbieg okoliczności, więc obliczenia w miarę dodawania osób nie są proste. Dlatego R zapewnia pbirthday () i dlatego jest to nadal tylko przybliżenie. Z pewnością mam nadzieję, że to nie było zadanie klasowe.

Powodem, dla którego twój argument jest niepoprawny, jest to, że zaniża liczbę sposobów, w jakie możesz uzyskać 4 pasujące miesiące. Na przykład nie chodzi tylko o to, że możesz wybrać dowolny miesiąc z 12 jako pasujący. Możesz również dowolnie zmienić etykietę pozostałych 11 miesięcy (co daje współczynnik 11!). A mianownik 12 $ ^ {18} $ oznacza, że ​​kolejność ludzi ma znaczenie, więc jest ich więcej niż 18 $ \ wybierz 4 $ zamówień, które mają 4 dopasowania.

Henry
2020-06-16 06:00:54 UTC
view on stackexchange narkive permalink

Istnieją 43 $ partycji 18 $ w 12 USD nieujemnych części, z których największa wynosi 4 $ , a inne 298 $ span> partycje, których największa część jest większa niż 4 $ i 25 $ partycje, gdzie największa część to mniej niż 4 USD .

Na przykład jedna partycja to $$ 18 = 4 + 3 + 3 + 2 + 2 + 1 + 1 + 1 + 1 + 0 + 0 + 0 \\ = 1 \ times 4 + 2 \ times 3 + 2 \ times2 + 4 \ times 1 + 3 \ times 0 $$

Prawdopodobieństwo wystąpienia tego konkretnego wzorca partycji w miesiącach urodzin Twojego zespołu wynosi $ \ dfrac {\ dfrac {18!} {4! ^ 1 3! ^ 2 2! ^ 2 1! ^ 4 0! ^ 3} \ times \ dfrac {12!} {1! 2! 2! 4! 3!}} {12 ^ {18}} \ około 0,05786545 $

Dodaj prawdopodobieństwa, gdzie największa część partycji to 4 USD , a otrzymasz około 0,4165314 $ span >; dodaj je tam, gdzie największa część partycji wynosi 4 $ lub więcej, a otrzymasz około 0,5771871 $ . Oto odpowiedzi na Twoje pytanie.

Dokładniej, prawdopodobieństwa dla różnych częstotliwości najczęściej występującego miesiąca są następujące. Najbardziej prawdopodobne okazuje się 4 $ , a mediana (średnia to około 3,76 $ )

  Częstotliwość najczęstszych miesięcy Prawdopodobieństwo
            1 0
            2 0,0138050
            3 0,4090079
            4 0,4165314
            5 0,1297855
            6 0,0262102
            7 0,0040923
            8 0,0005116
            9 0,0000517
10 0,00000423
           11 0,000000280
           12 0,0000000148
           13 0,000000000622
           14 0,0000000000202
           15 0,000000000000490
           16 0,00000000000000834
           17 0,0000000000000000892
           18 0,000000000000000000451
 
Schludny!Czy możesz powiedzieć, skąd pochodzą informacje o liczbie partycji?
@ThomasLumley Użyłem funkcji `parts` z pakietu R` partitions` a następnie policzyłem te, które mnie interesowały
- „Drogi Dyrektorze Szkoły, w zeszłym roku podzieliliśmy naszych 216 uczniów na 12 klas alfabetycznie i niektórzy nauczyciele nie byli zadowoleni. Jaki jest nowy plan?”- „Och, w tym roku podzieliliśmy je według daty urodzenia; czas wygrać zakład 1 na bilion”.
Dave2e
2020-06-15 05:19:29 UTC
view on stackexchange narkive permalink

Prawidłowym sposobem rozwiązania problemu z dwoma przypadkami jest obliczenie prawdopodobieństwa, że ​​dwie osoby nie będą dzielić tego samego miesiąca urodzin.

W tym przykładzie druga osoba ma szansę 11/12, że nie podzieli tego samego miesiąca co pierwsza.
Trzecia osoba ma 10/12 szans, że nie podzieli tego samego miesiąca co 1 &2.
Czwarta osoba ma 9/12 szans, że nie będzie dzieliła tego samego miesiąca co 1, 2 & 3.
Zatem szansa, że ​​nikt nie udostępni tego samego miesiąca, wynosi $ (11 * 10 * 9) / 12 ^ 3 $ , czyli około 57%. Lub 43% szansy na co najmniej 2 udostępnianie w tym samym miesiącu.

Nie mogę udzielić porady, jak rozszerzyć te ręczne obliczenia na problem 3 lub 4 zbiegów okoliczności. Jeśli znasz R, istnieje funkcja pbirthday () , która oblicza to:

  pbirthday (18, class = 12, coincident = 4)
[1] 0,5537405
 

W przypadku 18 osób istnieje 55% szansa, że ​​co najmniej 4 osoby będą dzielić ten sam miesiąc.

Oto dobre źródło do zrozumienia problemu: https://www.math.ucdavis.edu/~tracy/courses/math135A/UsefullCourseMaterial/birthday.pdf

Edytuj Dla kompletności tutaj jest szybka i brudna symulacja w R:

  cztery <-0 #count za dokładnie 4
cztery więcej <- 0 #count za 4 lub więcej

count<-100000
for (i in 1: count) {
   # próbka 12 obiektów, osiemnaście razy
   m<- próbka (1:12, 18, zastąp = PRAWDA)
   
   if (any (table (m) > = 4)) {fourmore <-fourmore +1}
   if (any (table (m) == 4)) {cztery <-cztery +1}
}

drukuj (jeszcze cztery / liczba)
# [1] 0,57768
drukuj (cztery / liczba)
# [1] 0,45192
 
Zgodnie z udokumentowanym odniesieniem (Diaconis & Mosteller 1989), „pbirthday” używa „przybliżenia, które jest ważne dla ustalonych $ k $ [= 4 tutaj] i dużych $ c $ [= 12 tutaj]”.Nie jest jasne, czy liczba 12 jest wystarczająco duża.Co więcej, ta funkcja szacuje prawdopodobieństwo wystąpienia „k $ lub więcej w tej samej kategorii” zamiast dokładnie tys.zł w tej samej kategorii.Z obu tych powodów twoja odpowiedź jest podejrzana.To może być prawie przypadkowe, ale trzeba to sprawdzić, choćby za pomocą szybkiej symulacji.Lepiej byłoby użyć `pmultinom` w pakiecie` pmultinom`.
@Henry, dobra sugestia, ale po zobaczeniu odpowiedzi Phila i przejrzeniu komentarza Whubera, funkcja pbirthday wydaje się tracić swoją dokładność przy wyższym zbiegu okoliczności.Wykonałem symulację podobną do Phila i otrzymałem wynik około 45% dla dokładnie 4 zbiegów okoliczności (i 57% dla co najmniej 4).
@Dave2e - bardzo mądry - chociaż za dokładnie 4 $ moja symulacja jest bliższa 0,42 $, a sugestia Whubera o "pmultinom" wydaje się sugerować 0,4165314 $ za dokładnie 4 $ i 0,5771871 $ za co najmniej 4 $ w najpopularniejszym miesiącu
Sprawdzenie kodu `pbirthday` również pokazuje, że jest on oparty na przybliżeniu.Artykuł Diaconis i Mosteller nie podaje dokładnego wzoru.Jestem pewien, że w literaturze można znaleźć dokładny wzór, ale prawdopodobnie jest on dość brzydki.
@Michael Przeczytaj artykuł Diaconisa i Mostellera: odnoszą się do * dokładnej * formuły Bruce'a Levina.Formuła Levina jest podstawą dla „pmultinom”.To wcale nie jest brzydkie!
@MichaelLugo `1-pmultinom (upper = rep.int (3,12), size = 18, probs = rep.int (1/12, 12), method =" exact ")` daje mi 0,5771871
Zauważyłem, że powiedziałeś: „Zatem szansa, że nikt nie udostępni tego samego miesiąca wynosi (11 ∗ 10 ∗ 9) / 123, czyli około 57%.To jest dla trzech osób.Jednak gdy liczba osób wynosi 12 lub więcej, ta formuła nie działa dobrze, ponieważ przy ponad 12 osobach musi istnieć co najmniej jedna podgrupa z tym samym miesiącem urodzenia.
@NomadMaker, Formuła jest poprawna, postępując zgodnie z tą samą logiką, co w przypadku dwunastej osoby, która staje się formułą, to 11 $! / 12 ^ {11} $ (co równa się 12 $! / 12 ^ {12} $).Teraz, gdy zostanie dodana trzynasta osoba, istnieje prawdopodobieństwo 0/12, że nie będzie tego samego miesiąca, więc wzór wynosi teraz 0 $ * 12! / 12 ^ {13} $ lub 0% prawdopodobieństwa, że nie ma pasujących miesięcy.
Wynik z pakietu R o wartości 0,5537405 jest niepoprawny. Dokładna odpowiedź na 4 lub więcej udostępnień w miesiącu to 555795868793273/962938848411648 ~ 0,577187, a za dokładnie 4 to 19807122209875/47552535724032 ~ 0,416531
Twoja linia `if (any (table (m) == 4)) {cztery <- cztery +1}` liczy przypadki, w których co najmniej jeden miesiąc ma urodziny dokładnie 4 $, nawet jeśli inny ma 5 $ lub więcej, bardziej godne uwagizdarzenie.Jeśli zamiast tego zrobisz coś w stylu `if (max (table (m)) == 4) {cztery <- cztery +1}` to `print (cztery / liczba)` będzie bliższe 0,4165 $
@Henry, tak ważny punkt.Napisałem to, aby potwierdzić funkcję pbirthday, która, jak wspomniano wcześniej, jest w tym przypadku niedokładna.Nie rozważałem przypadku, o którym wspomniałeś, ani tego, czy tylko 1 miesiąc powinien mieć 4 mecze, a pozostałe mniej niż 4.
Sextus Empiricus
2020-06-16 15:28:44 UTC
view on stackexchange narkive permalink

Chociaż Henry dał już sposób na dokładne obliczenie liczby, zliczając wszystkie partycje, może być interesujące poznanie dwóch przybliżonych metod.

Ponadto istnieje alternatywne dokładne obliczenie oparte na warunkowych zmiennych rozproszonych Poissona.

Symulacja obliczeniowa

Nie będzie łatwo obliczyć wszystkich 12 $ ^ {18} $ możliwości (i nie będzie łatwo skalować problemu), ale możesz kazać komputerowi symulować losowo podzbiór możliwych sposobów i uzyskać rozkład z tych symulacji.

  # funkcja do próbkowania 18 urodzeń
# i uzyskaj maksymalną liczbę podobnych miesięcy
monthample <- function () {
  x <- sample (1: 12,18, zamień = TRUE) # sample
  n <- max (tabela (x)) # uzyskaj maksimum
  powrót (n)
}

# próbki milion razy
y <- replicate (10 ^ 6, monthample ())

# uzyskać częstotliwość za pomocą histogramu
h<-hist (y, breaks = seq (-0,5,18,5,1))
 

Aproksymacja za pomocą Poissonacji

Częstotliwość liczby urodzin w poszczególnych miesiącach to w przybliżeniu rozkład Poissona / dwumianowy. Na tej podstawie możemy obliczyć prawdopodobieństwo, że liczba urodzin w danym miesiącu nie przekroczy pewnej wartości, a biorąc potęgę dwunastu, obliczamy prawdopodobieństwo, że dzieje się to przez wszystkie dwanaście miesięcy.

Uwaga: tutaj pomijamy fakt, że liczba urodzin jest skorelowana, więc oczywiście nie jest to dokładne.

  # przybliżenie z rozkładem Poissona
t <- 0:18
z <- ppois (t, 1,5) ^ 12 # P (max < = t)
dz <- diff (z) # P (max = t + 1)
 

Obliczenia z reprezentacją Bruce'a Levina

W komentarzach Whuber wskazał na pakiet pmultinom. Ten pakiet jest oparty na publikacji Bruce Levin 1981 „A Representation for Multinomial Cumulative Distribution Functions” w Ann. Statystyk. Tom 9 . Wynik miesięcy urodzenia (który jest dokładniej rozłożony zgodnie z rozkładem wielomianowym) jest reprezentowany jako niezależne zmienne o rozkładzie Poissona. Ale w przeciwieństwie do wcześniej wspomnianych naiwnych obliczeń, rozkład tych zmiennych o rozkładzie Poissona jest uważany za warunkowy , gdy całkowita suma jest równa $ n = 18 $ .

Więc powyżej obliczyliśmy $$ P (X_1, X_2, \ ldots, X_ {12} \ leq 4) = P (X_1 \ leq 4) \ cdot P (X_1 \ leq 4) \ cdot \ ldots \ cdot P (X_ {12} \ leq 4) $$ , ale powinniśmy obliczyć prawdopodobieństwo warunkowe dla wszystkich zmiennych rozłożonych Poissona równych lub mniejszych niż $$ P (X_1, X_2, \ ldots, X_ {12} \ leq 4 \ vert X_1 + X_2 + \ ldots + X_ {12} = 18) $$ , które wprowadza dodatkowy termin oparty na regule Bayesa.

$$ P (\ forall i: X_i \ leq 4 \ vert \ sum X_i = 18) = P (\ forall i: X_i \ leq 4) \ frac {P ( \ sum X_i = 18 \ vert \ forall i: X_i \ leq 4)} {P (\ sum X_i = 18)} $$

Ten współczynnik korygujący to stosunek prawdopodobieństwa, że ​​suma obciętych zmiennych o rozkładzie Poissona będzie równa 18 $ P (\ sum X_i = 18 \ vert \ forall i: X_i \ leq 4 ) $ , a prawdopodobieństwo, że suma zwykłych zmiennych o rozkładzie Poissona jest równa 18, $ P (\ sum X_i = 18) $ . W przypadku małej liczby miesięcy urodzenia i osób w grupie ten skrócony rozkład można obliczyć ręcznie

  # współczynnik korekty autorstwa Bruce'a Levina
korekta <- function (y) {
  Nptrunc (y) [19] / dpois (18,18)
}

Funkcja Nptrunc < (lim) {

  # obcięty rozkład Poissona
ptrunc <- dpois (0: lim, 1,5) / sum (dpois (0: lim, 1,5))
  
  ## wektor z prawdopodobieństwami
  outvec <- rep (0, lim * 12 + 1)
  outvec [1] <- 1
  
  # konwój 12 razy w każdym miesiącu
  for (i in 1:12) {
    newvec <- rep (0, lim * 12 + 1)
    for (k in 1: (lim + 1)) {
      newvec <- newvec + ptrunc [k] * c (rep (0, k-1), outvec [1: (lim * 12 + 1- (k-1))])
    }
    outvec <- newvec
  }
  outvec
}

z2 <- ppois (t, 1,5) ^ 12 * Wektoryzacja (korekta) (t) # P (max< = t)
z2 [1: 2] <- c (0,0)
dz2 <- diff (z2) # P (max = t + 1)
 

Wyniki

Te przybliżenia dają następujące wyniki

distribution graph

  > ### symulacja
Suma > (y> = 4) / 10 ^ 6
[1] 0,577536
Obliczenia > ###
> 1-z [4]
[1] 0,5572514
> ### obliczenie dokładne
> 1-z2 [4]
[1] 0,5771871
 
Ben
2020-06-16 17:18:58 UTC
view on stackexchange narkive permalink

Tak się złożyło, że 4 członków zespołu z mojej 18-osobowej grupy miało ten sam miesiąc urodzenia. Powiedzmy, że czerwiec. Jakie są szanse, że tak się stanie? Próbuję przedstawić to jako problem z prawdopodobieństwem na spotkaniu naszego zespołu.

Istnieje kilka innych dobrych odpowiedzi na temat matematyki prawdopodobieństw obliczeniowych w przypadku tych „urodzinowych problemów”. Należy zauważyć, że daty urodzin nie są równomiernie rozłożone w dniach kalendarzowych, więc założenie o jednolitości, które jest używane w większości analiz, nieznacznie zaniża prawdziwe prawdopodobieństwo takich klastrów. Jednak odkładając tę ​​kwestię na bok, chciałbym trochę "meta" na ciebie tutaj i zachęcić do myślenia o tym problemie trochę inaczej, jako o tym, który wiąże się z dużą ilością "błędów potwierdzających".

Błąd potwierdzający pojawia się w tym kontekście, ponieważ jest większe prawdopodobieństwo, że zauważysz wynik i poszukasz probabilistycznej analizy tego wyniku, jeśli jest on niezwykły (tj. ma niskie prawdopodobieństwo). Innymi słowy, pomyśl o wszystkich poprzednich chwilach w swoim życiu, kiedy byłeś w pokoju z ludźmi i nauczyłeś się ich urodzin, a wyniki nie były niezwykłe. W takich przypadkach wyobrażam sobie, że nie zadałeś sobie trudu, aby przyjść na CV.SE i zadać pytanie na ten temat. Tak więc fakt, że zadajesz to pytanie, jest ważnym wydarzeniem warunkującym, które może się zdarzyć tylko wtedy, gdy zaobserwujesz coś wystarczająco niezwykłego, aby uzasadnić pytanie. W związku z tym warunkowe prawdopodobieństwo wyniku, który zaobserwowałeś, zależne od twojej obecności zadającej to pytanie, jest dość wysokie - znacznie wyższe niż sugerowałaby analiza w innych odpowiedziach.

Aby bardziej formalnie zbadać tę sytuację, rozważ następujące wydarzenia:

$$ \ begin {matrix} \ mathcal {A} (x, y) & & & \ text {Widzę} x \ text {osoby z tym samym miesiącem urodzin z} y \ text {losowe osoby}, \\ [6pt] \ mathcal {B} & & & \ text {Podjęcie decyzji o zaobserwowanym wyniku wymaga probabilistycznego dochodzenia}.\ \ end {matrix} $$

Większość odpowiedzi podaje, jak oszacować $ \ mathbb {P} (\ mathcal {A} (4,18)) $ , ale rzeczywistaPrawdopodobieństwo w grze to prawdopodobieństwo warunkowe $ \ mathbb {P} (\ mathcal {A} (4,18) | \ mathcal {B}) $ , czylimuch, much wyższe (i tak naprawdę nie może być tutaj obliczone).

Phil M Jones
2020-06-15 19:33:21 UTC
view on stackexchange narkive permalink

Matematyka mnie przerasta.Jednak tego rodzaju rzeczy mnie fascynują, więc stworzyłem arkusz kalkulacyjny, aby powielić to dla 10 000 grup po 18 osób, z których każda została wygenerowana losowo.Następnie policzyłem, ile z tych grup miało dokładnie cztery osoby ze wspólnym miesiącem urodzenia.Dla purystów, jak nie sprecyzowano w pytaniu, uwzględniłem również wszelkie przypadki czterech osób, które mają jeden miesiąc urodzenia, i oddzielnych czterech osób, które mają inny miesiąc urodzenia.Nie wykluczałem też trzech lub czterech czteroosobowych grup, które dzielą odpowiednio trzy lub cztery różne miesiące urodzenia.

Uruchomiłem ten arkusz kalkulacyjny 50 razy i najniższy wynik, jaki uzyskałem, to 43,95%.Najwyższa wyniosła 46,16%.Średnia wyniosła 45,05%.

Obliczenia matematyczne dla potwierdzenia tego przybliżonego wyniku pozostawię komuś bardziej doświadczonemu!

Dziękuję, mam ~ 57%, bezpośrednio zasymulowałem liczbę razy, jaką można spotkać> = 4 osoby w tym samym miesiącu urodzenia.
Forecaster, teraz sformułowałeś swoje pytanie na dwa różne sposoby: czy chcesz mieć szansę, aby * dokładnie * cztery osoby miały wspólny miesiąc urodzenia, czy też * cztery lub więcej * osób podzieliło miesiąc urodzenia?
Dziękuję @whuber, wyjaśniłem to w pytaniu.
rasher
2020-06-17 02:51:08 UTC
view on stackexchange narkive permalink

To jest problem z kulkami do pojemników

Prawdopodobieństwo, że maksymalne obłożenie dowolnego pojemnika wynosi $ m $ , biorąc pod uwagę $ n $ pojemnikówa $ r $ losowo przydzielone kulki to współczynnik $ x ^ r $ w

$ \ begingroup \ Large \ begin {equation} \ left (\ sum _ {i = 0} ^ m \ frac {x ^ i} {i!} \ right)^ n \ end {equation} \ endgroup $

pomnożone przez $ \ begingroup \ Large \ begin {equation} r!n ^ {- r} \ end {equation} \ endgroup $

Ocena tego dla przypadków „4 lub więcej” i „dokładnie 4” daje wynik $$ \ frac {555795868793273} {962938848411648} \ około 0,577187 $$ i $$ \ frac {19807122209875} {47552535724032} \ około 0,416531 $$ odpowiednio dla Twojego zapytania.

Poprawiłem Twój LaTeX, aby był bardziej czytelny.Jeśli ci się to nie podoba, wycofaj go z moimi przeprosinami.
@SycoraxsaysReinstateMonica bez obaw, dmucham w LaTeX, więc doceniam to!


To pytanie i odpowiedź zostało automatycznie przetłumaczone z języka angielskiego.Oryginalna treść jest dostępna na stackexchange, za co dziękujemy za licencję cc by-sa 4.0, w ramach której jest rozpowszechniana.
Loading...