Difference between revisions of "Binomial distribution/cs"

From Simulace.info
Jump to: navigation, search
Line 61: Line 61:
 
Nyní je čas diskutovat o pravděpodobnostním rozdělení binomické náhodné veličiny. Začneme jednoduchým příkladem a poté se přesuneme k obecnému vzorci.
 
Nyní je čas diskutovat o pravděpodobnostním rozdělení binomické náhodné veličiny. Začneme jednoduchým příkladem a poté se přesuneme k obecnému vzorci.
 
==== Příklad Přenosový kanál ====
 
==== Příklad Přenosový kanál ====
 +
Mějme digitální přenosový kanál, který přenáší 4 bitový signál. Pokusy o přenos jsou nezávislé. Šance, že se jeden bit, který je přenesen přes kanál, přenese s chybou je 0,1. Nechť je [[File:X.png|x15px]] označuje počet bitů s chybou. Určeme [[File:vbr.png|x37px]].
 +
* Použijme písmeno E pro označení bitu s chybou a písmeno O pro označení bitu bez chyby, tedy přijatého správně. Výsledky tohoto můžeme reprezentovat jako seznam čtyř písmen, která označují bity s chybou a bity bez chyby. Například výsledek OEOE znamená, že druhý a čtvrtý bit jsou s chybou a ostatní dva bity jsou bez chyby. Příslušné hodnoty tedy jsou:
 +
{| class="wikitable" style="margin:auto"
 +
|-
 +
! Výsledek přenosu !! x !! Výsledek přenosu !! x
 +
|-
 +
| OOOO||0||OEOE||2
 +
|-
 +
| OOOE ||1 ||EOEO ||2
 +
|-
 +
| OOEO ||1 ||EOOE ||2
 +
|-
 +
| OEOO ||1 ||OEEE ||3
 +
|-
 +
| EOOO ||1 ||EOEE ||3
 +
|-
 +
| OOEE ||2 ||EEEO ||3
 +
|-
 +
| OEEO ||2 ||EEOE ||3
 +
|-
 +
| EEOO ||2 ||EEEE ||4
 +
|}
 +
* Pro [[File:X.png|x15px]] = 2 je tedy možných 6 výsledků přenosu: {OOEE, OEEO, EEOO, OEOE, EOEO, EOOE}
 +
* Za předpokladu, že jsou pokusy o přenos jednoho bitu nezávislé, je pravděpodobnost možnosti {EEOO}:
 +
[[File:formula1.png|x45px]]
 +
* Také platí, že každý z šesti výsledků, kde [[File:X.png|x15px]]=2, má stejnou pravděpodobnost výskytu a proto
 +
[[File:formula2.png|x35px]]
 +
 +
Nebo všeobecně:
 +
[[File:pxx.png|x15px]] = ''počet možných „úspěšných“ výsledků pro x chyb'' * ''pravděpodobnost každé „úspěšné“ možnosti s výsledkem x chyb a délkou 4''
 +
* Pro jednoduší odvození můžeme vytvořit tabulku pravděpodobností:
 +
[[File:petj22Tab1.png|x55px]]
 +
* Všimneme si vlastnosti v tabulce:
 +
[[File:petj22Tab2.png|x55px]]
 +
 +
Můžeme zevšeobecnit na:
 +
pravděpodobnost každé „úspěšné“ možnosti s výsledkem [[File:formula3.png|x25px]]
 +
 +
* Ještě nám zbývá odvodit část ''počet možných „úspěšných“ výsledků pro x'', která není na první pohled tak intuitivní. Po krátkém zamyšlení je ale jasné, že se jedná o jednoduchou kombinaci, kdy z množiny [[File:n.png|x12px]] objektů vybíráme počet objektů (x), přičemž nám nezáleží na pořadí. Tedy:
 +
[[File:formula4.png|x40px]]
 +
 +
<ref name="montgomery"></ref> <ref name="bolt"></ref>
 +
 +
==== Definice ====
 +
Formalizujme tedy uvedené informace do definice binomického rozdělení:
 +
 +
===== Podmínky =====
 +
Náhodný experiment se skládá z [[File:n.png|x12px]] Bernoulliho experimentů tak, že:
 +
# Každý experiment je nezávislý
 +
# Každý experiment má právě dva možné výsledky – „úspěch“ a „neúspěch“
 +
# Pravděpodobnost „úspěchu“, označována [[File:P2.png|x15px]], pro každý pokus, zůstává konstantní
 +
===== Vzorec =====
 +
Náhodná proměnná [[File:X.png|x15px]], která udává počet pokusů s „úspěchem“, má binomické rozdělení s parametry 0<[[File:P2.png|x15px]]<1 a [[File:n.png|x12px]] = 1, 2, … Pravděpodobnostní funkce proměnné [[File:X.png|x15px]] je dána následovně:
 +
[[File:formula5.png|x50px]]
 +
 +
<ref name="bolt"></ref>
 +
 +
== Charakteristiky rozdělení ==
 +
Pro odvození střední hodnoty opět využijeme intuitivního příkladu:
 +
Jak nám je již známo, pravděpodobnost mít krevní skupinu typu B je 0,1. Nebo tedy jinými slovy, zhruba 10 % populace má krevní skupinu B.
 +
Předpokládejme, že náhodně vybereme 120 lidí. Kolik lidí můžeme očekávat, že bude mít krevní skupinu typu B?
 +
Odpověď, 12, se zdá být zřejmá. Automaticky jsme vynásobili počet lidí - 120, pravděpodobností výskytu krevního typu B – 0,1.
 +
Z toho jednoduchého příkladu můžeme začít odvozovat.
 +
<ref name="bolt"></ref>
 +
 +
=== Střední hodnota ===
 +
Pokud je [[File:X.png|x15px]] binomická náhodná veličina s parametry [[File:n.png|x12px]] a [[File:P2.png|x15px]], pak střední hodnota (očekávaná hodnota) [[File:X.png|x15px]] je:
 +
 +
[[File:formula6.png|x30px]]
 +
=== Rozptyl ===
 +
Rozptyl je na odvození méně intuitivní, ale ne nemožný. Nicméně je tato problematika odvození mimo rámec této kapitoly, a proto ho uvedeme jenom jako vzorec:
 +
 +
[[File:formula7.png|x30px]]
 +
 +
Pro příklad s krví by to tedy znamenalo:
 +
 +
[[File:formula8.png|x30px]]
 +
 +
V náhodném vzorku 120 lidí bychom očekávali přibližně 12 osob s krevním typem B, s odchylkou přibližně 3,3.
  
 
= Citace =
 
= Citace =
 
<references/>
 
<references/>

Revision as of 22:39, 1 June 2023

Přemýšleli jste někdy o tom, jak předpovědět počet úspěchů v sérii nezávislých pokusů? Nebo jste možná zvědaví na pravděpodobnost dosažení konkrétního výsledku v sekvenci otázek s odpověďmi ano/ne? Pokud ano, hovoříme v podstatě o binomickém rozdělení, které se vztahuje k binomickým experimentům (tj. s binárními výsledky). Binomické rozdělení je důležitým konceptem v oblasti datové vědy a často se používá v rámci podnikových aplikací.

Úvod

Pravděpodobnostní rozdělení pro experiment s mincí. Počet pokusů N.png = 10 a pravděpodobností úspěchu (pád orla při jedném hodu) P2.png = 0,5. [1]

Přemýšlejme o následujících experimentech a náhodných veličinách:

  1. Házíme 10krát mincí. Označme X.png počet kolikrát padne orel.
  2. Stroj vyrábí díly a některé z nich jsou vadné. Označme X.png jako počet vadných dílů ze 100 z nich náhodně vybraných.
  3. Z celkového počtu pacientů trpících konkrétním onemocněním 35 % zažije zlepšení díky určitému léku. U následujících 1000 pacientů, kterým je podán ten samý lék, označme X.png jako počet pacientů, kteří zpozorují zlepšení.
  4. Test obsahuje 10 otázek s více možnými odpověďmi, každá s čtyřmi možnostmi, a vy hádáte u každé otázky. Označme X.png jako počet správně zodpovězených otázek.

Každý z těchto náhodných experimentů si lze představit jako soubor opakovaných náhodných pokusů: 10 hodů mincí nebo třeba 1000 pacientů užívajících lék. Náhodná veličina X.png je počet pokusů, které splňují určité kritérium. Výsledek každého pokusu buď splňuje kritérium, nebo ne; proto lze každý pokus shrnout jako „úspěch“ nebo „neúspěch“. Například v experimentu s testem je pro každou otázku pouze jedna kombinace možností, která je správná, a tedy považována za úspěch.

Termíny „úspěch“ a „neúspěch“ jsou pouze označení. V případě experimentu 2 je vyrobení vadného dílu označováno jako „úspěch“, protože X.png počítá vadné díly. Stejně dobře můžeme použít označení „A“ a „B“ nebo „0“ a „1“. [1] [2]

Terminologie

Binomický experiment

Nebo také Bernoulliho experiment/Bernoulliho schéma jsme si v úvodu představili, pojďme si ho nadefinovat a formalizovat.

Požadavky

Požadavky pro to, aby náhodný experiment byl binomickým experimentem, jsou následující:

  • Pevný počet (N.png) pokusů.
  • Každý pokus musí být nezávislý na ostatních. (výsledek jednoho pokusu nemá žádný vliv na výsledek ostatních pokusů.)
  • Každý pokus má právě dva možné výsledky, nazývané "úspěch" (výsledek, který nás zajímá) a "neúspěch".
  • Existuje konstantní pravděpodobnost (pravděpodobnost, že pokus skončí „úspěchem“, je stejná v každém z pokusů) (P2.png) úspěchu pro každý pokus, přičemž doplňkem této pravděpodobnosti je pravděpodobnost „neúspěchu“, která se někdy označuje jako Q-formula.png.

[1] [3]

Náhodná veličina

Pro definici binomického rozdělení začneme s definicí náhodné veličiny X.png. Tu lze jednoduše definovat jako číselné vyjádření výsledku náhodného jevu.

Binomická náhodná veličina

V binomických náhodných experimentech je počet „úspěchů“ v n pokusech náhodný. Může nabývat celočíselných hodnot od 0, pokud všechny pokusy skončí „neúspěchem“, nebo může být tak vysoký jako je N.png, pokud všechny pokusy skončí „úspěchem“. Náhodná proměnná X.png, která reprezentuje počet „úspěchů“ v těchto N.png pokusech, se nazývá binomická náhodná veličina a je určena hodnotami N.png a P2.png.

Definice

Binomická náhodná veličina X.png je definována jako počet výskytu události (úspěchů) v N.png Bernoulliho pokusech. To, že má náhodná veličina binomické rozdělení zapisujeme: [4]

Vbr.png

Příklad: Binomické nebo ne?

Zvažme ještě několik náhodných experimentů. U každého z nich rozhodneme, zda je náhodná proměnná binomická. Pokud je, určíme hodnoty pro N.png a P2.png. Pokud není, vysvětlíme proč.

Příklad A
Házíme spravedlivou kostkou 50krát; X.png je počet krát, kdy padla šestka.
X.png je binomická s N.png = 50 a P2.png = 1/6.
Příklad B
Opět házíme spravedlivou kostkou, X.png je počet hodů potřebných k dosažení šestky.
X.png není binomická, protože počet pokusů není pevně stanovený.
Příklad C
Vybíráme náhodně 3 karty jednu po druhé, nevracíme je zpátky do balíčku, z klasické sady obsahující 4 druhy karet. X.png je počet vybraných karet se znakem srdce.
X.png není binomická, protože výběry nejsou nezávislé. (Pravděpodobnost úspěchu (P2.png) není konstantní, protože je ovlivněna předchozími výběry.)
Příklad D
Odpovídáme na 10 testových otázek zcela náhodně, prvních pět otázek je ano/ne a druhých pět otázek má čtyři možnosti, ze kterých je jedna správná. X.png představuje počet správných odpovědí.
X.png není binomická, protože pravděpodobnost P2.png se mění z 1/2 na 1/4.
Příklad E
Pravděpodobnost mít krevní skupinu B je 0,1. Vybíráme 4 náhodné osoby. X.png je počet osob s krevní skupinou B.
X.png je binomická s N.png = 4 a P2.png = 0,1.
Komentář: Při výběru relativně malé náhodné vzorky (4 osoby) z velké populace, i když se odběr provádí bez „náhrady“, můžeme předpokládat nezávislost, protože matematický vliv odstranění jednoho jedince z velké populace na další výběr je zanedbatelný.

[3]

Binomické pravděpodobnostní rozdělení

Nyní je čas diskutovat o pravděpodobnostním rozdělení binomické náhodné veličiny. Začneme jednoduchým příkladem a poté se přesuneme k obecnému vzorci.

Příklad Přenosový kanál

Mějme digitální přenosový kanál, který přenáší 4 bitový signál. Pokusy o přenos jsou nezávislé. Šance, že se jeden bit, který je přenesen přes kanál, přenese s chybou je 0,1. Nechť je X.png označuje počet bitů s chybou. Určeme Vbr.png.

  • Použijme písmeno E pro označení bitu s chybou a písmeno O pro označení bitu bez chyby, tedy přijatého správně. Výsledky tohoto můžeme reprezentovat jako seznam čtyř písmen, která označují bity s chybou a bity bez chyby. Například výsledek OEOE znamená, že druhý a čtvrtý bit jsou s chybou a ostatní dva bity jsou bez chyby. Příslušné hodnoty tedy jsou:
Výsledek přenosu x Výsledek přenosu x
OOOO 0 OEOE 2
OOOE 1 EOEO 2
OOEO 1 EOOE 2
OEOO 1 OEEE 3
EOOO 1 EOEE 3
OOEE 2 EEEO 3
OEEO 2 EEOE 3
EEOO 2 EEEE 4
  • Pro X.png = 2 je tedy možných 6 výsledků přenosu: {OOEE, OEEO, EEOO, OEOE, EOEO, EOOE}
  • Za předpokladu, že jsou pokusy o přenos jednoho bitu nezávislé, je pravděpodobnost možnosti {EEOO}:

Formula1.png

  • Také platí, že každý z šesti výsledků, kde X.png=2, má stejnou pravděpodobnost výskytu a proto

Formula2.png

Nebo všeobecně: Pxx.png = počet možných „úspěšných“ výsledků pro x chyb * pravděpodobnost každé „úspěšné“ možnosti s výsledkem x chyb a délkou 4

  • Pro jednoduší odvození můžeme vytvořit tabulku pravděpodobností:

Petj22Tab1.png

  • Všimneme si vlastnosti v tabulce:

Petj22Tab2.png

Můžeme zevšeobecnit na: pravděpodobnost každé „úspěšné“ možnosti s výsledkem Formula3.png

  • Ještě nám zbývá odvodit část počet možných „úspěšných“ výsledků pro x, která není na první pohled tak intuitivní. Po krátkém zamyšlení je ale jasné, že se jedná o jednoduchou kombinaci, kdy z množiny N.png objektů vybíráme počet objektů (x), přičemž nám nezáleží na pořadí. Tedy:

Formula4.png

[2] [3]

Definice

Formalizujme tedy uvedené informace do definice binomického rozdělení:

Podmínky

Náhodný experiment se skládá z N.png Bernoulliho experimentů tak, že:

  1. Každý experiment je nezávislý
  2. Každý experiment má právě dva možné výsledky – „úspěch“ a „neúspěch“
  3. Pravděpodobnost „úspěchu“, označována P2.png, pro každý pokus, zůstává konstantní
Vzorec

Náhodná proměnná X.png, která udává počet pokusů s „úspěchem“, má binomické rozdělení s parametry 0<P2.png<1 a N.png = 1, 2, … Pravděpodobnostní funkce proměnné X.png je dána následovně: Formula5.png

[3]

Charakteristiky rozdělení

Pro odvození střední hodnoty opět využijeme intuitivního příkladu: Jak nám je již známo, pravděpodobnost mít krevní skupinu typu B je 0,1. Nebo tedy jinými slovy, zhruba 10 % populace má krevní skupinu B. Předpokládejme, že náhodně vybereme 120 lidí. Kolik lidí můžeme očekávat, že bude mít krevní skupinu typu B? Odpověď, 12, se zdá být zřejmá. Automaticky jsme vynásobili počet lidí - 120, pravděpodobností výskytu krevního typu B – 0,1. Z toho jednoduchého příkladu můžeme začít odvozovat. [3]

Střední hodnota

Pokud je X.png binomická náhodná veličina s parametry N.png a P2.png, pak střední hodnota (očekávaná hodnota) X.png je:

Formula6.png

Rozptyl

Rozptyl je na odvození méně intuitivní, ale ne nemožný. Nicméně je tato problematika odvození mimo rámec této kapitoly, a proto ho uvedeme jenom jako vzorec:

Formula7.png

Pro příklad s krví by to tedy znamenalo:

Formula8.png

V náhodném vzorku 120 lidí bychom očekávali přibližně 12 osob s krevním typem B, s odchylkou přibližně 3,3.

Citace

  1. 1.0 1.1 1.2 KUMAR, Ajitesh Binomial Distribution Explained with Examples [online]. 2023 [cit. 2023-06-01] Dostupné z: https://vitalflux.com/binomial-distribution-defined-with-10-examples/
  2. 2.0 2.1 MONTGOMERY, Douglas C. Applied Statistics and Probability for Engineers [online]. 2011 [cit. 2023-06-01] Dostupné z: https://industri.fatek.unpatti.ac.id/wp-content/uploads/2019/03/088-Applied-Statistics-and-Probability-for-Engineers-Douglas-C.-Montgomery-George-C.-Runger-Edisi-5-2011.pdf
  3. 3.0 3.1 3.2 3.3 3.4 UF Health Binomial Random Variables [online]. 2014 [cit. 2023-06-01] Dostupné z: https://bolt.mph.ufl.edu/6050-6052/unit-3b/binomial-random-variables/
  4. VŠB DISKRÉTNÍ ROZDĚLENÍ PRAVDĚPODOBNOSTI [online].[cit. 2023-06-01] Dostupné z: https://homel.vsb.cz/~dom033/predmety/statistika/ucebni_text/7DNV.pdf