Pravděpodobnost

Spojitá náhodná veličina

  1. Úvod do problematiky
  2. Normální (Gaussovo) rozdělení
  3. t (Studentovo) rozdělení

Úvod do problematiky

Rozdělení pravděpodobnosti- spojité náhodné veličiny

Spojité náhodné veličiny
Spojité náhodné veličiny jsou ty, jejichž hodnotami jsou reálná čísla v nějakém intervalu, případně všechna reálná čísla, to jest čísla libovolně velká od minus nekonečna do nekonečna. Všechna reálná čísla v nějakém intervalu není možné očíslovat pomocí celých čísel. Proto ani není možné použít stejné postupy jako u diskrétních náhodných veličin.
Aniž bychom mohli vyjmenovat všechny hodnoty, kterých náhodná veličina nabývá, můžeme stanovit, jaká je pravděpodobnost, že hodnoty budou v nějakém intervalu, řekněme < a,b). To umožňuje přistoupit ke spojitým náhodným veličinám, které označujeme zásadně velkými písmeny, například X nebo Y a chceme se tedy zabývat pravděpodobností
P(a ≤ X < b).
Na takové obecné úrovni se přiřazení pravděpodobností intervalům říká zákon rozdělení, zkráceně rozdělení.
Naznačené intervaly jsou zleva uzavřené a zprava otevřené. Podobně tomu bylo u intervalových rozdělení četností. Tím hned vidíme souvislost mezi spojitými náhodnými veličinami, kde hovoříme o pravděpodobnostech, a kvantitativními daty, kde se hovořilo o relativních četnostech. Jestliže máme dva sousední intervaly­ < a,b) a < b,c), vidíme, že jsou disjunktní a jejich sjednocením je zase interval < a,c).
Pomocí pravděpodobnosti, že náhodná veličina bude v nějakém intervalu, jsme mohli popisovat i diskrétní náhodné veličiny. Neudělali jsme to jen proto, že zavedení takové otázky by se zdálo neúčelné.
Pravděpodobnost, že spojitá náhodná veličina padne do nějakého intervalu < a,b) se popisuje pomocí funkce, která se nazývá hustota. Pravděpodobnost, že náhodná veličina s danou hustotou h padne do intervalu < a,b), se určí jako plocha mezi osou x a grafem hustoty h nad intervalem < a,b). Tomu se krátce říká plocha pod křivkou. Přitom se samozřejmě předpokládá, že tato plocha je zdola omezena osou x, jinak by byla nekonečnou.
Abychom mohli hovořit o pravděpodobnostech, musí hustota být především funkcí nezápornou. Jevem jistým je množina všech reálných čísel, musí tedy být celková plocha pod křivkou hustoty rovna jedné. Tím je míněna plocha od minus nekonečna do nekonečna. Těm, kteří nestudovali limity, stačí chápat pojem plochy pod křivkou hustoty od minus nekonečna do nekonečna jen intuitivně. Ti, kteří studovali limity, tomu mají rozumět tak, že pro libovolný interval < a,b) je plocha pod křivkou hustoty menší nebo rovna jedné, ale zároveň je možné nalézt intervaly takové, že plocha se blíží jedné.
Jak bylo již probráno v geometrické definici pravděpodobnosti, je možné obsahy ploch pokládat za aditivní, tedy plochy pod křivkou hustoty je možné použít k definici pravděpodobnosti.
V případě histogramu se daným intervalům vypočítávají relativní četnosti a těm jsou úměrné plochy obdélníků. Plocha obdélníku se vypočítá jako délka intervalu krát výška obdélníku. Pro histogram relativních četností je celková plocha histogramu rovna jedné. Relativní četnosti zobrazené jako plochy je možné vyjadřovat výškou. V tomto smyslu je možné histogram považovat za hustotu rozdělení nebo spíš předchůdce hustoty.

Lokální vlastnosti (nepovinné)
Zvolíme-li velmi malý interval, do kterého má náhodná veličina X s hustotou h padnout, víme, že pravděpodobnost tohoto jevu je rovna ploše pod hustotou v tomto intervalu.
Jestliže platí Min ≤ h(x)≤ Max pro všechna x v < a,b), pro plochu P pod hustotou platí Min(b-a)≤ P≤ Max(b-a)
Tato úvaha nás opravňuje očekávat, že pravděpodobnost padnutí náhodné veličiny do takového intervalu bude úměrná délce intervalu a hustotě v tomto intervalu.
Ve fyzice je hustota definována jako hmotnost vztažená k objemu v případě homogenní látky. Připomeňme, že hmotnost i objem jsou funkce množinové.
V případě látky nehomogenní je nutno zavést funkci hustoty jako bodovou funkci, která říká, jaký je poměr hmotnosti ku objemu velmi malému, ale obsahujícímu daný bod. Je tu jasná analogie mezi hustotou v počtu pravděpodobnosti a hustotou ve fyzice.
Vhodnější je zajímat se o hustotu tyče definovanou jako hmotnost vztaženou k délce tyče. Pokud je tyč homogenní, je hustota podílem hmotnosti a délky. Pokud je ale tyč nehomogenní, například tím, že má nestejný průřez, i když ze stejné látky, definujeme hustotu tyče v nějakém bodě jako poměr hmotnosti nějakého velmi malého intervalu na tyči k délce tohoto intervalu. Tím dostaneme přesnější analogii hustoty spojitého rozdělení.
Rovnoměrné rozdělení
O spojité náhodné veličině říkáme, že má rovnoměrné rozdělení, když nabývá hodnot jen v nějakém intervalu a hustota je v tomto intervalu konstantní.
Jestliže náhodná veličina nabývá hodnot jen v intervalu < a,b) , pak je hustota mimo tento interval nulová.
Jestliže je v intervalu < a,b) hustota konstantní, pak pravděpodobnost, že náhodná veličina padne do intervalu < a,b) je rovna ploše pod křivkou hustoty, což je h(b-a). Tato plocha musí být rovna jedné (je to jev jistý), tedy h(b-a) = 1, což dá h = 1/(b-a). Z toho je vidět, že rovnoměrné rozdělení je plně určeno intervalem, do kterého náhodná veličina padne, protože hustota je tím už určena.

Příklad: Vypočtěme pravděpodobnost, že náhodná veličina s rovnoměrným rozdělením v intervalu < a,b) padne do pravé půlky tohoto intervalu. Intuitivně víme, že to bude 1/2. Střed intervalu je v bodě (a+b)/2 a hustota h=1/(b-a). Plocha pod hustotou je délka intervalu krát hustota, (b-(a+b)/2)/(b-a)=1/2.

Zaokrouhlování jako náhodná veličina (nepovinné)
Jestliže víme, že nějaké celé číslo K vznikne zaokrouhlením, můžeme ještě předpokládat, že původní číslo bylo v intervalu < K - 0,5; K + 0,5), a že v tomto intervalu mělo rovnoměrné rozdělení. Všimněme si opět, že i ten obvyklý způsob zaokrouhlování souhlasí s naším způsobem psaní intervalů zleva uzavřených a zprava otevřených. Hustota pravděpodobnosti h(x) bude definována jako jedna pro x v intervalu < K - 0,5; K + 0,5) a jako nula pro x mimo tento interval.
Symetrické rozdělení
Definice: Spojité rozdělení se nazývá symetrické kolem nějakého středu symetrie µ, jestliže pro jeho hustotu platí
h(µ + x) = h(µ - x).
Tato definice se opírá o celkem jasný geometrický názor. Také je hodně uplatňována v praxi. Jestliže například chceme říci, že chyby měření jsou "jak kladné, tak záporné asi tak stejně," matematicky se to vyjádří pomocí pojmu symetrie.

Například rovnoměrné rozdělení na intervalu < a,b) je symetrické kolem středu intervalu < a,b) , to jest bodu (a+b)/2.

Nesymetrická rozdělení

Asymetrickým rozdělením se též říká zešikmená. V praxi hovoříme o zešikmeném rozdělení vzhledem k modu, tj. bodu, ve kterém hustota nabývá maxima.
Rozlišujeme rozdělení zešikmené vpravo a zešikmené vlevo.
Pro ilustraci uvádíme následující zjednodušené definice.

Rozdělení zešikmené vpravo má tu vlastnost, že hustota vpravo od modu je větší než hustota vlevo od modu. To znamená, že hustota v libovolném bodě vpravo od modu je větší než hustota v bodě stejně vzdáleném od modu vlevo.
To je možné zapsat jako h(m-x)< h(m+x), kde h je hustota, m je modus a x je kladné číslo.

Rozdělení zešikmené vlevo má tu vlastnost, že hustota v libovolném bodě vlevo od modu je větší než hustota v bodě stejně vzdáleném od modu vpravo.
To je možné zapsat jako h(m-x)>h(m+x), kde h je hustota, m je modus a x je kladné číslo.

Rozdělení tvaru U a J
V praxi se někdy vyskytují rozdělení, která nejsou zvonovitá. Tím je myšleno, že graf hustoty má například tvar písmene U nebo J.

Příkladem je poruchovost zařízení. Při uvádění do provozu mívá zařízení obvykle vysokou poruchovost. Důvodem mohou být nedostatky při výrobě. Po zaběhnutí bývá poruchovost zařízení nízká. Později se opět zvyšuje opotřebením. Podobně je to s analýzou přežití. V dospělosti je pravděpodobnost úmrtí menší, než v dětství nebo ve stáří.


Normální (Gaussovo) rozdělení

Podle svého použití v praktických aplikacích je nejčastějším typem rozdělení normální neboli Gaussovo rozdělení s parametry µ a σ. Značí se N(µ,σ ), kde µ je populační průměr a σ je populační směrodatná odchylka průměru. Hustota je definována jako `h(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{\frac{-(x-\mu)^2}{2\sigma^2}}`

Číslo e je Eulerovo číslo. Je rovno přibližně 2,718281828 a používá se jako základ přirozeného logaritmu. Hned na první pohled vidíme, že tato hustota je symetrická kolem µ, jelikož µ se vyskytuje ve výrazu (x - µ)2 a tudíž záleží jen na absolutní hodnotě rozdílu (x - µ) a ne na tom, jestli je kladný nebo záporný. Parametr µ je středem symetrie a v tomto smyslu se dá říci, že určuje polohu rozdělení. Představme si σ pevné, pak změna µ znamená jen posun hustoty, tvar zůstává stejný. Pro pochopení bude dobré naznačit průběh funkce h(x). Čím větší je x > µ, tím větší je výraz
`\frac{{\left({x-\mu}\right)^2}}{{2\sigma^2}}`
a tedy
`e^{-\frac{{\left({x-\mu}\right)^2}}{{2\sigma^2 }}}`
je naopak menší.
Proto se říká, že hustota normálního rozdělení má zvonovitý tvar nebo tvar klobouku.
Čím větší je σ tím je "klobouk" nižší a širší.
`\frac{1}{\sigma\sqrt{2\pi}}`

Použití normálního rozdělení
Normální rozdělení se používá tam, kde hustota rozdělení má zvonovitý tvar, to znamená, že je symetrická a pro rostoucí i klesající x jde h(x) k nule. To je splněno velmi často. Existují k tomu teoretická zdůvodnění. Také pro praktické aplikace existuje jednoduché pravidlo. Jestliže náhodná veličina vzniká měřením, při kterém se chyby měření kombinují sčítáním, pak tato náhodná veličina má přibližně normální rozdělení.
Zkusíme si krejčovským metrem změřit délku stolu. Předpokládejme, že skutečná délka stolu je µ. Při měření vznikají chyby měření, jak kladné, tak záporné. Záleží na úhlu, pod jakým se na metr dívám, jak přesně je začátek metru přiložen, jak je metr napnut a na mnoha dalších vlivech. Takové chyby měření se kombinují sčítáním a tudíž hustota takto vzniklé náhodné veličiny bude mít zvonovitý tvar a pro její popis se použije normální rozdělení.
Normalita rozdělení není v praxi samozřejmostí, je nutno ji ověřit!
Existují metody na takové ověření, ale zatím jediný způsob, který jsme schopni vysvětlit, je použití histogramu, na kterém si ověříme jak symetrii, tak tvar zvonu.
Příklad normálního rozdělení:
Výška osob mužského, případně ženského, pohlaví má rozdělení tvaru zvonu. Nejobvyklejší výšky jsou v prostřední části pod hustotou, která je symetrická. (Zdroj: Carola, R., etal, Human Anatomy and Physiology, second edition, 1992, Appendix A.16.) Zde se nejedná o chyby měření, jde o variabilitu mezi jedinci.


t (Studentovo) rozdělení

Definice:
Studentovo rozdělení je teoretické rozdělení pravděpodobností. Křivka jeho hustoty je symetrická a svým zvonovitým tvarem se podobá křivce hustoty normálního rozdělení. Křivka Studentova rozdělení mění svůj tvar v závislosti na hodnotě parametru, který se nazývá počet stupňů volnosti a značí se df (degrees of freedom).
Stupně volnosti (df)

  • jediný parametr Studentova rozdělení,
  • jakékoliv přirozené číslo,
  • čím je počet stupňů volnosti menší, tím je křivka t-rozdělení plošší a tím pádem je plocha ve „chvostech “ rozdělení větší,
  • se zvyšujícím se počtem stupňů volnosti se hustota Studentova rozdělení blíží hustotě normovaného normálního rozdělení. Pro stupně volnosti větší než 100 už grafy hustot obou rozdělení splývají.

Hustota pravděpodobnosti Studentova rozdělení je symetrická kolem nuly a má zvonovitý tvar. Graf hustoty Studentova rozdělení vypadá skoro stejně jako graf Gaussova rozdělení s parametry `\mu =0` a `\sigma =1`, proto by uvedení obrázku bylo nadbytečné.
Bývá vhodné nejen znát hustotu, ale také distribuční funkci. Obecně distribuční funkce `F(x)` je definována jako pravděpodobnost, že náhodná veličina je menší než dané číslo `x`. Protože hustota Studentova rozdělení je symetrická kolem nuly, hned víme, že `F(0)=1/2`. Často jsou v aplikacích potřebné kvantily rozdělení, které nejsou ničím jiným než inverezní funkcí pro distribuční funkci. 50-ti procentní kvantil, čili medián, Studentova rozdělení známe, je to `\tilde{x}=0`, díky symetrii, protože `F(0)=1/2`. Spíš se ale budeme zajímat o 95-ti a 97,5-ti procentni kvantily, čili některé horní kvantily. Opět díky symetrii si okamžitě můžeme odvodit dolní, to jest 5-ti a 2,5-ti procentní kvantily.


Stupně volnosti 95-ti proc. kvantil 97,5-ti proc. kvantil 99,0 proc. kvantil 99.5 proc. kvantil
df t0,95 t0,975 t0,99 t0,995
 1 6,314 12,706 31,821 63,657
 2 2,920 4,303 6,965 9,925
 3 2,353 3,182 4,541 5,841
 4 2,132 2,776 3,747 4,604
 5 2,015 2,571 3,365 4,032
 6 1,943 2,447 3,143 3,707
 7 1,895 2,365 2,998 3,499
 8 1,860 2,306 2,896 3,355
 9 1,833 2,262 2,821 3,249
10 1,812 2,228 2,764 3,169
11 1,796 2,201 2,718 3,105
12 1,782 2,179 2,681 3,054
13 1,771 2,160 2,650 3,012
14 1,761 2,145 2,624 2,976
15 1,753 2,131 2,602 2,946
16 1,746 2,120 2,583 2,921
17 1,740 2,110 2,567 2,898
18 1,734 2,101 2,552 2,878
19 1,729 2,093 2,539 2,861
20 1,725 2,086 2,528 2,845
21 1,721 2,080 2,518 2,831
22 1,717 2,074 2,508 2,819
23 1,714 2,096 2,500 2,807
24 1,711 2,064 2,492 2,797
25 1,708 2,060 2,485 2,787
26 1,706 2,056 2,479 2,779
27 1,703 2,052 2,473 2,771
28 1,701 2,048 2,467 2,763
29 1,699 2,045 2,462 2,756
30 1,697 2,042 2,457 2,750


Blok 0101 - Základní pojmy statistiky - Příklady

(Pro zobrazení odpovědi klikni na otázku.)

1) Pro normální rozdělení platí:
A) je charakterizováno průměrem a rozptylem
B) je to rovnoměrné rozdělení
C) tvar křivky je dán počtem stupňů volnosti
D) je to symetrické rozdělení


2) Který z následujících typů dat může mít normální rozdělení?
A) ordinální
B) nominální
C) kvantitativní


3) Pro Studentovo rozdělení platí:
A) je to rozdělení nesymetrické
B) křivka hustoty má zvonovitý tvar
C) je dáno průměrem a počtem stupňů volnosti
D) při velkém počtu stupňů volnosti splývá křivka hustoty s hustotou Gaussova rozdělení


Kontrolní otázky: