05
Induktivní (Inferenční) statistika zahrnuje dvě důležité oblasti:
Oba uvedené přístupy hojně používají metody počtu pravděpodobnosti. Pojmy jako nezávislost, diskrétní či spojité rozdělení jsou běžně používány.
V této kapitole se budeme zabývat odhady neznámých hodnot populačních parametrů.
Rozlišujeme dva typy odhadů:
Odhadovat můžeme jakýkoliv parametr, např. rozptyl nebo směrodatnou odchylku. Nejčastěji ale odhadujeme hodnotu populačního aritmetického průměru.
Bodovž odhad populačního průměru
Představme si následující situaci: Chceme znát průměrnou velikost pacientových červených krvinek. Jak budeme postupovat? Nejpřesnější by jistě bylo odebrat pacientovi všechnu krev, změřit velikost všech červených krvinek a vypočítat průměr. To je ale, ze zřejmých důvodů, naprosto nevhodný přístup. Musíme se tedy spokojit s tím, že pacientovi odebereme vzorek krve, a pod mikroskopem náhodně vybereme a změříme určitý počet červených krvinek. Máme tedy k dispozici jen náhodný výběr z celé populace a víme, že přesné hodnoty populačního průměru se nemůžeme dopátrat. Nezbývá tedy, než neznámý populační průměr odhadnout. K tomu použijeme hodnoty v našem výběru. Vypočteme z nich aritmetický průměr a tento výběrový aritmetický průměr `\bar{x}` bude naším odhadem skutečného, neznámého populačního průměru `\mu`. (Odhad populačního průměru označíme jako `\hat{\mu}`.)
`\hat{\mu}=\bar{x}=\frac{\sum_{i=1}^{n}x_{i}}{n}`
Co se ale stane, když vybereme stejný počet jiných krvinky stejného pacienta? Jistě nebudou všechny stejně velké a proto dostaneme s velkou pravděpodobností jiný výběrový průměr. To znamená, že tento nový odhad (stále stejného neznámého) populačního průměru bude jiný, než ten vypočtený z předchozího výběru.
Takto bychom mohli teoreticky pokračovat dál. Pořizovat nové výběry, z nich počítat výběrové průměry a získávat tak stále nové odhady oné skutečné průměrné velikosti všech červených krvinek našeho pacienta.
Je tedy výběrový průměr dobrým bodovým odhadem populačního průměru? Odpověď je optimistická. Vývěrový průměr je nejen dobrým, ale dokonce nejlepším možným odhadem populačního průměru. Proč? Protože je to tzv. odhad nevychýlený. To znamená, že pokud bychom z dané populace pořídili všechny možné výběry o určité velikosti a ze všech těchto výběrů spočítali výběrové průměry, byl by průměr všech těchto výběrových průměrů přesně roven hledanému populačnímu průměru (tj. nevychyloval by se ani směrem k menším ani k větším hodnotám).
Bodový odhad populačního rozptylu
Co je to vlastně rozptyl? Je to průměrná kvadratická odchylka naměřených hodnot od jejich průměru. Podle této definice můžeme zapsat populační rozptyl, který se značí `\sigma^2` , následujícím způsobem:
`\sigma^2=\frac{\sum_{i=1}^{N}(x_{i}-\mu)^2}{N}` (kde `\mu` je populační průměr a N je počet prvků v populaci).
Jak už víme z předchozího odstavce, skutečné hodnoty populačních charakteristik se obvykle nedopátráme, protože většinou máme k dispozici jen výběr z populace. Musíme se tedy spokojit s tím, že hodnoty populačních charakteristik z výběru odhadneme. Jako odhad populačního rozptylu vezmeme rozptyl vypočtený ze všech hodnot výběru, tj. tzv. výběrový rozptyl. `\hat{\sigma}^2=s^2`.
Opět ale chceme, aby náš výběrový rozptyl odhadoval populační rozptyl co nejlépe. Proto musí být zase splněn požadavek nevychýlenosti odhadu. To znamená, že pořídíme-li z dané populace všechny možné výběry o určité velikosti, z každého výběru vypočteme výběrový rozptyl a všechny tyto výběrové rozptyly zprůměrujeme, musíme dostat přesně hodnotu populačního rozptylu.
Kdybychom počítali výběrový rozptyl podle přesně stejného vzorce jako rozptyl populační, nebyla by podmínka nevychýlenosti odhadu splněna. (Odhad by se mírně vychyloval směrem k menším hodnotám.) Proto při výpočtu výběrového rozptylu provádíme malou korekci – součet kvadratických odchylek všech hodnot výběru od jejich průměru dělíme počtem prvků výběru sníženým o jedničku (viz následující vzorec).
`s^2=\frac{\sum_{i=1}^{n}(x_{i}-\bar{x})^2}{n-1}`
Bodové odhady mají jistou nevýhodu. Zřídka kdy se stane, že bodový odhad přesně odpovídá hodnotě populačního parametru. Navíc nám neposkytuje žádnou informaci o tom, jak moc se, s „rozumnou pravděpodobností“ může populační parametr od odhadu lišit. Proto je obvykle vhodnější používat tzv. intervalové odhady, které vymezují celý interval hodnot, mezi nimiž se, s předem danou pravděpodobností, skutečná hodnota populačního parametru vyskytuje. Více o tom v kapitole Intervalové odhady.
Jak bylo uvedeno v předchozí podkapitole, neznámou hodnotu populačního parametru můžeme odhadnout prostřednictvím bodového nebo intervalového odhadu.
Intervalový odhad je interval, v němž s předem danou pravděpodobností leží neznámá hodnota populačního parametru.
Intervalovému odhadu obvykle říkáme interval spolehlivosti.
Odhadovat můžeme jakýkoliv parametr, nejčastěji ale odhadujeme hodnotu populačního aritmetického průměru.
Interval spolehlivosti aritmetického průměru
Než se pustíme do konstrukce intervalu spolehlivosti, musíme si něco povědět o rozdělení výběrových průměrů. Uvažujme náhodnou veličinu `X` s normálním rozdělením. Jak už víme, z populace (tj. množiny možných realizací veličiny `X`) můžeme získat různé výběry. Pořídíme-li z populace mnoho různých výběrů o téže velikosti, budou výběrové průměry rozmístěny na číselné ose vlevo i vpravo od populačního průměru a to tak, že většinou budou populačnímu průměru hodně blízko. Hodně odlišné výběrové průměry dostaneme zřídka. Výběrové průměry (tj. veličina `\bar{X}`) mají normální rozdělení `N(\mu,\sigma_{\bar{X}})`. ` \sigma_ \bar{X} `, tj. směrodatná odchylka rozdělení výběrových průměrů, bývá obvykle nazývána střední chybou průměru (angl. standard error of mean) a vypočte se následovně:
`\sigma_{\bar{X}}=\frac{\sigma}{\sqrt n}`
(Je-li `\sigma_\bar{X}` malé, potom máme dobrou šanci, že výběrový průměr leží blízko skutečného průměru populace.)
Veličinu `\bar{X}` lze standardizovat. Dostaneme veličinu
`\frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt n}}`
s normovaným normálním rozdělením `N`(0,1).
Problém je v tom, že \sigma obvykle neznáme. Musíme ho tedy odhadnout pomocí výběrové směrodatné odchylky `s`.
Veličina `\frac{\bar{X}-\mu}{\frac{S}{\sqrt n}}` ale už nemá normální rozdělení, ale rozdělení Studentovo, neboli `t`-rozdělení, s počtem stupňů volnosti `\nu= n – 1`.
Když uvážíme, že Studentovo rozdělení je symetrické, víme, že když t je 97,5 procentní kvantil tohoto rozdělení pro `n-1` stupňů volnosti, pak `-t` je 2,5 procentní kvantil Studentova rozdělení pro `n-1` stupňů volnosti. Pravděpodobnost, že náhodná veličina s tímto rozdělením bude v intervalu `(-t; t)` je 95 %.
`P(-t<(\bar{X}-\mu)/(S/\sqrt n)< t)=0.95`
Postupnými úpravami nerovností dosáhneme osamostatnění `μ`.
Výsledné nerovnosti budou platit s 95-ti procentní pravděpodobností.
Nejprve násobíme obě nerovnosti výrazem ve jmenovateli.
`-tS/\sqrt n<\bar{X}-\mu < tS/\sqrt n`
Odečteme u obou nerovností `\bar{X}`.
`-\bar{X}-tS/\sqrt n< -\mu< -\bar{X}+tS/\sqrt n`
Vynásobení číslem -1 dá požadovaný výsledek. Pozor na znaménka a znak nerovnosti!
`\bar{X}-tS/\sqrt n<\mu<\bar{X}+tS/\sqrt n`
Tato nerovnost platí za uvedených předpokladů s pravděpodobností 95 procent a dává interval pro střední hodnotu. Tedy takový interval, ve kterém se s 95% pravděpodobností nachází populační průměr µ. Takový interval se nazývá interval spolehlivosti, přesněji 95-ti procentní interval spolehlivosti pro µ. Dá se také říci, že 95% interval spolehlivosti pokrývá populační průměr s 95% pravděpodobností.
Podobným způsobem bychom získali 99-ti procentní interval spolehlivosti. Jako t bychom brali 99,5-ti procentní kvantil Studentova rozdělení s n-1 stupni volnosti. Je jasné, že 99-ti procentní interval spolehlivosti bude širší než 95-ti procentní interval spolehlivosti.
Existují postupy, které slouží k odvození intervalů spolehlivosti také pro jiné parametry.
(Pro zobrazení odpovědi klikni na otázku.)
1) Co je nejlepším bodovým odhadem populačního průměru?