03

Popisná statistika

Charakteristika polohy - střední hodnota

  1. Definice a vlastnosti aritmetického průměru
  2. Definice a vlastnosti mediánu
  3. Modus a problémy s ním spojené
  4. Kvantily
  5. Míry polohy z hlediska použití

Definice a vlastnosti aritmetického průměru

O průměru jsme se učili všichni již na základní škole a od té doby mu věříme a používáme ho. Abychom ale byli schopni si jeho základní vlastnosti odvodit, nevystačíme s definicí jako sečteme a vydělíme, musíme si zavést symbol pro součet a naučit se s ním pracovat.

Když máme hovořit o `n` prvcích, můžeme je označit `x_1, x_2, \ldots` , `x_n` Tři tečky se čtou "až do". To znamená, že každému z čísel `1, 2`, až do `n` přiřadíme nějaký prvek. Těm se pak říká indexované prvky. Když jsou to čísla, tak indexovaná čísla, když jsou to proměnné, hovoříme o indexovaných proměnných. To samé někdy zapisujeme jako `x_i`, kde `i` jde od `1` do `n`.

Jednoduchým příkladem může být vyjádření, že `x_i` označuje čísla od jedné do sta. Zapíšeme to jako `x_i=i`, kde `i=1, 2, \ldots ,100`. Sudá čísla od dvou do sta zapíšeme jako `x_i=2i`, kde `i=1, 2, \ldots , 50`.

Představme si, že označíme nějaká čísla pomocí symbolů `x_i`, kde `i=1, 2, \ldots , n`, kde `n` je jejich počet. Označit jejich součet je možné dvěma způsoby. `x_1+x_2+\ldots +x_n` je naznačení jejich vyjmenování, ale to samé je vhodnější zapsat jako `\sum_{i=1}^{n} x_i`. Pro symbol součtu neboli sumy se tedy používá velké řecké písmeno sigma. Celý výraz se čte suma od `i` rovno jedné do `n` čísel `x_i`. Jako příklad zapíšeme součet sudých čísel od dvou do sta jako `\sum_{i=1}^{50} 2i`.

Když jsou dána čísla `y_1=1`, `y_2=3`, `y_3=2`, `y_4=4` a `y_5=5`, můžeme psát `\sum_{i=1}^{5} y_i= y_1+y_2+y_3+y_4+y_5= 1+3+2+4+5=15`.

Součet s jinými mezemi je `\sum_{i=2}^{4} y_i= y_2+y_3+y_4= 3+2+4=9`.

Součet druhých mocnin je `\sum_{i=1}^{5} y_i^2= y_1^2+y_2^2+y_3^2+y_4^2+y_5^2= 1^2+3^2+2^2+4^2+5^2=55`.

Avšak pozor na `(\sum_{i=1}^{5} y_i)^2= (y_1+y_2+y_3+y_4+y_5)^2= (1+3+2+4+5)^2= 15^2=225`.

Jestliže opakovaně sčítáme nějakou konstantu `a` třeba `K` krát, zapíšeme to jako `K` sčítanců `a+a+\ldots +a= \sum_{i=1}^{K} a=Ka`. Jak je vidět, je snadné pomocí symbolu pro součet zapsat zákon komutativní, distributivní a asociativní.

Například pomocí komutativního zákona pro sčítání platí `\sum_{i=1}^{n}(x_i+y_i)= \sum_{i=1}^{n}x_i+\sum_{i=1}^{n}y_i`, protože `(x_1+y_1)+ (x_2+y_2)+\ldots +(x_n+y_n)= x_1+x_2+\ldots +x_n+ y_1+y_2+\ldots +y_n= \sum_{i=1}^{n}x_i+ \sum_{i=1}^{n}y_i`.

Podobně, jestliže `a` je konstanta, platí `\sum_{i=1}^n ax_i= a\sum_{i=1}^n x_i..`

Obecnější vzorec je `\sum_{i=1}^n (ax_i-b)=a(\sum_{i=1}^{n} x_i) -nb..`

Součet byl dán do závorky, protože někdy není jasné, co patří součtu a co ne.

Aritmetický průměr jako míra polohy
Když je dáno `n` čísel `x_1`, `x_2`, `\ldots` , `x_n`, je vzorec pro průměr `\bar x = (1/n)\sum_{i=1}^n x_i`. Pruhem nad symbolem pro čísla se označuje jejich průměr. Kdybychom označili nějaká čísla písmenem `y_i`, pak jejich průměr bychom značili `\bar y`. Protože při počítání průměrů je jasné, jaké meze se vyskytují v symbolu pro součet, je obvyklé je vynechávat. Zrychlí se tím psaní a zlepší se čitelnost. Když ke každé hodnotě `x_i` přičteme tutéž konstantu `a`, dostaneme `y_i=x_i+a`. Pro průměry platí vztah `\bar y = \bar x + a`, neboť `\bar{y}= (1/n)\sum y_i=(1/n)\sum (x_i+a)=(1/n)\sum x_i +(1/n)\sum a=\bar x +(1/n) \: na= \bar x+a`. Porovnejme teploty ve stupních Celsia a v kelvinech. Právě jsme ukázali, že když `y_i=x_i+273,15`, bude platit i pro průměry `\bar y =\bar x+273,15`. Tato základní vlastnost průměru ukazuje, že průměr je velmi vhodný jako míra polohy. Přičtením nějakého čísla k datům se totiž průměr zvýší přesně o toto číslo. Když každou hodnotu `x_i` vynásobíme stejnou konstantou `b`, dostaneme `y_i=bx_i`. Pro průměr pak platí `\bar y=b\bar x`, neboť `\bar y=(1/n)\sum y_i=(1/n)\sum bx_i= (1/n)b\sum x_i=b\bar x`. Když udáváme délku `s` v metrech a chceme ji v cm, platí `t_i=100s_i`, kde `t` je délka v cm, a tudíž pro průměry platí `\bar t = 100\bar s`. Když každou hodnotu `x_i` vynásobíme stejnou konstantou `b` a k výsledku přičteme stejnou konstantu `a`, dostaneme `y_i=bx_i+a`. Pro průměr pak platí `\bar y=b\bar x+a`. Tento vztah se snadno oveří postupným použitím vztahů předchozích nebo jako cvičení rozepsáním součtů. Jestliže `C_i` označují teplotu ve stupních Celsia a `F_i` ve stupních Fahrenheita, je `F_i=(9/5)C_i+32` a také `\bar F =(9/5)\bar C +32`.

Součet odchylek od průměru
Nejprve se budeme zajímat, jaký je součet všech odchylek od průměru. Máme-li `n` hodnot `x_i` a jejich průměr `\bar x =(1/n)\sum x_i`, budeme jako odchylku od průměru nazývat hodnotu `x_i-\bar x`. Součtem odchylek je pak `\sum (x_i-\bar x)`. Ten lze napsat jako `\sum (x_i-\bar x)=\sum x_i-\sum \bar x=\sum x_i-n\bar x= \sum x_i-n(1/n)\sum x_i=\sum x_i-\sum x_i=0`. Takový výsledek říká hned několik věcí. Všechny odchylky se ruší a tudíž není možné součet odchylek použít jako míru variability. Jestliže si odchylky rozdělíme do skupin podle znaménka, to jest v první skupině budou odchylky záporné, ve druhé skupině budou odchylky kladné, případně ve třetí skupině odchylky nulové, pak součet všech odchylek kladných se všemi odchylkami zápornými dává nulu. Přesně v tomto smyslu je průměr někde uprostřed čísel, ze kterých je počítán, a rozděluje tato čísla na skupinu větší než průměr, skupinu menší než průměr a případně stejnou s průměrem. Je vhodný obrázek.

Průměr jako nevychýlený odhad (nepovinné)
Doposud jsme se zajímali o popisné vlastnosti výběru jako míry polohy. Nyní trochu odbočíme a ukážeme si vlastnost výběru, která nás opravňuje používat jej jako odhad průměru v celé populaci, když k dispozici je jen výběr. Snadno si představíme případ, kdy se populace skládá z velkého počtu prvků a nelze změřit hodnoty u všech prvků populace, abychom stanovili jejich průměr, neboli populační průměr. Statistika doporučuje, abychom provedli náhodný výběr. Z tohoto výběru pak stanovíme výběrový průměr a pomocí tohoto výběrového průměru odhadneme populační průměr. Říká se, že výběrový průměr je odhadem populačního průměru. Přesný populační průměr se nikdy nedovíme, to je pro nás jakási teoretická hodnota, kterou se snažíme odhadnout pomocí výběrového průměru, protože víme, že tento výběrový průměr bude přibližně roven populačnímu. Populační průměr přesně neznáme, máme jeho odhad. Co to ale znamená a proč si máme myslet, že výběrový průměr bude přibližně roven populačnímu? Není to jen proto, že nám nic jiného nezbývá. Chceme také vědět v jakém smyslu přibližně a co nás k tomu opravňuje. Začít se dá příkladem. Populace se skládá ze 4 prvků nabývajících hodnot 1, 3, 5, 6. Populační průměr je `\mu =(1+3+5+6) / 4=3,75`. Provádíme výběry bez vracení, neboli bez opakování, aby počítání bylo co nejjednodušší a počet výběrů malý. Jako velikost výběru volíme 3.


výběr výběrový průměr
1 3 5 (1+3+5)/3=3
1 3 6 (1+3+6)/3=3,333
1 5 6 (1+5+6)/3=4
3 5 6 (3+5+6)/3=4,667

Ke každému výběru byl výběrový průměr zapsán do pravého sloupce, čili pro celkem čtyři výběry máme čtyři výběrové průměry. Vypočítáme nyní průměr těchto průměrů `(3+3,333+4+4,667)/4=3,75`. Je důležité si všimnout, že je přesně roven populačnímu průměru. Tento jev je to, co nás opravňuje odhadovat populační průměr pomocí výběrového průměru. Jestliže se zajímáme o průměrnou velikost erytrocytu pacienta, nelze změřit všechny jeho erytrocyty. Provedeme výběr. I když ani celkový počet erytrocytů pacienta neznáme, jejich populační průměr neznáme, použijeme výběrový průměr a jím odhadneme populační průměr. Jsme k tomu oprávněni, protože průměr všech výběrových průměrů je roven populačnímu. Tato důležitá vlastnost se nazývá nevychýlenost odhadu. V následujícím se ji pokusíme ukázat pro libovolnou velikost populace i výběru. V našem příkladě průměr z průměrů je možné vypočítat jako

`((1+3+5)/3+(1+3+6)/3+(1+5+6)/3 +(3+5+6)/3)/4= (1+3+5+1+3+6+1+5+6+3+5+6)/(3\times 4)`.

Důležité také je, že se číslo 1 opakuje třikrát a všechna další čísla také třikrát a je možné součet v závorce psát jako `(1\times 3+3\times 3+5\times 3+6\times 3)/(3\times 4))= 3\times (1+3+5+6)/(3\times 4)=(1+3+5+6)/4=3.75`, což je populační průměr, jenže počítaný z výběrů trochu jinak. Na tomto příkladě bylo ukázáno, co můžeme očekávat obecně. Bylo by naivní si myslet, že někdo bude vytvářet velká množství náhodných výběrů, aby zjistil, že tento jev funguje i pro větší výběry. U velkých populací si můžeme jen představovat všechny možné výběry. Příklad byl zvolen proto, aby byl předem naznačen přístup, který umožňuje odvodit základní vlastnost výběrového průměru.

Nepovinná část. Pokusíme se tento jev zobecnit na libovolnou velikost populace `n_P>1` a libovolnou velikost výběru `n`, kde `0< n < n_P`. Jednotlivé prvky populace označme `y_1`, `y_2`, `\ldots` , `y_{n_P}`. Při výběru bez vracení je celkový počet výběrů `n_V` roven `n_V={{n_P}\choose {n}}`. Jak je vidět na příkladě, každý prvek populace se vyskytuje ve stejném počtu výběrů. Obecně můžeme uvažovat tak, že si zvolíme libovolný prvek populace, tím v populaci zbývá jen `n_P-1` prvků a do výběru je třeba přidat jen `n-1` prvků. Ty vybíráme opět bez opakování a počet způsobů jakými je to možné provést je roven `{{n_P-1}\choose {n-1}}`. Označme `\bar x_1`, `\bar x_2`, `\ldots` , `\bar x_{n_V}` výběrové průměry, které jsou vypočtené z jednotlivých výběrů. Jejich počet je `n_V`. K označení hodnot z výběrů použijeme dvojité indexování, `x_{ji}` značí `i`-tou hodnotu v `j`-tém výběru. Výběry je možné si představit jako
`x_{11}`,`\: x_{12}`, `\ldots x_{1n}`
`x_{21},x_{22}, \ldots x_{2n}`
`\ldots \ldots`
`x_{n_V1}, x_{n_V2}`, `\ldots x_{n_Vn}`.
Je jich celkem `n_V`, na prvním řádku je první výběr, na druhém řádku je druhý výběr a tak by to pokračovalo až do `n_V`-tého řádku. Ke každému řádku si představíme výběrový průměr `\bar x_j` a naším úkolem je nyní výpočítat průměr ze všech těchto výběrových průměrů, což je

`(1/n_V)(\sum_{j=1}^{n_V} \bar x_j)= (1/n_V)\sum_{j=1}^{n_V} (1/n)\sum_{i=1}^{n}x_{ji}`.

Je možné vytknout (1/n) a dostaneme vzorec

`(1/(n_Vn))\sum_{j=1}^{n_V} \sum_{i=1}^{n}x_{ji}`,

Víme ale, že každá hodnota z populace se vyskytuje ve výběrech stejně krát, je tedy možné psát tento výraz jako

`(1/(n_Vn))\sum_{K=1}^{n_P}y_K {{n_P-1}\choose {n-1}}= (\sum_{K=1}^{n_P}y_K){{n_P-1}\choose {n-1}}/(n_Vn)`.

Nyní je třeba ukázat, čemu se rovná

`{{n_P-1}\choose {n-1}}/(n_Vn)= \frac{{{n_P-1}\choose {n-1}}}{n{{n_P}\choose {n}}}= \frac{(n_P-1)!n!(n_P-n)!}{n(n-1)!(n_P-1-n+1)!n_P!}= \frac{(n_P-1)!n!(n_P-n)!}{n!(n_P-n)!n_P!}= \frac{(n_P-1)!}{n_P!}= \frac{1}{n_P}`

Tím je důkaz téměř proveden. Nepočítá ale s tím, že by mohla některá čísla v populaci stejná. Pak by neplatilo, že se jich nachází ve výběrech stejný počet. To se dá ale velmi snadno odstranit tak, že u každého čísla si jako index poznamenáme, z kterého měření pochází, pak je počet výběrů daný prvky obsahujících stejný a všechno pokračuje tak, jak je naznačeno. Co víme je to, že výběrové průměry dávají v průměru populační průměr. To je důležitý pojem a ve statistice se mu říká nevychýlený odhad. O přesnosti zase moc nevíme a abychom ji mohli posoudit, museli bychom znát směrodatnou odchylku výběrových průměrů pro všechny výběry. To zase nejde, protože bychom museli vytvořit všechny výběry. Je možné provést výpočet pro jednoduchý příklad jako v naše případě, ale to je zase jen ilustrace a nic víc. Na ilustračním příkladě si můžeme snadno vypočítat pravděpodobnost, že výběrový průměr je přesně roven populačnímu. Výpočet se provede tak, že se zkontroluje, že výběrový průměr není roven populačnímu ani v jednom případě, že je tedy hledaná pravděpodobnost rovna nule. Obecně může být nenulová, avšak bude velmi malá. Jenže o to tu vůbec nejde, protože s tím, že se přesně nikdy hodnotu populačního průměru nedozvíme, se musíme smířit. Jde o to, že výběrový průměr je dobrým odhadem, někdy je větší než populační průměr, někdy menší, v průměru je mu ale roven.


Definice a vlastnosti mediánu


Pořádkové charakteristiky
Když máme k dispozici N čísel x1, x2,…, xN, můžeme na ně získat lepší pohled, když je setřídíme podle velikosti vzestupně. Získáme množinu stejných čísel, jen v jiném pořadí. Tato čísla označujeme x(1), x(2),…, x(N) a nazýváme je pořádkové statistiky nebo pořádkové charakteristiky. Indexy v závorkách označují pořadí. Například nejmenším číslem je x(1) (vhodné čtení je x první - na rozdíl od x1, což čteme x jedna), druhé nejmenší číslo je x(2), největší číslo je x(N), druhé největší je x(N-1).


Medián
Medián je prostřední hodnota z čísel uspořádaných podle velikosti. Medián je uprostřed v tom smyslu, že zbývající čísla je možné rozdělit na dvě skupiny o stejném počtu prvků, z nichž čísla z první skupiny jsou menší nebo rovna mediánu a čísla z druhé skupiny jsou větší nebo rovna mediánu.
Přesnou definici je třeba udělat zvlášť pro lichý a zvlášť pro sudý počet hodnot. Formálně vypadají definice takto:
Je-li N > 1 liché, je mediánem hodnota x((N+1)/2).
Je-li N sudé, je mediánem hodnota (x(N/2) + x(N/2+1) )/2

Tyto vzorce se těžko pamatují, ale dají se snadno odvodit pro malá N. Začneme s N = 3 a hned vidíme, že prostřední hodnota je ta druhá podle velikosti. To dostaneme následujícím způsobem: (3+1)/2 = 4/2 = 2. Tímto způsobem je možné si odvodit či zkontrolovat vzorec. Pro N sudé zkusíme N = 4. Jenže pro sudý počet můžeme rozdělit hodnoty podle velikosti přesně na dva stejné díly o N/2 prvcích. Pro výpočet mediánu vezmeme dvě prostřední hodnoty a tím dostáváme interval

< x(N/2) ; x(N/2+1) >.

Jako medián volíme střed tohoto intervalu. Tímto středem je průměr krajních hodnot, tedy číslo

(x(N/2) + x(N/2+1))/2.
Pro N = 4 máme po setřídění x(1), x(2), x(3), x(4). Interval uprostřed je tvořen druhou a třetí hodnotou, tedy prvky x(2) a x(3). Tyto prvky můžeme zapsat jako x(4/2) a x(4/2+1). Střed intervalu pak je průměr (x(2) + x(3) )/2.

Uveďme si nyní dva konkrétní příklady:
Příklad 1:
Nejprve zvolíme lichý počet čísel N = 7.
Máme určit medián pro čísla 7,2; 7,0; 7,4; 7,1; 7,8; 7,2; 7,3. Nejprve je uspořádáme podle velikosti vzestupně 7,0; 7,1; 7,2; 7,2; 7,3; 7,4; 7,8. Vypočteme (N+1)/2 = (7+1)/2 = 4, což dává index pro pořádkovou charakteristiku x(4) = 7,2.

Příklad 2:
Nyní volíme sudý počet čísel N=8 9,2; 9,8; 9,9; 8,3; 8,8; 8,1; 9,7; 9,0 a máme určit medián. Po uspořádání dostaneme 8,1; 8,3; 8,8; 9,0; 9,2; 9,7; 9,8; 9,9. Vidíme, že čísla uprostřed jsou dvě: 9,0 a 9,2. Podle vzorce x(N/2) =9,0 a x(N/2+1)=9,2

Tato čísla tvoří interval < 9,0; 9,2 >, jehož středem je číslo 9,1.

Podle vzorce je (x(N/2) + x(N/2+1))/2=(9,0+9,1)/2=9,1
Pro pochopení definice je dobré si jako cvičení zkontrolovat, že medián skutečně rozděluje zadané hodnoty na dvě stejně velké skupiny, které mají požadované vlastnosti.


Metody výpočtu mediánu
Jako první se nabízí postup, při kterém nejdříve setřídíme hodnoty podle velikosti vzestupně a pak snadno vybereme jednu nebo dvě prostřední podle toho, zda jde o sudý nebo lichý počet čísel. Tak to jde lehce na počítači, ale ručně bez obtíží setřídíme jen malý počet čísel, pro velký počet není tento postup příliš vhodný. Obvykle za nás medián počítá počítač, tudíž ruční třídění je vhodné jen pro procvičení.
Způsobů třídění je mnoho. Takovým jednoduchým způsobem může být vybrání té nejmenší hodnoty z řady čísel, její označení třeba podtržením a opsání na jiný řádek. Poslední zbývající hodnota je ta největší. Pro kontrolu je vždy dobré zkontrolovat počty čísel původních a setříděných.

Po setřídění vybereme jednu, případně dvě prostřední hodnoty podle toho, zda máme sudý nebo lichý počet hodnot.

Na jakémkoliv příkladě je možné si ověřit, že prostřední hodnoty jsou stejné, když odstraníme nejmenší a největší hodnotu, tedy "okrajový" pár. Toho je možné využít k výpočtu tak, že najdeme číslo nejmenší a číslo největší, odstraníme je a pokračujeme v tom tak dlouho až zbude jen jedno případně dvě čísla, která jsou zřejmě ta prostřední a to jsou pravě čísla potřebná k výpočtu mediánu.


Vlastnosti mediánu
Je zřejmé, že medián je rovněž mírou polohy, avšak v jiném smyslu než průměr. Pro označení mediánu se obvykle používá vlnovka neboli tilda.
Je-li dáno N čísel x1, x2,…, xN a ke každému je přičtena stejná konstanta a, takže yi = xi + a , pak platí `\tilde y = \tilde x` + a.
Je to proto, že i pro setříděné hodnoty y(1), y(2),…, y(N) platí, že y(i)=x(i)+a

Přičtením konstanty se totiž pořadí nezmění.
Dále pro liché N platí y((N+1)/2) = x((N+1)/2) + a
Pro sudé N je vysvětlení stejné.

Podobně se ukáže, jak se medián změní vynásobením hodnot nějakou konstantou. Jestliže je konstanta b kladná, pořadí se po vynásobení nezmění, čili když yi = bxi , platí také y(i)=bx(i)

Pak je jasné, že pro liché N platí y((N+1)/2) = bx((N+1)/2). Obdobně se tato vlastnost ukáže pro N sudé. Pokud je ale b záporné, je po setřídění pořadí opačné. Tedy pro b< 0 a platí: y(i)=bx(N-i+1), což není nic jiného než zápis opačného pořadí. Jenže také při opačném pořadí jsou prostřední hodnoty zase prostřední a tudíž medián je stejný. Formálně platí pro liché N, že y((N+1)/2) = bx((N+1)/2), protože y((N+1)/2) = bx(N-(N+1)/2+1) =bx((2N-N-1+2)/2) =bx((N+1)/2). Dá se to říci i tak, že u mediánu nezáleží na tom, jestli jsou čísla tříděna podle velikosti vzestupně nebo sestupně. Jinak tomu může být samozřejmě u jiných charakteristik založených na pořádkových charakteristikách.

Podobně jako u průměru, můžeme i u mediánu zjistit, že při y(i)=bx(i)+a platí `\tilde y` = b `\tilde x` + a.. Medián má tedy, jako míra polohy, tuto důležitou vlastnost.


Odlehlé hodnoty
Stává se, že se do souboru dostanou čísla, která se od ostatních nápadně liší. Někdy na první pohled vidíme, že jsou příliš velká nebo příliš malá. Důvodů k tomu, že vyjdou taková čísla může být víc.

Jedním z nich je překlep. Chci třeba zapsat na počítači výšku člověka 174 cm a omylem zapíši 17 cm nebo jindy 1174 cm. Chyba se může vloudit i selháním měřícího zařízení. Častým důvodem je i nehomogenita a špatná definice populace. Neřekne-li se jasně, že se jedná o populaci dospělých jedinců, může se vloudit i dítě s výškou 74 cm. Všeobecně platí, že se nesmí vyhodit hodnoty, které se experimentátorovi nelíbí. Pokud najdeme nějakou netypickou hodnotu, musíme nejprve zjistit, jak se do zkoumání dostala. Překlep se jednoduše opraví, ale někdy jsou důvody výskytu odlehlých hodnot složitější, například zmíněná definice populace. Hodnota se může vyhodit, až když víme, kde se stala chyba.

Medián má ve srovnání s průměrem tu výhodu, že není tak citlivý na výskyt odlehlých hodnot. Představme si, že medián vypočítáváme tak, že postupně odstraňujeme páry nejmenších a největších hodnot. Pokud se vyskytne číslo, které je podstatně větší než ostatní čísla, je odstraněno jako první a dále už ztrácí vliv. V případě, že se jedná o příliš velkou odlehlou hodnotu, mohly nastat dvě situace. Správná hodnota, místo které vznikla ta odlehlá, by byla větší než medián, to znamená, že by byla odstraněna později, čili na velikost mediánu nemá chyba žádný vliv. Kdyby správná hodnota, místo které vznikla ta odlehlá, by byla menší než medián, ale chybou se stává největší, odstraníme ji jako hodnotu větší než medián, tím se ale pozice prostřední hodnoty mění a jako medián můžeme chybně dostat hodnotu vyšší.

Když tyto úvahy shrneme, získáme představu, že jednou chybou se medián podstatně nemění. To je důležitá vlastnost mediánu. Průměr tuto přednost nemá - můžeme se o tom přesvědčit na příkladech.


Modus a problémy s ním spojené

Modus je nejčetnější hodnota.

Je-li dáno intervalové rozdělení četností, vypočítá se modus jako střed intervalu, ve kterém je nejvyšší četnost. Mějme 49 hodnot systolického krevního tlaku (v mm Hg):

120; 121; 123; 134; 128; 137; 114; 126; 141; 127;
119; 120; 122; 133; 136; 127; 125; 113; 126; 140;
121; 122; 124; 135; 129; 138; 115; 127; 142; 128;
129; 143; 129; 117; 139; 131; 137; 126; 124; 123;
132; 119; 112; 114; 149; 133; 111; 122; 144.


Rozdělme hodnoty do intervalů o šířce 5 mm Hg:

Interval Absolutní četnosti Relativní četnosti
110-114,9 5 0,102
115-119,9 4 0,082
120-124,9 11 0,224
125-129,9 12 0,245
130-134,9 5 0,102
135-139,9 6 0,122
140-144,9 5 0,102
145-149,9 1 0,020
Celkem 49 0,999

V našem příkladě je MODUS při rozdělení do intervalů o šířce pět roven číslu (125+130)/2 = 255/2 = 127,5.

Připomeňme si, že horní mez intervalu je 129,9 jen proto, aby se naznačilo, že interval je uzavřený zleva a otevřený zprava, tedy < 125;130). Při rozdělení do intervalů o délce deset vypočítáme modus jako (120+130)/2 = 250/2 = 125. Již tento jednoduchý příklad ukazuje, že, i když modus by byl velmi užitečný pro popis dat, je jeho uplatnění omezené. Jeho výpočet závisí na intervalech, které se použijí pro intervalové rozdělení četností. Modus tedy není definován jednoznačně. To ale není ta hlavní těžkost, kterou modus představuje.

Hlavní problém spočívá v tom, že v intervalovém rozdělení četností nemusí být jediné maximum. Které maximum pak pro definici zvolíme, je nejasné. Pokud je maximum jediné, jedná se o data unimodální, pokud jsou maxima dvě, říkáme datům bimodální a jediný MODUS tudíž není definován. Dodejme, že maximum se chápe jako maximum vzhledem k sousedním intervalům, proto zvané lokální maximum. Ta jsou v našem příkladě dokonce tři: 110-114,9; 125-129,9; 135-139,9. Z nich jsme vybrali to největší.

Bimodalita dat často odhaluje skutečnost, že došlo ke smíchání dvou populací unimodálních. To bývá nežádoucí, protože velikosti výběrů z těchto populací jsou často určeny experimentátorem a výsledky pokusů pak mohou odrážet jen to, jakým způsobem si experimentátor velikosti výběrů volil.

Objasnění pojmu modu souvisí s pojmem spojité náhodné veličiny a při definici modu je třeba z toho vycházet. Je velikou chybou považovat hodnotu, která se díky zaokrouhlení opakuje víc než jiná, za četnější a prohlásit ji za modus. V původních datech, která se skládala ze 49 čísel, se nejčastěji opakovalo číslo 137. To ale neznamená, že jej prohlásíme za modus. Modus je třeba spíš vyčíst z relativních četností, případně z histogramu. Opakování jednotlivých hodnot se u kvantitativních dat přičítá zaokrouhlování a tento jev se nebere při výpočtu modu v úvahu. Kdyby k zaokrouhlování nedošlo a bylo by možné měřit naprosto přesně, opakované hodnoty by nevznikly.


Kvantily

Obdoba mediánu
Při definici mediánu můžeme říci, že chceme, aby počet hodnot pod mediánem byl stejný jako počet hodnot nad mediánem. Zhruba řečeno polovina pod a polovina nad a definice se upřesní pro N sudé a pro N liché.


Kvartily
Když chceme, aby byla čtvrtina hodnot pod a tři čtvrtiny nad, hovoříme o prvním kvartilu, druhý kvartil je pak medián a třetí kvartil znamená tři čtvrtiny pod a čtvrtina nad. Kvartily jsou tři a rozdělují hodnoty na čtyři části.


Decily
Chceme-li hodnoty rozdělit na deset částí, použijeme decily.
Obecně se užívá pojem kvantily, poměr dělení může být libovolný, často se ale také mluví o percentilech, a to když se dělení udává v procentech.

K přesnější definici kvantilů užijeme obdobný postup jako pro medián. Když máme k dispozici N čísel a máme vypočítat medián, zjistíme nejprve, zda N je sudé nebo liché. To hodnotíme podle toho, zda N/2 je číslo celé nebo ne.

V případě kvantilu stejným způsobem vypočteme Np, kde p je předpokládaný podíl hodnot před kvantilem. Pro medián by bylo p=1/2, pro první kvartil by bylo p=1/4, pro třetí kvartil p=3/4, pro čtvrtý decil p=4/10.

V případě percentilů se jen přizpůsobíme procentům, takže pro K-procentní percentil je vzorec NK/100. Pokud vyjde číslo celé, postupujeme jako u mediánu tak, že vezmeme střed intervalu.


Analogie mediánu
Pamatuje se to snadno jednak jako analogie mediánu, jednak tak, že si vzorec vyzkoušíme na čtyřech číslech, stejně jako u mediánu. Střed intervalu se pak vypočte jako průměr krajních hodnot intervalu. Jestliže Np není celé číslo, zaokrouhlí se na celé číslo nahoru, což se obvykle značí H=`\lceil Np \rceil`, a jako kvantil se bere hodnota x(H) . (Toto označení pro zaokrouhlení na celé číslo nahoru se snadno pamatuje, protože připomíná strop. Naopak zaokrouhlení nějakého čísla na celé číslo dolů by se značilo jako podlaha).

Je dobré si všimnout, že postup výpočtu je obdobný jako u mediánu.

Můžeme si zkontrolovat předchozí vzorec pro medián proti vzorci používanému pro kvantily. Pro jednoduchost předpokládejme, že N je liché. Pak medián je číslo x((N+1)/2) . Když N je liché, není N/2 celočíselné a pro výpočet kvantilu musíme zaokrouhlit na celé číslo nahoru. To se provede přičtením poloviny: N/2+1/2, což je rovno (N+1)/2, tedy totéž jako původní vzorec pro medián. Podobně je možné zkontrolovat vzorec pro medián pro sudé N.


Výpočet kvantilů
Pro výpočet je nejvýhodnější čísla setřídit vzestupně podle velikosti, případně k nim připsat pořadí.

Zkusíme dva příklady:

Příklad 1: Nejprve zvolíme lichý počet N = 7 a máme určit kvartily pro čísla 7,2; 7,0; 7,4; 7,1; 7,8; 7,2; 7,3. Nejprve je uspořádáme podle velikosti vzestupně 7,0; 7,1; 7,2; 7,2; 7,3; 7,4; 7,8.

Chceme vypočítat první kvartil K1 (= P25).

N(1/4) = 7/4 = 1,75, což po zaokrouhlení nahoru je 2. Takže K1 = x(2) = 7,1.

Druhý kvartil je totéž jako medián či 50. percentil. N(2/4) = 7(2/4) = 3,5 po zaokrouhlení nahoru 4. Výsledek je: K2 = x(4) = 7,2.

Pro třetí kvartil K3 vypočteme N(3/4) = 7(3/4) = 5,25 po zaokrouhlení nahoru 6. Výsledek je K3 = x(6) = 7,4.

Příklad 2: Nyní volíme sudý počet N = 8 čísel 9,2; 9,8; 9,9; 8,3 8,8; 8,1; 9,7; 9,0. Po uspořádání dostaneme 8,1; 8,3; 8,8; 9,0; 9,2; 9,7; 9,8; 9,9.

Vypočítáme K1 jako první kvartil. N(1/4) = 8/4 = 2, což je celé číslo. Vypočteme střed intervalu (x(2); x(3))=(8,3; 8,8), takže K1 = (8,3 + 8,8)/2 = 8,55.

Druhý kvartil K2 je totéž jako medián. N(2/4) = 8(2/4) = 4. Střed intervalu je K2 = 9,1.

Pro třetí kvartil K3 vypočteme N(3/4) = 8(3/4) = 6. Střed intervalu pak bude K3 = 9,75.


Jiné postupy pro výpočet kvantilů
Tato poznámka je zde jen proto, že některé programy počítají kvantily odlišným způsobem a dávají jiné výsledky. Zde uvedený postup byl zvolen hlavně kvůli analogii s mediánem. Existují i jiné postupy, ty jsou ale trochu komplikovanější pro výpočet a tudíž nevhodné pro ruční počítání. Počítače snadno mohou použít i složitější metody a výsledek může být trochu odlišný od výsledku získaného výše popsanou metodou. Nejčastěji se asi používá lineární interpolace, kterou se zde nebudeme zabývat, protože numericky je rozdíl nepodstatný.


Míry polohy z hlediska použití

Nejčastěji používanou mírou polohy je průměr. Nejdůležitější vlastností průměru je jeho nevychýlenost, čili že průměr všech možných výběrových průměrů, počítaný přes všechny výběry dané velikosti, je roven populačnímu průměru.

Z definice průměru plynou i vlastnosti použitelné při počítání celkových součtů. Uvedeme jen jednoduchý příklad. Máme 20 pytlů brambor. Zvážíme každý zvlášť a vypočítáme jejich průměrnou hmotnost 24,9 kg. Součet hmotností jsme dělili počtem pytlů. Jestliže vynásobíme průměrnou hmotnost počtem pytlů, dostaneme celkovou hmotnost dvaceti pytlů. Tuto úvahu můžeme zobecnit tak, že při velké populaci provedeme výběr, vypočítáme výběrový průměr jako nevychýlený odhad populačního průměru, ten pak vynásobíme velikostí populace a máme nevychýlený odhad součtu za celou populaci.To je vlastnost, kterou medián nemá.

Na druhé straně, jestliže robustnost je požadovanou vlastností, použijeme jistě raději medián. Rovněž v případě, kdy potřebujeme rozdělit populaci na dvě co do počtu stejně velké části, je vhodnou charakteristikou medián jako odhad populačního mediánu.

Někdy se opravdu diskutuje o tom, která charakteristika je vhodnější. Na to není jednoznačná odpověď, protože záleží na tom, k čemu takovou charakteristiku chceme použít.

I když se modus jako nejčetnější hodnota zdá být užitečnou charakteristikou, není tomu tak. Hlavním důvodem je to, že modus není dobře definován, to znamená, že jsou případy, kdy jej definovat nemůžeme, což je například u dat bimodálních. Ani histogram není definován jednoznačně, když si uživatel volí dělící body podle svého vkusu. Takže ani v tomto smyslu není definice modu jednoznačná.



Blok 0101 - Základní pojmy statistiky - Příklady

(Pro zobrazení odpovědi klikni na otázku.)

1) Hodnoty tepové frekvence ve vzorku 10 osob byly: 70, 65, 87, 90, 73, 80, 88, 64, 91, 72 tepů/min. Zjistěte medián a aritmetický průměr.

2) Výška chlapců z volebalového oddílu je 192, 189,193, 180, 190, 194 cm. Posuďte co se stane s mediánem tohoto souboru, přidáme-li ještě výšku náhradníka.

3) Velikost erytrocytů ve vzorku je dána tabulkou četností.
velikost v mikrometrech četnost
6,7 5
6,9 12
7,1 15
7,3 13
7,5 5

Určete medián, 3. kvartil a 25. percentil.


4) U 15 pacientů byly změřeny hladiny cholesterolu v krvi 5; 7; 6; 5; 8; 6; 6; 4; 10; 5; 11; 6; 4; 6; 7. Vypočtěte průměr, medián, modus, 1. a 3. kvartil a 1.a 9. decil.

5) Byla měřena délka chodidel mužů v HK. Byly zjištěny tyto charakteristiky polohy:
aritmetický průměr = 29,3 cm
medián = 29,5 cm
modus = 29,0 cm
EU číslování obuvi je v tabulce
číslování délka v cm
44 28,5
44,5 29
45 29,5
45,5 30,0

Posuďte tato tvrzení o prodeji obuvi v HK:
1. Nejčastěji prodávaná velikost je 44,5.
2. 50 % mužů má velikost větší nebo rovnu 45,0.
3. 50 % mužů má velikost 44,5.


Kontrolní otázky: