Popisná statistika

Rozdělení četností

  1. Absolutní a relativní četnosti
  2. Základní vlastnosti relativních četností

Absolutní a relativní četnosti

Jak získat souhrnné informace o souboru čísel
Co kdybychom se ta čísla naučili nazpaměť? Pomohlo by to? Jistě ne. Bude tedy nutné hledat jiný způsob, jak se na čísla dívat a jak z nich získávat souhrnné informace. Tento problém za nás vyřeší popisná čili deskriptivní statistika. Ta se zabývá tím, jaké souhrnné ukazatelé jsou vhodné k jakým účelům a umožní nám tyto ukazatele vypočítat.
Popisná statistika se učí v prvním semestru a obvykle nevyžaduje žádnou znalost počtu pravděpodobnosti. To neznamená, že její vypovídací schopnosti jsou tím sníženy. Právě naopak, jednoduchost je přednost. Je samozřejmě dobré vědět něco o počtu pravděpodobnosti, protože to dá jiný přístup k věci a popisná statistika musí tento přístup respektovat.


Shrnutí do tříd
Pokud musíme zpracovat velké množství hodnot, bývá vhodné třídit tyto hodnoty do intervalů. Tím se počet čísel redukuje na počet intervalů a četností. Navíc je možné i grafické zpracování. Představme si 49 hodnot systolického krevního tlaku:
120; 121; 123; 134; 128; 137; 114; 126; 141; 127;
119; 120; 122; 133; 136; 127; 125; 113; 126; 140;
121; 122; 124; 135; 129; 138; 115; 127; 142; 128;
129; 143; 129; 117; 139; 131; 137; 126; 124; 123;
132; 119; 112; 114; 149; 133; 111; 122; 144.

Nemusíme je třídit, ale postupně pro každou hodnotu uděláme čárku vedle intervalu, do kterého padne. Vezmeme například první hodnotu 120 a uděláme čárku u intervalu 120-124,9. Po probrání všech hodnot vyjde:
110-114,9 /////
115-119,9 ////
120-124,9 ///////////
125-129,9 ////////////
130-134,9 /////
135-139,9 //////
140-144,9 /////
145-149,9 /

Bude přehlednější, když místo čárek uvedeme počty hodnot v jednotlivých intervalech. Tyto počty se nazývají absolutní četnosti. Součet absolutních četností v jednotlivých intervalech musí dát celkový počet hodnot. Vydělíme-li absolutní četnosti celkovým počtem hodnot, dostaneme relativní četnosti.

Interval Absolutní četnosti Relativní četnosti
110-114,9 5 0,102
115-119,9 4 0,082
120-124,9 11 0,224
125-129,9 12 0,245
130-134,9 5 0,102
135-139,9 6 0,122
140-144,9 5 0,102
145-149,9 1 0,020
Celkem 49 0,999

Při ručním výpočtu je dobré si dělat průběžné kontroly. Počet všech hodnot musí být roven součtu všech absolutních četností. Protože relativní četnosti jsou definovány jako podíl absolutních četností a celkového počtu hodnot, musí být součet relativních četností roven jedné. To by platilo, kdyby nedošlo k žádnému zaokrouhlení. Jelikož zaokrouhlujeme na tři desetinná místa, numerický výsledek, který při počítání dostaneme, nemusí být vždy přesně roven jedné. Zapisuje se skutečně vypočtený součet.


Absolutní a relativní četnosti
Hlavní výhodou relativních četností při porovnání s absolutními četnostmi je jejich nezávislost na celkovém počtu pozorování. To je třeba chápat v tom smyslu, že při zvýšení počtu pozorování například dvakrát budeme očekávat, že absolutní četnosti se zvýší zhruba dvakrát, zatímco relativní četnosti zůstávají zhruba stejné. Absolutní četnosti nás tedy zajímají v případě, že nás zajímá početní zastoupení nějakého znaku ve výběru, nikoliv když chceme poznat populaci.
Závislost absolutních četností na celkovém počtu hodnot znemožňuje porovnání dvou výběrů o nestejných velikostech. Při použití relativních četností na velikostech porovnávaných výběrů nezáleží. Relativní četnosti jsou někdy udávány v procentech, což někdy zlepšuje čitelnost, ale je to prakticky totéž.
Použití absolutních a relativních četností není omezeno jen na data kvantitativní, je možné je použít i na data kategorická ordinální a kategorická nominální.


Kumulativní četnosti
Někdy nás zajímá kolik hodnot je menších než zadané číslo. Tím se dostáváme k pojmu kumulativní četnost. V případě absolutních četností je to přímo počet takových hodnot. Přímo z definice je výpočet velmi názorný, protože jednoduše porovnáme každou hodnotu se zadaným číslem.
Jestliže máme k dispozici hodnoty setříděné podle velikosti vzestupně, pak počet hodnot menších než nějaké číslo je roven pořadí té nejvyšší hodnoty, která je ještě menší než zadané číslo. V případě relativních četností je nutno absolutní kumulativní četnost vydělit celkovým počtem hodnot. Pokud již máme k dispozici intervalové četnosti a zadané číslo, pak přímo z definice vidíme, že kumulativní absolutní četnost získáme jako součet absolutních četností v intervalu s horní mezí menší nebo rovnou zadanému číslu a ve všech intervalech s mezemi menšími než zadané číslo.

Prakticky se výpočet provádí z tabulky absolutních četností tak, že se postupně sčítají kumulativní absolutní četnosti pro číslo rovné horní mezi intervalu a absolutní četnosti v dalším intervalu. Součet dává kumulativní absolutní četnost pro číslo rovné horní mezi dalšího intervalu. Nejlépe je to vidět na příkladě. Začneme intervalem 105 - 109,9, který ani není vyznačen a absolutní četnost je v něm rovna nule a také kumulativní absolutní četnost pro číslo 109,9, což je totéž jako pro 110, je rovna nule. Další interval je 110 - 114,9, ve kterém je absolutní četnost rovna 5. Kumulativní absolutní četnost pro číslo 114,9 i pro 115 je rovna součtu kumulativní absolutní četnosti pro číslo 110 a absolutní četnosti intervalu 110 - 114,9. Tento součet dává počet hodnot menších než číslo 114,9 či 115. Takto můžeme postupovat v tabulce směrem dolů a postupně získávat kumulativní absolutní četnosti, které zapisujeme do příslušných řádků. Bereme tedy kumulativní absolutní četnost předchozího řádku, přičteme k ní absolutní četnost dalšího řádku a výsledný součet zapíšeme do tohoto řádku.
Po vyplnění všech řádků kumulativními absolutními četnostmi vznikne neklesající posloupnost a je samozřejmé, že do posledního řádku musí přijít celkový počet hodnot, neboť všechny hodnoty jsou menší než horní mez posledního intervalu. Po každém výpočtu je vždy dobré toto zkontrolovat.

Interval Absolutní četnosti Relativní četnosti Kumulativní absolutní četnost Kumulativní relativní četnost
110-114,9 5 0,102 5 0,102
115-119,9 4 0,082 9 0,184
120-124,9 11 0,224 20 0,408
125-129,9 12 0,245 32 0,653
130-134,9 5 0,102 37 0,755
135-139,9 6 0,122 43 0,877
140-144,9 5 0,102 48 0,979
145-149,9 1 0,020 49 0,999
Celkem 49 0,999

Do prvního řádku jsme opsali číslo 5 ze sloupce absolutních četností. Do druhého řádku jsme zapsali součet kumulativní absolutní četnosti z prvního řádku a absolutní četnosti z druhého řádku. Takto pokračujeme. V posledním řádku musí tímto postupem vyjít celkový počet hodnot, který je ve sloupci absolutních četností v řádku Celkem. Pro kumulativní absolutní četnost se řádek Celkem nevyplní, protože to nedává smysl, spíš by to naznačovalo neporozumění definici.

Kumulativní relativní četnosti dostaneme tak, že kumulativní absolutní četnosti dělíme celkovým počtem hodnot. Z toho je jasné, že jsou vždy menší nebo rovny jedné a také to, že v posledním řádku bude jednička, protože v tomto řádku je ve sloupci kumulativních absolutních četností přesně celkový počet hodnot. V řádku Celkem se nic nevyplní, nedávalo by to smysl. Pro pochopení je dobré si uvědomit, že kumulativní relativní četnosti je možné vypočítat dvojím způsobem. Ten druhý spočívá v tom, že stejně jako z absolutních četností počítáme kumulativní absolutní četnosti, můžeme z relativních četností počítat kumulativní relativní četnosti. Výsledky se jistě mohou lišit jen o zaokrouhlovací chyby.


Typa dat a konstrukce intervalů
Absolutní i relativní četnosti je možné počítat nejen pro kvantitativní data, ale i pro data nominální a ordinální. Pro ordinální data má často i smysl počítat kumulativní četnosti. Aby se četnosti mohly sčítat, je nutno hlavně dodržet zásadu neslučitelnosti kategorií. Pokud by se kategorie překrývaly, byl by součet všech absolutních četností větší než celkový počet hodnot a součet relativních četností větší než jedna. To může komplikovat výpočty a je lépe se tomu vyhnout již v definici kategorií.


Znázornění plochami, histogram.
Někdy je vhodné četnosti znázornit graficky. To jde nejlépe provést tak, aby četnosti odpovídaly plochám. Jestliže volíme pro kvantitativní data intervaly stejné šířky, jsou plochy zároveň úměrné výšce sloupce. Takový graf se nazývá histogram.
Kdybychom použili různé délky intervalů, museli bychom výšku sloupce vypočítat tak, aby plochy byly úměrné četnostem. Není to tak těžké, ale je to zbytečná komplikace, graf je nejasný a také neobvyklý. Proto se takový postup nepoužívá.
Počet intervalů se volí obvykle pět. Je to proto, že větší počet intervalů mívá za následek to, že v intervalech jsou četnosti malé a graf není pěkný. Jestliže počty hodnot jsou velké je jistě možné volit i jemnější rozdělení do intervalů.
(Programy obvykle používají nějaký jednoduchý způsob návrhu intervalů. Je to proto, že může být několik hledisek a nedá se říci předem, který způsob dá lepší graf. Program tedy dá nějaký histogram pro základní představu a je pak na uživateli, aby si sám zadal šířku intervalu a dolní mez prvního intervalu.)


Výpočty z intervalových četností (nepovinné)
Základní zásadou je používat pro výpočty původních dat. Jakékoliv shrnutí do intervalů znamená ztrátu informací. Původní data ale nejsou vhodná pro představu o těchto datech a ani ne pro jejich prezentaci či publikaci. Přesto je dobré se o některých výpočtech využívajících intervalových četností zmínit.
V první řadě je možné použít intervalových četností pro výpočet kumulovaných četností i v případě, že se zadané číslo nerovná žádné z mezí intervalů. Výpočet se provede tak, že se zjistí, do kterého intervalu číslo padne a vypočítá se kumulativní četnost pro dolní i pro horní mez tohoto intervalu. Výpočet kumulativní četnosti pro dané číslo se pak nejjednodušeji provede pomocí lineární interpolace.

Příklad: Vypočítáme kumulativní relativní četnost pro číslo 128. Z již vypočítané tabulky intervalových četností víme, že pro číslo 125 je kumulativní relativní četnost 0,408 a pro 130 je 0,653. Těmito body proložíme přímku y = a + bx, dostaneme dvě rovnice: 0,408 = a +125b a 0,653 = a + 130b. Odečteme první od druhé a máme 0,245 = 5b, odtud b = 0,245/5 = 0,049. Dosadíme b do první z rovnic a dostáváme 0,408 = a + 0,049 ·125, což dá a = 0,408 - 0,049 ·125 = 0,408 - 6,125 = -5,717. Lineární funkce, která pro x = 125 dá
y = 0,408 a pro x =130 dá y = 0,653, má tvar y = -5,717 + 0,049 · x. V intervalu (125, 130) nám tato funkce pomůže při lineární interpolaci, takže pro x =128 dostaneme y = 0,555.

Porovnejme tento výsledek s tím, co bychom dostali z původních dat. Celkem je 49 hodnot a z nich 27 je menších než 128. Vypočteme 27/49 = 0,551. Ztráta přesnosti u kumulativní relativní četnosti vypočtené z intervalových četností se projevila až na třetím platném místě.

Pomocí lineární interpolace počítáme i kvantily. Například pro medián nejprve najdeme interval, ve kterém se bude nacházet, v našem příkladě je to interval (125, 130) a kumulativní relativní četnost je pro 125 rovna 0,408 a pro 130 rovna 0,653. Použijeme ale trochu obrácenou úvahu, hledáme y = a + b · x, kde y = 125 pro x = 0,408 a y =130 pro x = 0,653. Dostaneme dvě rovnice: 125 = a + b · 0,408 a 130 = a + b · 0,653. Odečteme první rovnici od druhé a máme 5 = b · 0,245, tedy b = 1/0,049. Dosadíme b do první rovnice, 125 = a + 0,408/0,049, pak máme a =125 - 0,408/0,049 = 116,67. V rovnici y = 116,67 + x/0,049 dosadíme za x číslo 0,5 pro medián, takže medián = 116,67 + 0,5/0,049 = 126,8. Medián vypočteme z původních dat jako prostřední hodnotu podle velikosti. Hodnoty nejprve uspořádáme podle velikosti, což dá
111; 112; 113; 114; 114; 115; 117; 119; 119; 120;
120; 121; 121; 122; 122; 122; 123; 123; 124; 124;
125; 126; 126; 126; 127; 127; 127; 128; 128; 129;
129; 129; 131; 132; 133; 133; 134; 135; 136; 137;
137; 138; 139; 140; 141; 142; 143; 144; 149;

Prostřední, neboli dvacátá pátá hodnota podle velikosti, je medián = 127. Rozdíl je až na čtvrtém platném místě.
Při výpočtu průměru z intervalových četností postupujeme tak, že vypočteme středy intervalů a původní hodnoty nahradíme těmito středy, přitom absolutní četnost nám říká, kolikrát se středy budou opakovat.
`\bar x = \sum\limits_{j = 1}^k {S_j (N_j /} N)`

Tím si odvodíme přibližný vzorec,
`\bar x = \left( {\sum\limits_{j = 1}^k {S_j N_j } } \right)/N`
kde j je číslo intervalu, k je počet intervalů, Sj jsou středy intervalů, Nj jsou absolutní četnosti a N je celkový počet hodnot. Vzorec můžeme zapsat i pomocí relativních četností, neboť Nj/N není nic jiného než relativní četnost.

Naši tabulku nejprve doplníme o středy intervalů, pak v dalším sloupci zapíšeme součiny středů a absolutních četností

Interval Absolutní četnosti Střed intervalu Součin
110-114,9 5 112,5 562,5
115-119,9 4 117,5 470,0
120-124,9 11 122,5 1347,5
125-129,9 12 127,5 1530,0
130-134,9 5 132,5 662,5
135-139,9 6 137,5 825,0
140-144,9 5 142,5 712,5
145-149,9 1 147,5 147,5
Celkem 49 6257,5

Odtud dostaneme průměr jako 6257,5/49 = 127,7
Průměr vypočítaný z původních dat je 127,5. Rozdíl je až na čtvrtém platném místě.
Je nutné zdůraznit, že k výpočtům se používají data původní. Použití intervalových četností má zde účel objasnění si základních pojmů. Praktické použití uvedených postupů se hodí jen v případě, že si chceme některé charakteristiky počítat pro data publikovaná ve formě intervalových četností. Někdy se to může hodit.


Základní vlastnosti relativních četností

S relativními četnostmi se nejdříve setkáváme ve statistice při studiu intervalových četností. Tam se jedná o popis souboru čísel, ale je vhodné se zajímat o širší souvislosti. Relativními četnostmi se můžeme zabývat i bez odkazu na intervaly, když zdůrazníme, že jsou vhodné pro popis kategorických dat. Nakonec přechod od původních hodnot k intervalům je jen přechod od kvantitativních dat ke kategorickým s k tomu patřící ztrátou informace, jak je třeba neustále zdůrazňovat.
Absolutní četnosti popisují, kolikrát se kategorie vyskytla bez vztahu k celku, zatímco relativní četnost naopak vztahuje četnost k celku. Tím se dostáváme k tomu, že nás nezajímá, kolikrát se kategorie vyskytla, ale spíš nám jde o to, jak často se kategorie vyskytla vzhledem k celkovému počtu výskytů v ostatních kategoriích.
Pro relativní četnost kategorie A použijeme označení P(A) a podle definice je P(A) = NA/N, kde NA je absolutní četnost kategorie A a N je celkový počet výskytů ve všech kategoriích.
Sjednocení C dvou kategorií A a B se označuje jako C = A U B. C nastane, když nastane A nebo B, což může znamenat jedna z nich nebo obě. Používá se i označení C = A nebo B a také C = A + B.
Kategorie je vhodné definovat tak, aby měly vhodné vlastnosti. Nejdůležitější je neslučitelnost kategorií. Dvě kategorie se nazývají neslučitelné, když nemohou nastat obě zároveň. Pro absolutní četnosti pak platí NC = NA + NB, protože buď nastane A nebo B, ale ne obě. Toto pravidlo o součtu se přenáší na relativní četnost, což se zapíše jako P(C) = P(A) + P(B). To plyne z toho, že P(C) = NC/N = (NA + NB)/N = NA/N + NB/N = P(A) + P(B). Toto je velmi důležitá vlastnost, nazývá se aditivnost.
Povšimněme si souvislosti s množinami. Ať hovoříme o populaci nebo o výběru, skládají se z nějakých prvků. Kategorie rozdělují nějak tyto prvky do množin. Jestliže tyto množiny jsou vždy disjunktní, je to totéž jako říci, že kategorie jsou neslučitelné. Je nutné zdůraznit, že musí být disjunktní vždy a že to znamená nejen pro jeden výběr, ale pro všechny možné výběry, aby se předešlo těžkostem.
Spojení dvou kategorií pak, v uvedeném smyslu, není nic jiného než sjednocení množin. Jestliže se navíc jedná o sjednocení C = A U B množin disjunktních, platí, že počet prvků ve sjednocení dvou množin je roven součtu počtů prvků v obou množinách. To není nic jiného než výrok o absolutních četnostech NC=NA+NB.
Pro ilustraci je vhodný příklad kategorie majitelů koček a kategorie majitelů psů. Nejsou neslučitelné, protože někteří lidé mají jak kočku, tak psa. Součet počtu majitelů koček a počtu majitelů psů nedá počet majitelů koček nebo psů. Nemůžeme tudíž použít pravidlo pro sčítání, protože tyto kategorie nejsou neslučitelné, což je velmi nepříjemné. Je žádoucí v takovém případě zavést další kategorii majitelů psů a koček zároveň, pak jsou kategorie disjunktní a můžeme relativní četnosti sčítat.
Dalším základním požadavkem je, aby kategorie byly vyčerpávající, to znamená, aby všechny možnosti byly zahrnuty. Tato vlastnost, pokud jsou kategorie zároveň neslučitelné, má ten závažný důsledek, že počet všech výskytů se musí rovnat součtu počtů výskytů v jednotlivých kategoriích. Z toho vidíme, že označíme-li kategorie A1, A2,…, AL a tyto kategorie jsou neslučitelné a vyčerpávající, pak pro absolutní četnosti platí:

`\sum\limits_{i=1}^L {N_{A_i}}=N`

Dělíme levou i pravou stranu N a dostaneme pro relativní četnosti:
`\sum\limits_{i=1}^L {P(A_i )=1}`

Na příkladě se psy a kočkami vidíme, že vyjmenované kategorie nejsou vyčerpávající a že musíme použít ještě další. Můžeme přidávat majitele dalších domácích zvířat a musíme též vytvořit kategorii pro lidi, kteří nejsou majiteli žádných domácích zvířat.
Záleží samozřejmě na definici populace, abychom mohli říci, zda kategorie jsou vyčerpávající. Někdy je účelné zavést kategorii ostatních. Například uvedeme majitele psů, majitele koček, majitele psů a koček, majitele ostatních domácích zvířat a ty, kteří nevlastní žádná domácí zvířata.
K základním vlastnostem si přidáme ještě to, že absolutní a tedy i relativní četnosti jsou nezáporné a tudíž musí být větší nebo rovny nule.
Pokud se budeme řídit těmito základními pravidly, můžeme s relativními četnostmi leccos počítat, aniž bychom znali, čeho se týkají. To je jistě podstatné zobecnění. V zobecňování můžeme jít i dále. Maximálně tak daleko, že nám je jedno, jak vůbec zkoumaná čísla vznikla, stačí, když mají vlastnosti stejné jako relativní četnosti. Tím se dostáváme k počtu pravděpodobnosti.
Počet pravděpodobnosti je svou podstatou teoretickým výpočtem relativních četností. Sám o sobě by počet pravděpodobnosti byl jen teorie, ale ve vztahu k relativním četnostem dává možnosti mnoha aplikací. Teoretický model je možné vybudovat na základě spekulativních základů. Ty ale musí odpovídat skutečnosti reálného světa tak, aby byly ve shodě s pozorovanými relativními četnostmi.
Tím, že jako základní pravidla pro počet pravděpodobnosti dáváme pravidla pro počítání s relativními četnostmi a jejich vztah k teorii jako základní myšlenku, tím také naznačujeme, že počet pravděpodobnosti se zabývá jevy hromadnými. Nikoliv tedy jevy, které se nemohou opakovat. I v případě jen několika experimentů jejich opakovatelnost spočívá spíš v možnosti opakování.
Naopak, pokud se něco přihodilo jen jednou, neměl by se počet pravděpodobnosti použít. Tím bychom ale zakázali všechny aplikace například v ekonomii, takže je třeba vzít v úvahu spíš opakování stejných podmínek. Pokud to nejde, nelze výpočty použít. Známým příkladem jsou revoluce, po kterých se společenské vztahy podstatně mění a některá data a úvahy z předrevolučních období se nedají použít. Podobně bychom mohli uvažovat o stavu pacienta před nějakým podstatným zákrokem a po něm.
Příklad: V souboru 50 červených krvinek byly vypočteny následující četnosti:

Interval Absolutní četnosti Relativní četnosti Kumulativní absolutní četnosti Kumulativní relativní četnosti
4,0 - 4,9 0 0,00 0 0,00
5,0 - 5,9 1 0,02 1 0,02
6,0 - 6,9 10 0,2 11 0,22
7,0 - 7,9 16 0,32 27 0,54
8,0 - 8,9 16 0,32 43 0,86
9,0 - 9,9 7 0,14 50 1,00
10,0 - 10,9 0 0,0 50 1,00


Blok 0303 - Příklady - rozdělení četností

(Pro zobrazení odpovědi klikni na otázku.)

1) Absolutní četnost vyjadřuje:

2) Jaký druh četností je vhodnější pro vytvoření histogramů, sloužících k porovnání dvou souborů s odlišným počtem prvků?

3) U 20 třicetiletých mužů byly vypočteny následující hodnoty BMI (body mass index):
19,3 21,5  26,4  30,3  19,0  20,4  21,6  24,8  27,6  22,2  29,9  24,7  23,1  27,1  25,4  20,0  19,4  25,3  30,1  21,4.
Doplňte četnosti v následující tabulce:
interval Absolutní četnosti Relativní četnosti Kumulativní absolutní četnosti Kumulativní relativní četnosti
do 20
20,1 -25,0
25,1 - 30,0
30,1 - 35,0
nad 35,0


4) Velikost erytrocytů ve vzorku je dána tabulkou četností.
velikost v mikrometrech četnost
6,7 5
6,9 12
7,1 15
7,3 13
7,5 5

Určete relativní kumulativní četnost erytrocytů menších jak 6,9 mikrometru a menších jak 7,3 mikrometrů.


5) Byly naměřeny velikosti 10 erytrocytů. Charakteristiky polohy pro daný soubor jsou: medián = 7,1, modus 7,4 a aritmetický průměr 7,2 mikrometrů. Posuďte, zda obecně vždy platí tato tvrzení:

1) relativní kumulativní četnost hodnot menších než 7,1 je 50 %

2) absolutní kumulativní četnost hodnot menších než 7,1 je 5

3) relativní kumulativní četnost hodnot menších než 7,4 je 50 %

4) absolutní kumulativní četnost hodnot menších než 7,4 je 5

5) relativní kumulativní četnost hodnot menších než 7,2 je 50 %

6) absolutní kumulativní četnost hodnot menších než 7,2 je 5


Kontrolní otázky: