Popisná statistika

Charakteristika variability

  1. Rozptyl a směrodatná odchylka
  2. Další charakteristiky variability dat
  3. Zdroje variability

Rozptyl a směrodatná odchylka

Data, i když pocházejí z velmi dobře definovaného a homogenního souboru, mohou být různě rozptýlená. Závisí samozřejmě na jevu, který měříme, ale je možné provést rozlišení i podle oborů. Provádějí-li se pokusy ve fyzice, je typické, že přesnost měření je veliká, spolehlivost experimentů dobrá a rozptýlenost neboli variabilita nízká. V oborech biologických či v medicíně naopak bývá variabilita vyšší. Navíc k tomu přistupují i rozdíly mezi pozorovanými individui, takže s výslednou variabilitou by fyzici nebyli spokojeni a ptali by se, v čem se stala chyba.

Při měření rozptýlení víme, že hodnoty budou rozptýleny kolem průměru. Součet čtverců odchylek od průměru samozřejmě také závisí na počtu hodnot a s nimi roste, i když rozptýlení je stejné. Je nutné i tomu přizpůsobit definici. Nejprve definujeme ROZPTYL jako
`S_x^2=\frac{1}{N-1}\sum_{i=1}^N (x_i-\bar{x})^2`
Druhá odmocnina z rozptylu se nazývá SMĚRODATNÁ ODCHYLKA.

V definici se vyskytuje součet čtverců odchylek. Z vlastností průměru víme, že prostý součet odchylek od průměru je nulový, čili kladné a záporné odchylky od průměru se vyruší. Proto součet odchylek od průměru nemůžeme použít. Pokud ale použijeme čtverce odchylek od průměru, jsou vždy nezáporné, a jejich součet může sloužit jako míra rozptýlenosti.
Pojem rozptýlení není statistický termín, zde se používá k vyjádření toho, jestli jsou hodnoty seskupeny těsně u sebe nebo rozhozeny volněji. Jedná se o nalezení číselné charakteristiky, která by například rozlišila to, že hodnoty 9, 10, 11 jsou méně rozptýlené než hodnoty 3, 11, 16. Průměr obou trojic je 10. Je ale vidět, že hodnoty v první trojici jsou méně rozptýlené než hodnoty ve druhé trojici. Odchylky od průměru jsou u první trojice -1, 0, 1 a odchylky u druhé trojice jsou -7, 1, 6, což ještě lépe znázorňuje, že hodnoty druhé trojice jsou rozptýlenější. Vlastností průměru ale je, že součty odchylek od průměru dávají nulu, což je i na příkladě hned vidět. Když odchylky umocníme, dostaneme kladná čísla i ze záporných a máme 1, 0, 1 pro první trojici a 49, 1, 36 pro druhou trojici.
Ještě se zmíníme, proč jsou ve vztahu pro výpočet rozptylu uvedeny odchylky od průměru a ne od nějaké jiné charakteristiky. Kriteriem je to, které číslo dá nejmenší součet čtverců odchylek a jednou z vlastností průměru je, že minimalizuje součet čtverců odchylek (viz důkaz).
Proto zde počítáme odchylky od průměru a ne od něčeho jiného. Průměr je takto svázán s rozptylem. Vlastnosti rozptylu
Předpokládejme, že platí yi = a + bxi. Vyjádříme rozptyl veličiny y pomocí rozptylu veličiny x
`S_y^2=\frac{1}{{N-1}}\sum\limits_{i=1}^N {(y_i-\overline y)^2 }`
`\bar y=a+b\bar x`
Protože toto platí, je také
`S_y^2=\frac{1}{N-1}\sum(y_i-\bar{y})^2=\frac{1}{N-1}\sum (a+bx_i-a-b\bar{x})^2`
`=\frac{1}{N-1}\sum (bx_i-b\bar{x})^2=b^2\frac{1}{N-1}\sum (x_i-\bar{x})^2=`
a tedy
`S_y^2=b^2S_x^2`

Je dobré si všimnout, že ve výsledném vzorci se nevyskytuje parametr posunutí a, tudíž rozptyl nezávisí na posunutí. To je přesně ta vlastnost, kterou od takové charakteristiky požadujeme. Od průměru jsme požadovali, aby přesně odrážel velikost posunutí.
Horší je to s parametrem b, protože ten se vyskytuje ve vzorci ve druhé mocnině a to je velká nepříjemnost. Je možné to ilustrovat na příkladě. Když měříme výšku osob v cm, dostaneme například hodnoty 171, 173, 176, 179. Jejich průměr je 174,8 a rozptyl 12,3. Když použijeme metry místo centimetrů, je b = 0,01, a = 0 a průměr je roven 1,748. Zmenšil se tedy stokrát, avšak rozptyl se zmenší desettisíckrát, to jest na 0,00123. To je velmi nevýhodná vlastnost.
Další nevýhodnou vlastností je jednotka rozptylu. Když je průměr v metrech, bude mít rozptyl jednotku v metrech na druhou. Taková jednotka se při měření výšky dá špatně interpretovat a ani se o to nebudeme snažit.
Nevýhodné vlastnosti rozptylu odstraníme tak, že používáme jeho odmocninu, která se nazývá směrodatná odchylka a značí se Sx, kde indexem je název veličiny, jejíž směrodatnou odchylku počítáme. Již při označení rozptylu na to bylo pamatováno, neboť směrodatná odchylka je `S_x=\sqrt S_x^2`. To proto, že směrodatná odchylka je tou důležitější charakteristikou.

Příklad: Mějme dány výšky čtyř branců: 171, 173, 176, 179 (cm). Vypočítejme průměr (174,8) a směrodatnou odchylku (3,5). Když uvedeme hodnoty v metrech, je průměr 1,748 a směrodatná odchylka je 0,035. Tedy hodnoty se zmenšily stokrát, průměr se zmenšil stokrát a také směrodatná odchylka se zmenšila stokrát. Hodnoty, průměr i směrodatná odchylka mají jednotku cm. Budou-li hodnoty v metrech, je jednotka průměru m a také jednotka směrodatné odchylky m.

Výpočet směrodatné odchylky
V některé literatuře jsou uváděny výpočetní vzorce, které mají zmenšit práci potřebnou k výpočtu směrodatné odchylky. Tyto vzorce není třeba znát, protože obvykle za nás počítají stroje. Proto zde uvedeme jen schéma, které umožňuje přehledně organizovat výpočet a zároveň mít na paměti základní definice.
Čísla jsou zapsána do sloupců, pod sloupce jsou zapsány součty a další mezivýsledky jsou zapisovány opět do sloupců.
Do prvního sloupce jsou zapsány hodnoty xi, to se podtrhne a sečte, součet je napsán pod podtržení. Součet se vydělí počtem hodnot, což dává průměr. Průměr se odečte od každé z hodnot v prvním sloupci a rozdíl se zapíše do druhého sloupce a to i se znaménkem. Druhý sloupec se sčítá pro kontrolu.
To je důležité provést, protože víme předem, že je součet roven nule, což pomáhá odhalit chyby při výpočtu. Do dalšího sloupce zapíšeme druhou mocninu rozdílů od průměru. Součet zapíšeme pod tento třetí sloupec. Tento výsledek dělíme N-1 a máme výběrový rozptyl. Jeho druhou odmocninou je směrodatná odchylka.
Pracujme s výškami branců z příkladu na předchozí straně:

`x_i` `x_i-\bar{x}` `(x_i-\bar{x})^2`
171 -3,75 14,0625
173 -1,75 3,0625
176 1,25 1,5625
179 4,25 18,0625
Součet=699 Součet=0 Součet=36,75

Vypočteme průměr `\bar{x}` = 699/4 = 174,75 a ze součtu čtverců odchylek rozptyl
`S_x^2=36,75/3=12,25`.
Směrodatná odchylka je
`S_x=\sqrt{S_x^2}=\sqrt{12,25}=3,5`.
Tento postup umožňuje provádět výpočet v přehledné formě a tím snížit možnost chyby. Možnost chyby se sníží také tím, že při zápisu sledujeme řádově velikost čísel, takže se vyhneme hrubým chybám.


Součet čtverců odchylek.
Součet čtverců odchylek od průměru je možné zapsat jako `\sum (x_i-\bar x)^2`, kde `n` je počet hodnot a `x_i` tyto hodnoty označují. Průměr je popisná charakteristika v tom smyslu, že součet kladných a záporných odchylek od průměru je roven nule. Může nás ale také napadnout, jestli je možné použít součet čtverců odchylek od hodnoty jiné než průměr, třeba od nějakého `a`, což zapíšeme jako `\sum (x_i-a)^2`, a také nás ještě může napadnout zeptat se, jaké `a` zvolit, aby takový součet byl minimální. Postupujeme tak, že mezi `x_i` a `-a` vložíme `-\bar x+\bar x`, neboli přičteme a odečteme totéž číslo a tím se celkový součet nezmění.
`\sum (x_i-a)^2=\sum (x_i-\bar x +\bar x-a)^2` Závorkami se naznačí, jak se provede umocnění.

Součty vhodně rozepíšeme
`\sum ((x_i-\bar x) +(\bar x-a))^2=`
`\sum ((x_i-\bar x)^2 +2(x_i-\bar x)(\bar x-a)+(\bar x-a)^2)=`
`\sum (x_i-\bar x)^2 +\sum 2(x_i-\bar x)(\bar x-a)+\sum (\bar x-a)^2=`

V prostředním součtu vytkneme konstanty neboli výrazy, které neobsahují index
`\sum (x_i-\bar x)^2 +2(\bar x-a)\sum (x_i-\bar x)+\sum (\bar x-a)^2=`.

Prostřední součet je roven nule, jak víme, je vždy součet odchylek od průměru roven nule a vynecháme jej
`\sum (x_i-\bar x)^2 +\sum (\bar x-a)^2=`.

Ve druhém součtu se nevyskytuje žádný index, sčítá se jen konstanta a to n krát, tudíž dostaneme
`\sum (x_i-\bar x)^2 +n(\bar x-a)^2`.

První součet nezávisí na `a` a nemusíme si jej všímat. Druhá mocnina vyskytující se v druhém členu nabývá minima, jen když je to mocnina nuly, neboť ať je číslo kladné nebo záporné, je jeho druhá mocnina kladná. Aby tedy `a` minimalizovalo součet čtverců odchylek, musí být `\bar x-a=0`, což dává `a=\bar x.`. Výsledkem úvah je to, že jsme nedostali nic jiného než náš starý dobrý průměr. Tímto způsobem je tedy průměr svázán se součtem čtverců a nikoliv se součtem absolutních hodnot odchylek.


Další charakteristiky variability dat

Variační rozpětí (R)

  • definujeme jako rozdíl největší a nejmenší hodnoty ze všech pozorování
  • R = x max - xmin
  • variační rozpětí není interval, ale šíře intervalu, tedy jedno číslo

Percentilové rozpětí

  • rozdíl hodnot percentilů
  • např.: kvartilové rozpětí- rozdíl mezi hodnotou třetího a prvního kvartilu (neboli mezi 75. a 25. percentilem),
    decilové rozpětí - rozdíl mezi hodnotou devátého a prvního decilu (neboli mezi 90. a 10. percentilem)

Variační koeficient (V)

  • vypočteme ze vzorce `V = 100\frac{s}{{\overline x }}`
  • hodí se pro porovnávání variability ve dvou souborech s velmi odlišným aritmetickým průměrem
  • bezrozměrná veličina, obvykle se udává v procentech
  • u většiny biologických znaků se pohybuje do 30 %

Střední chyba aritmetického průměru:

`s_x= \frac{s}{{\sqrt n }}`

  • používá se k odhadu kvality aritmetického průměru jako odhadu průměru populačního

Zdroje variability

  1. Chyby měřících zařízení. Při opakování měření nedojdeme ke stejným výsledkům. Toto je možné označit jako náhodnou chybu. Říkává se, že náhodnou chybu nelze odstranit, ale tomu je třeba rozumět tak, že ji nelze úplně odstranit. Často je možné ji zmenšit. Jestliže je náhodná chyba způsobená vibracemi, pak snížením vibrací snížíme náhodnou chybu.

  2. Rozdíly mezi objekty nebo subjekty čili interindividuální rozdíly. Jednotlivci v populaci nejsou naprosto stejní a jejich rozdílnost je zdrojem variability. Záleží jistě na definici populace.

  3. Rozdíly mezi skupinami. Individua je možné rozdělit do skupin, mezi kterými jsou rozdíly. Skupinové rozdíly přispívají k vyšší variabilitě, což bývá nežádoucí.

  4. Trend závisející na čase. Měření mohou být prováděna postupně v čase. Jestliže hodnota měřené veličiny závisí na čase, může to být nežádoucí zdroj variability.



Blok 0302 - Příklady - charakteristiky variability

(Pro zobrazení odpovědi klikni na otázku.)

1) Vypočtěte výběrovou směrodatnou odchylku z těchto hodnot IQ:
130, 128, 132, 132, 128


2) Rozhodněte, která z veličin průměr erytrocytu a aorty vykazuje u skupiny 5 jedinců větší biologickou variabilitu.
Průměr erytrocytu [`\mu`m]: 7.1 7.2 7.5 7.4 7.3
Průměr aorty [mm]: 2.1 2.2 2.5 2.4 2.3


3) U 11 pacientů byly změřeny následující hladiny cholesterolu v krvi: 5; 7; 9; 5; 8; 6; 6; 4; 10; 5; 12.
Vypočtěte variační, kvartilové a decilové rozpětí, výběrový rozptyl, výběrovou směrodatnou odchylku a variační koeficient.


4) Velikost erytrocytů ve vzorku je dána tabulkou četností.
velikost v mikrometrech četnost
6,7 5
6,9 12
7,1 15
7,3 13
7,5 5
Určete kvartilové a decilové rozpětí.


5) Změníme jednotky či měřítko v souboru již naměřených dat. (např. výšku vyjádříme v cm místo v metrech nebo jsme dodatečně zjistili, že posun papíru při ekg záznamu byl 50 mm/s místo 25 mm/s). Posuďte jak tato změna ovlivní variační koeficient souboru.

Kontrolní otázky: