Induktivní statistika

Některé neparametrické testy

  1. Znaménkový test
  2. Pořadové testy
  3. CHí-kvadrát test
  4. Přehled testů

Znaménkový test

Metody používané v kapitolách 3. – 5. v předcházejícím textu předpokládají, že data, která testujeme, pocházejí z populace, která má gaussovské rozdělení. Všechny metody, splňující tento předpoklad, se nazývají parametrické a statistika s nimi spojená se nazývá statistika parametrická. Připomeňme si, že Gaussovo rozdělení předpokládá, že data jsou spojitá a mohou nabývat hodnot od -∞ do +∞. Předpoklad spojitosti dat lze často použít nebo přijmout (tlak krve, hladiny léků v plasmě). S předpokladem intervalu od -∞ do +∞ je to však v medicíně a biologii horší. Většina biologicky důležitých proměnných je pravostranně sešikmená, to znamená, že minimální hodnoty, kterých tyto veličiny mohou nabývat, jsou limitovány hodnotami slučitelnými se životem. Menší hodnoty se v pozorovaných datech vyskytovat nemohou, zatímco hodnoty vyšší než je fyziologická horní mez, se vyskytují.

Řada veličin, které chceme analyzovat, i když jsou kvantitavní nejsou spojitá anebo jsou to data ordinální. Metody, které umožňují testování vlastností takovýchto dat, se nazývají metody neparametrické. Řada z nich nepředpokládá žádné teoretické rozdělení pravděpodobnosti (jsou to tzv. distribution-free metody). Vyložíme si postupy tří různých skupin neparametrických testů: znaménkového testu, testů pořadových a na závěr tzv. x2 (chí kvadrát) testu.

Znaménkový test použijeme v případě, kdy jsou data ordinální nebo jsou spojitá a nemají Gaussovo rozdělení nebo teoreticky předpokládáme, že Gaussovo rozdělení mít nemohou. Jako příklad uveďme analýzu doby odezvy pohotovostní služby na volání nemocných. Vyhláška Ministerstva zdravotnictví předpokládá, že doba dojezdu k pacientovi od nahlášení požadavku nepřekročí 17 minut. Hodnoty deseti náhodně vybraných dob příjezdu sanitky k nemocnému jsou uvedeny v tabulce:
doba příjezdu (min): 15   23   11   20   18   32   30   24   26   17

Provedeme-li testování normality daných dat, zjistíme, že nulovou hypotézu zamítnout nemůže. Proto k nalezení odpovědi na otázku, zda je doba dojezdu delší, než je požadavek vyhlášky, použijeme jednovýběrový test hypotézy o průměru s jednostrannou alternativní hypotézou, že doba dojezdu je delší než 17 min. Pravděpodobnost platnosti nulové hypotézy (doba dojezdu v tomto výběru se neliší od vyhláškou požadovaných 17 min) je rovna 0,0283, tedy menší než standardně používaná hodnota 0,05. Zamítneme nulovou hypotézu a prohlásíme, že doba dojezdu k pacientovi je statisticky významně vyšší než předpokládá zmíněná vyhláška.

Zamyslíme-li se nad analyzovanou veličinou, dospějeme jednoznačně k závěru, že doba dojezdu musí být pravostranně vychýlená a i když se nepodařilo zamítnout nulovou hypotézu na těchto datech, je logicky správnějším postupem použít neparametrický test. Obdobou jednovýběrového testu hypotézy o průměru je test znaménkový. Ten je vlastně binomickým testem, který předpokládá, že pravděpodobnost obou možných výsledků pozorování A a B je stejná, tedy p(A) = p(B) = 0,5

V uvedených datech označíme znaménkem mínus doby delší než je předpokládaná doba vyhlášky, znaménkem plus ty případy, kdy doba dojezdu byla kratší. V případě, že se doba dojezdu shoduje s dobou uvedenou ve vyhlášce, nebudeme tento ve znaménkovém testu počítat. Celkový počet údajů se tak sníží na 9 a z těchto devíti případů byla doba dojezdu dvakrát kratší než je doba požadovaná. Jednostranná alternativní hypotéza znaménkového testu udává hodnotu pravděpodobnosti 0,0898, tedy číslo větší než je 0,05. Proto nemůžeme zamítnout nulovou hypotézu a řekneme, že se nepodařilo prokázat, že doba dojezdu z analyzovaných dat se statisticky významně liší od doby požadované vyhláškou. Uvedený příklad také ukazuje na obecnou vlastnost neparametrických testů, to je skutečnost, že jsou k zjištění rozdílu méně citlivé. Síla neparametrických testů je obecně při stejném počtu pozorování menší, než je síla ekvivalentních testů parametrických. Zvýšení síly testu dosáhneme zvýšením počtu pozorování.

V dalším příkladu použijeme znaménkový test jako neparametrickou variantu párového t-testu.

Před cvič. (s)  87   61   98   90   93   74   83   72   81   75   83
Po cvič. (s)  50   45   79   90   88   65   52   79   84   61   52

V tabulce jsou uvedena data doby řešení matematického příkladu skupinou 11 studentů před speciálním cvičením zaměřeným na daný typ úloh. V druhém řádku tabulky jsou doby potřebné k řešení obdobného příkladu po praktickém cvičení. Výsledek testu normality diferencí dob před a po cvičení říká, že p hodnota je rovna 0,578 a nemůžeme tedy nulovou hypotézu zamítnout a k nalezení odpovědi na otázku použijeme párový t-test.Ten pro jednostrannou alternativní hypotézu předpokládající, že doba před cvičením je větší, než doba po cvičení dává p hodnotu 0,0055. Zamítneme tedy nulovou hypotézu a prohlásíme, že speciální praktické cvičení vede ke zkrácení doby řešení.

Z psychologie však víme, že doby řešení úloh po cvičení orientovaném na určitý typ úloh mají levostranně sešikmené rozdělení a použití párového t-testu není tedy teoreticky správné, a proto k nalezení odpovědi na otázku použijeme znaménkový test. Znaménkem plus označíme ty hodnoty, kdy se po cvičení doba k řešení příkladu zkrátila, znaménkem mínus ty případy, kdy naopak doba potřebná k řešení příkladu byla delší. Pokud je diference v dobách řešení nulová, jde o tzv. svázané hodnoty (ties) a o ně počet analyzovaných údajů snížíme. V tomto příkladu to je výsledek jednoho studenta, takže celkový počet analyzovaných dat se sníží na deset párů a počet úspěchů je 8. Výsledek znaménkového testu pro jednostrannou alternativní hypotézu je, že p se rovná 0,0547. Nemůžeme tedy nulovou hypotézu zamítnout a prohlásíme, že nepodařilo prokázat, že dané cvičení vede ke zkrácení doby řešení tohoto druhu příkladů.


Pořadové testy

Další skupinou neparametrických testů jsou tzv. pořadové testy (ranking, order tests). Jsou založeny na tom, že data veličin, které testujeme, uspořádáme většinou vzestupně podle hodnot, která ta data mají. Po tomto uspořádání dat přiřadíme každému vstupnímu údaji pořadové číslo. V případě, že se za sebou vyskytuje několik stejných hodnot, dostanou tyto hodnoty stejné pořadové číslo a následující vyšší hodnota ve vstupních datech dostane pořadové číslo, které odpovídá celkovému pořadí. Pro ilustraci uveďme soubor bodů, které v přijímacím testu z biologie dosáhlo deset studentů náhodně vybraných z populace přijatých:
body   1594  1169  1275  1381  1594  1169  1275   1275  2125  2019

Data přeneseme do Excelu (označíme předešlou tabulku, pomocí Ctrl+C ji uložíme do schránky, otevřeme Excel a zkopírujeme do prvního řádku). Příslušná pořadová čísla dosažených bodů získáme pomocí funkce RANK. Po napsání rovnítka do volné buňky v řádku pod prvním údajem (tedy do buňky B2) klikneme na ikonu funkce (fx) a ze statistických funkcí vybereme právě tuto. Když ji potvrdíme, objeví se okno Argumenty funkce, ve kterém jsou 3 řádky. První je označen Číslo, druhý řádek Odkaz a třetí Pořadí. Do řádku Číslo vložíme první číslo z vstupních dat. Do druhého řádku pořadí vložíme celý sloupec s daty, ve kterém zjišťujeme pořadí. Před písmena, která označují vektor, v němž zjišťujeme pořadí, dáme symbol $, aby při automatickém rozšíření na všechny buňky daného řádku nedocházelo ke změně hodnot buněk vstupního vektoru. Do posledního řádku Pořadí napíšeme jedničku, čímž dosáhneme toho, že pořadová čísla jsou podle vzestupně seřazených dat (není nutné provést nejprve třídění podle velikosti). Výsledkem je řádek:

rank  7  1  3  6  7  1  3  3  10  9

Pro pořadové testy je tento výsledek nutné ještě dále upravit tak, že v případě, že se objeví stejná hodnota několikrát, tak sečteme pořadí po sobě jdoucích čísel a vydělíme je počtem sčítanců (v uvedeném případě se vyskytuje hodnota 1 dvakrát, takže 1+2 = 3, děleno 2 je 1,5; hodnota 3 se vyskytuje třikrát, takže 3+4+5 = 12, děleno 3 jsou 4). Výsledkem jsou nová pořadová čísla:

zlomkové pořadí  7,5  1,5  4  6  7,5  1,5  4  4  10  9

Nejstarším pořadovým testem je neparametrická obdoba Pearsonova koeficientu korelace, Spearmanův korelační koeficient, podle autora označovaný ρ. To je v rozporu s dříve přijatou zásadou, že řeckými písmeny označujeme charakteristiky populační, a proto se často pro tento korelační koeficient používá symbol rs. Touto konvencí se budeme řídit i my. Používá se v případech, kdy chceme zjistit, zda existuje vztah mezi dvěma proměnnými, které v případě, že jsou spojité, nemají Gaussovo rozdělení, nebo jsou to data ordinální.

Hodnotu Spearmanova korelačního koeficientu rs vypočteme obdobně jako hodnotu Pearsonova korelačního koeficientu r (v Excelu pomocí funkce CORREL), jestliže vstupní data uspořádáme vzestupně nebo sestupně. Spearmanův korelační koeficient leží, stejně jako Pearsonův, v intervalu < -1; +1 > a interpretace jeho hodnoty je stejná.

Jako příklad uvedeme zjištění souvislosti výsledků testů z biologie s celkovým pořadím jednotlivců ve stejné populaci, kterou jsme definovali výše. Celkové pořadí jedinců ve stejném výběru je:

Pořadí  129  143  34  82  67  123  95  125  2  4
což po uspořádání odpovídá:
Uspořádání  9  10  3  5  4  7  6  8  1  2

Hodnota rs = −0,661. V Excelu se ve funkci CORREL nepočítá p-hodnota, odpovídající dané hodnotě rs. Pokud bychom neprovedli uspořádání obou vstupních proměnných a nesprávně počítali r, výsledek bude jiný (r = −0,766, zdánlivě (nesprávně) významnější.

Neparametrickou variantou nepárového t-testu je Mannův-Whitneyův U test. Stejně jako Spearmanův test pořadové korelace ho používáme v případě dat negaussovských a ordinálních.

V prvním kroku sloučíme hodnoty obou srovnávaných proměnných a provedeme jejich uspořádání. Potom sečteme pořadí v prvním vzorku a označíme ho jako R. Testové kritérium U se vypočte jako

`U = R - \frac{{n_1 (n_1 + 1)}}{2}`.

Hodnoty pravděpodobností pro U rozdělení (přibližně pro `n_1 + n_2 ≤ 20`) lze nalézt v tabulkách, pro větší počet pozorování se p-hodnota počítá z aproximace rozložení Gaussova.

Chceme určit účinnost nového analgetika na bolesti drobných kloubů. Náhodně vybraným pacientům v jedné skupině podáváme lék, v druhé skupině dostávají pacienti placebo. Po uplynutí čtrnácti dnů pacienty požádáme, aby posoudili zmenšení bolestí na stupnici od 0 do 10 (0 – žádná úleva, 10 – bolesti zcela ustoupily). Výsledky jsou v tabulce:
Placebo  10  1  0  2  0  4  5  3  1  3  4
Lék  10  10  5  8  4  3  1  0  2  9

Uspořádané hodnoty jsou:
Placebo  20  5  2  7,5  2  13  15,5  10  5  10  13
Lék  20  20  15,5  17  13  10  5  2  7,5  18

Hodnota U = 73, což odpovídá z skóru −1,23 a pro jednostrannou alternativní hypotézu (apriorně předpokládáme, že lék tlumí bolest) p hodnotě 0,1093. Znamená to, že na hladině významnosti α = 0,05 nezamítáme nulovou hypotézu a prohlásíme, že se nepodařilo prokázat (statisticky významnou) účinnost nového analgetika.


CHí-kvadrát test

x2-test

Užívá se tehdy, chceme-li zjistit, zda je mezi pozorovanými četnostmi nějaký vztah, nebo zda pozorované četnosti jsou náhodné. Použijeme ho tehdy, jestliže počet možných výsledků je ≥ 3. Například nás zajímá, zda léčba určitého typu bolesti akupunkturou je účinná. Čtrnáct nemocných udalo, že cítilo zlepšení, čtyřem se potíže zhoršily a tři nezaznamenali žádnou změnu. Testové kritérium se vypočte

`\chi ^2 = \sum\limits_{i = 1}^k {\frac{{(O_i - E_i )^2 }}{{E_i }}}`

kde k je počet možných výsledků (kategorií), Oi je počet pozorovaných (observed) výskytů v kategorii i a Ei je počet očekávaných (expected) výskytů. V našem příkladu je tedy


Oi 14 3 4
Ei 7 7 7
`(O_i - E_i )^2` 49 16 9
`\chi ^2 = \sum\limits_{i = 1}^k {7+2,286+1,286=10,571}`

Hodnotu testového kritéria srovnáváme s kvantily chí kvadrát rozdělení, jehož parametrem je počet stupňů volnosti. Počet stupňů volnosti pro jednovýběrový x2-test je k – 1, tedy v tomto případě 2. Příslušnou p hodnotu najdeme pomocí funkce CHIDIST. Zjistíme, že odpovídající p-hodnota je 0,0051. Zamítneme tedy H0 a řekneme, že akupunktura je v případě léčby daného typu bolesti účinná.

Nejčastěji se x2-test používá k testování asociace pozorování v tzv. čtyřpólových tabulkách (tabulka 2 × 2).

Při léčbě dané nemoci ve dvou různých zařízeních dostaneme tyto výsledky:


Vyléčen Nevyléčen
Z1 20 5
Z2 5 5

Existuje statisticky významný rozdíl v úspěšnosti léčby mezi oběma zařízeními? Testové kritérium x2 je vypočteno jako


`\sum\limits_{i = 1}^r {\sum\limits_{j = 1}^k {\frac{{(O_{ij} - E_{ij} )^2 }}{{E_{ij} }},} }`

kde i je číslo řádku (r – rows je jich počet) a j je číslo sloupce (k – columns je jejich počet). V daném příkladě r i k = 2 (test lze rozšířit na více sloupců i řádků, obecně mluvíme o tabulkách r × k). Počet stupňů volnosti je (r – 1) × (k – 1), pro čtyřpólovou tabulku je to tedy 1.

Očekávané četnosti (Eij) se vypočítají tak, že pro danou buňku vynásobíme součet četnosti v příslušném sloupci a řádku a tento součin vydělíme celkovým počtem pozorování:


Vyléčen Nevyléčen
EZ1 (25 x 25)/ 35 (10 x 25)/ 35
EZ2 (25 x 10)/ 35 (10 x 10)/ 35

Po umocnění rozdílu pozorovaných a očekávaných četností a vydělení mocnin příslušnými očekávanými četnostmi dostaneme tabulku


k = 1 k = 2
r = 1 0,257 0,643
r = 2 0,643 1,607

Sečtením hodnot v jejích buňkách dostaneme hodnotu testového kritéria x2= 3,15. Pomocí funkce CHIDIST zjistíme, že p = 0,0759. Nulovou hypotézu tedy nezamítneme a prohlásíme, že na hladině významnosti 0,05 nelze mezi oběma zařízeními prokázat významný rozdíl.

Při použití x2 testu srovnáváme diskrétní pozorovaná data (četnosti) s neceločíselnými očekávanými četnostmi. To vnáší do výpočtu určitou chybu. Anglický statistik Yates navrhl korekci výpočtu hodnoty testového kritéria tak, že od absolutní hodnoty rozdílu pozorovaných a očekávaných četností se odečte 0,5.

`\chi ^2 = \sum\limits_{i = 1}^k {\frac{{(\left| {O_i - E_i } \right| - 0,5)^2 }}{{E_i }}}`

Yatesova korekce se má používat zejména tehdy, kdy celkový počet pozorování je malý (≤ 30). V uvedeném příkladu je p hodnota x2 testu s Yatesovou korekcí 0,174.

V případě, že četnost v některé buňce čtyřpólové tabulky je menší než pět, se x2 test nemá používat vůbec a jestliže celkový počet pozorování je kolem stovky, použije se tzv. přesný Fisherův test, který je založen na tom, že pro danou tabulku se spočítají všechny možné kombinace a pravděpodobnost výskytu (p hodnota) je dána podílem tabulek, které obsahují stejné rozložení četností jako má tabulka s pozorovanými výskyty. Pro uvedený příklad je p hodnota Fisherova testu 0,107.


Přehled testů

Přehled parametrických testů a jejich neparametrických alternativ (kvantitativní data)

Parametrický test Neparametrický test Použití
jednovýběrový t-test Wilcoxonův jednovýběrový jednovýběrový návrh
párový t-test Wilcoxonův párový porovnání dvou skupin párově
nepárový t-test Mannův-Whitneyův U test porovnání dvou skupin nepárově
Pearsonův korelační koeficient Spearmanův korelační koeficient souvislost dat

Pozn. Parametrické testy mají větší sílu testu než testy neparametrické, proto je v případě normálního rozdělení dat lepší použít parametrický test.