Základní statistické pojmy

Sběr dat

  1. 1 Platnost, spolehlivost a reprodukovatelnost měření
  2. Kvalita dat

Sběr dat

Sběr dat je jen jednou z částí výzkumného projektu.

Metody sběru dat lze zhruba rozdělit do tří kategorií:

Observační metody - patří k nim jak přímé vizuální pozorování, tak i složitější metody, které vyžadují speciální znalosti a techniku, např. klinické vyšetření, biochemické vyšetření nebo mikrobiologické vyšetření.

Rozhovor a dotazník shromažďují údaje prostřednictvím záměrně cílených otázek. Získané informace mohou však být zkresleny nepochopením otázek, špatným záznamem odpovědi a při rozhovoru rovněž vlivem sociální interakce.

Dokumentace je poměrně jednoduchý způsob sběru dat a často jediný, který umožňuje získat informace z minulosti. Zdravotnickému výzkumu běžně slouží dva typy dokumentace: původní zdravotnická dokumentace (např. záznam o zdraví a anemoci, hlášení o narození dítěte nebo list o prohlídce mrtvého) a údaje rutinní zdravotnické statistiky a rutinních statistik jiných odvětví. Rutinní zdravotnická statistika poskytuje údaje o zdravotním stavu obyvatelstva (o celkové nemocnosti, hospitalizované nemocnosti, příčinách smrti, příčinách invalidity atd.) a údaje o zdravotnických službách (o síti zdravotnických zařízení, pracovnících ve zdravotnictví, zdravotnických školách a o lékařských a farmaceutických fakultách). Z jiných rutinních statistik používá zdravotnický výzkum zejména demografické, ekonomické a meteorologické údaje.

Když připravujeme sběr velkého množství dat, je vhodné provést předběžné šetření (pilotní studii), tj. na malém vzorku ze studované populace ověřit navržené metody pozorování, měření a zpracování údajů. Na základě výsledků předběžného šetření přistoupíme ke sběru dat v plánovaném rozsahu. V tomto stadiu musíme podrobně zaznamenat, proč některé prvky výběru byly vyřazeny ze studie (např. osoby, které odmítly vyplnit dotazník), a ověřit kvalitu získaných údajů. Dále hledáme formální chyby, věcné chyby většinou odstraňujeme logickou kontrolou. Výsledky měření mohou být zatíženy náhodnými a systematickými chybami. Systematické chyby jsou způsobeny nejasně položenými otázkami, nesprávným seřízením přístroje atd. Působí pouze jedním směrem. Náhodné chyby vznikají zejména nepozorností a vedou jak k nadhodnocování, tak i podhodnocování správné hodnoty sledovaného znaku.

Při zpracování dat hrají obrovskou roli počítače – je mnoho výhod, které z použití počítačů vyplývají, ale jsou zde i nevýhody.

K výhodám počítačového zpracování patří:

Univerzálnost – počítače zpřístupňují širokou škálu statistických metod a umožňují provést velmi rychle i rozsáhlé komplexní statistické analýzy.

Přesnost a rychlost – dobrý software nám dá velmi rychle správné výsledky.

Grafika – počítače umožňují snadné grafické zobrazení pozorovaných dat a výsledků statistického zpracování

Flexibilita – počítače umožňují rychle provést nové zpracování při změnách v datech či transformaci některých veličin, lze vytvářet snadno nové veličiny pomocí transformací

Velikost dat – počítače umožňují zpracování velmi rozsáhlých souborů dat pomocí vhodného software.

Snadný přenos – jakmile se data jednou dostala do počítače, lze je snadno přenést elektronicky na jiné místo

K nevýhodám počítačového zpracování patří:

Chyby software – ne všechny programy jsou spolehlivé, některé mohou poskytovat chybné výsledky zpracování, protože programátor udělal chyby při tvorbě programu či neporozuměl statistické metodě. Je vhodné používat ty statistické programy, které mají dobrou pověst a jsou používány dostatečně dlouho, takže byla postupně odstraněna většina jejich chyb.

Univerzálnost – vzhledem k tomu, že je nabízena řada statistických metod pro zpracování dat, snadno se stane, že bude k vlastnímu zpracování vybrána nevhodná metoda. Je velmi důležité, aby každý používal jen ty metody, kterým rozumí.

Černá skříňka – statistická analýza se provádí automaticky, nová data se zpracovávají a výsledky se ukládají, aniž by byly posouzeny člověkem. Vzhledem k tomu, že většinou výsledky zachycují jen průměrné efekty, může se zcela ztrácet citlivost k individuálním pozorováním.

Špatná data plodí špatné závěry – jestliže data jsou nasbírána špatně (např. špatně kladené otázky v dotazníku), nelze očekávat, že závěry z takových dat budou správné. Dále mohou být data pokažena tím, že se špatně zpracovávají soubory, kde některé údaje chybí, když data jsou chybně vložena do počítače nebo se vyskytly chyby již při samotném sběru dat.


Kvalita dat

Kvalita dat, validace a příprava dat před analýzou

Při vytváření přesné formulace cílů výzkumu, kdy se předpokládá užití statistických metod, je vhodné zahájit spolupráci lékaře a statistika na samém počátku plánování a návrhu výzkumného projektu. Společně pak formulují cíle ve tvaru hypotéz, které mají být prověřeny pomocí dat. Metodickou chybou je vytvářet hypotézy až podle nashromážděných dat a na stejných datech je prověřovat. Týká se to hlavně malých výběrů.

Většinou již při formulaci cíle a účelu výzkumu přesně vymezujeme (místně, časově, věcně) populaci, které se výzkum týká. Stanovíme metodu výběru a odhadneme potřebný rozsah výběru. Zvolená metoda výběru předurčuje kvalitu prováděných závěrů. Nežádoucí jsou takové metody, které vedou k vytváření selektivních výběrů, např. výběr pacientů podle úplnosti lékařské dokumentace.

Znaky, které chceme zjišťovat, jsou zvoleny s ohledem na stanovené cíle šetření a dané možnosti. Často je obtížné zjistit některé znaky, a musíme se proto spokojit s jinými, které jsou dostupnější a mohou je zcela nebo alespoň částečně nahradit. Každý sledovaný znak musí být přesně a jednoznačně určen. Například pro znak „měsíční příjem“ musíme udat, zda sledovaná osoba má uvést hrubý, nebo čistý měsíční příjem, a to z vlastního výdělku nebo jako průměrný výdělek připadající na jednoho člena rodiny. Dále je třeba určit povahu sledovaných znaků (zda jsou kvalitativní nebo kvantitativní) a zvolit stupnici měření. Volba měrných stupnic ovlivňuje množství informace obsažené v údajích a má rozhodující význam i pro použité metody statistického zpracování.

Pro sběr dat je potřeba předem připravit vhodný formulář jednak kvůli dokumentaci, ale také kvůli usnadnění zadávání dat do počítače: údaje zaznamenávat pokud možno přesně (např. věk v letech, kategorizovat na desetiletí lze dle potřeby dodatečně), sledovat údaje, které mohou ovlivnit sledované proměnné, rozmyslet jednoduché kódování kvalitativních dat (zkratky).

Pro zápis dat je dobré zvolit vhodný program – pro menší objem dat stačí třeba Excel (data od všech pacientů musí být napsána ve stejné struktuře, tj. stejný údaj ve stejném sloupci). Pro velký objem dat (případně pokud se data zapisují přímo při jejich sběru) bude vhodnější zapisovat do formuláře připraveného v databázovém systému (např. Access), což umožňuje hlídat zapisování jen správných kódů kvalitativních dat, rozpětí kvantitativních dat, případně provádět logické kontroly (např. u mužů by se neměl vyskytnout nenulový počet těhotenství).

Před samotným statistickým zpracováním dat je vhodné data zkontrolovat – použití jen správných kódů kvalitativních dat, zda se vejdou kvantitativní data do rozpětí možných hodnot (často se chybuje v desetinné čárce), je-li možné, tak zkontrolovat i logické vazby. U kvantitativních dat se často najdou takzvané „odlehlé“ hodnoty (tj. hodnoty, které jsou buď příliš velké nebo naopak příliš malé) – u nich je třeba rozhodnout, zda se jedná o chybu zápisu, či chybu měření (pokud se nepodaří dohledat správnou hodnotu, je nutné tuto hodnotu smazat) či se jedná o správnou hodnotu a je nutno ji v datech ponechat (pacient má daný parametr z nějakých důvodů extrémní).

Dále je vhodné si data graficky zobrazit, z příslušných grafů lze usuzovat na rozdělení dat (pomohou detekovat odlehlé hodnoty).