8. diel - Dáta Lifecycle a metódy zberu dát
V predchádzajúcej lekcii, Databázy a tabuľky, sme sa oboznámili so základnou štruktúrou databázových tabuliek.
V tomto tutoriáli dátovej analýzy sa zoznámime s pojmom Data Lifecycle. Ten opisuje kompletný životný cyklus dát od ich vzniku a zberu cez spracovanie a analýzu až po archiváciu alebo likvidáciu. Venovať sa budeme tradičným aj moderným metódam zberu dát, vysvetlíme si niektoré pojmy, ktoré sa v tejto oblasti používajú (napr. web scraping, API, IoT), a ukážeme si, čo všetko musíme zohľadniť z hľadiska legislatívy, etiky aj bezpečnosti.
Data Lifecycle
Životný cyklus dát obvykle zahŕňa niekoľko na seba nadväzujúcich fáz. Ako dátoví analytici v každej z týchto fáz uplatňujeme trochu inú sadu zručností a nástrojov:
- Stanovenie cieľov – Určíme, ktoré ukazovatele sledujeme a čo chceme z dát zistiť (napr. predpovedať dopyt, pochopiť nákupné správanie alebo detegovať anomálie vo výrobe).
- Zber dát – Zisťujeme, ako dáta získať (dotazníky, databázy, API, IoT senzory), a posudzujeme kvalitu aj dostupnosť rôznych zdrojov.
- Čistenie a úprava – Kontrolujeme konzistentnosť, odstraňujeme chybné či duplicitné záznamy a prevádzame formáty do podoby vhodnej na ďalšiu analýzu.
- Analýza a interpretácia – Využívame štatistické metódy, vizualizácie či modely strojového učenia, aby sme z dát vyťažili užitočné poznatky.
- Prezentácia výsledkov – Pripravujeme reporty, dashboardy alebo odporúčania na rozhodovanie.
- Archivácia či odstránenie – Uchovávame dáta, ktoré môžu poslúžiť aj v budúcnosti, a zároveň sa zbavujeme záznamov, ktoré už nepotrebujeme, aby sme si udržali prehľad a splnili právne požiadavky (napr. GDPR).

Vďaka ucelenému pohľadu na dáta si dokážeme lepšie naplánovať jednotlivé kroky a zohľadniť všetky dôležité aspekty – od zabezpečenia a kvality dát až po ich dlhodobú hodnotu pre firmu či výskumný tím. V našom kurze si jednotlivé kroky postupne predstavíme. Dnes sa zameriame na samotný zber dát.
Zber dát
Skôr než sa pustíme do metód zberu, zostavíme si stručný plán – aké informácie hľadáme, ako ich získame, ako overíme ich kvalitu a ako s nimi budeme pracovať ďalej. Pripravíme si zoznam potenciálnych zdrojov (interné databázy, externé API, senzory atď.) a vyberieme vhodné technológie na extrakciu a ukladanie dát. Ako dátoví analytici zároveň zvažujeme, do akej miery je dátová štruktúra kompatibilná s našimi nástrojmi a aké zložité bude dáta ďalej spracovávať. Starostlivým plánovaním sa vyhneme zbytočným oneskoreniam, chybným formátom či komplikáciám pri analýze.
Metódy zberu dát
Hneď ako určíme, čo a prečo chceme skúmať, nasleduje kľúčový výber správnej metódy zberu dát.
Tradičné postupy
Tradičné prístupy, ako sú dotazníky, ankety či pozorovanie v teréne, majú nižšie technologické nároky, takže sú vhodné pre menšie tímy alebo rýchle pilotné štúdie. Pri tvorbe dotazníkov si dávame pozor na jasné a zrozumiteľné otázky, aby respondenti poskytli relevantné odpovede. Pri rozhovoroch a fokusových skupinách záleží na schopnosti moderátora viesť diskusiu a nestrácať sa v nepodstatných detailoch. Pozorovanie potom využívame v situáciách, keď chceme zaznamenávať správanie ľudí či procesov bez priameho zásahu. Táto metóda však vyžaduje starostlivé protokolovanie a často aj vyššiu mieru subjektívneho posúdenia.
Automatizovaný zber z digitálnych zdrojov

V modernej dátovej analytike sa väčšinou nezaobídeme bez automatizovaných techník, ktoré sú rýchle a minimalizujú ľudské chyby. Patria sem:
- Interné databázy a analytické aplikácie – Najjednoduchšie je, samozrejme, spracovávať dáta, ktoré už máme lokálne uložené (napr. v databáze nášho e-shopu) alebo ku ktorým máme prístup. Pomocou špecializovaných nástrojov, ako sú Google Analytics, Snowplow alebo Hotjar, môžeme zbierať a vyhodnocovať správanie zákazníkov vrátane informácií typu, ako sa napr. ľudia pohybujú po stránke myšou a pod. Zákazníkom tiež môžeme ľahko zobraziť dotazník na vyplnenie, napr. pomocou Google Forms, a automaticky získať zhrnutie výsledkov. Analyzovať môžeme tiež najrôznejšie logy, čo sú záznamy o vykonaných akciách, napr. chybách alebo vyťažení webu.
- Otvorené externé dáta a API (Application Programming Interface) – Z webu Českého štatistického úradu si môžeme stiahnuť Excel súbory alebo použiť výsledky verejného dotazníka. API sú rozhrania partnerov a verejných služieb poskytujúce prístup k dátam a funkciám. Napríklad ak náš dodávateľ materiálu ponúka API, môžeme z neho sťahovať aktuálne informácie o produktoch, cenách a skladových zásobách.
- Web scraping – Je technika zberu dát priamo z webových stránok, keď program (tzv. scraper) prechádza obsah a ukladá vybrané informácie (napríklad cenu tovaru, hodnotenie produktov, textové články). Na web scraping možno použiť rôzne nástroje (napr. Beautiful Soup, Selenium, Scrapy), ktoré umožňujú dáta extrahovať a ďalej spracovávať.
- Komerčné dátové balíčky a dátové trhoviská – Platené dáta od firiem, ktoré sa zakúpia hotové s licenciou (napr. česká databáza firiem Merk).
Ako dátoví analytici pri automatizovanom zbere definujeme filtre, aby sme získavali skutočne relevantné dáta a aby sme predišli zahlteniu nepotrebnými informáciami.
Senzory a IoT technológie
V mnohých oblastiach (priemysel, logistika, inteligentné domácnosti, poľnohospodárstvo) je dôležitým zdrojom dát internet vecí (IoT), teda sieť inteligentných zariadení a senzorov. Sieť meria rôzne veličiny (teplota, tlak, poloha, vlhkosť) a odosiela ich v reálnom čase na ďalšie spracovanie. Pre dátového analytika to znamená potrebu:
- zabezpečenia správnej konfigurácie a kalibrácie senzorov, aby merali presne,
- výberu vhodnej komunikačnej technológie (Wi-Fi, Bluetooth a pod.) na prenos nameraných hodnôt,
- riešenia spoľahlivosti pripojenia, výpadkov a prípadných oneskorení v dátach,
- ukladania a spracovania veľkého objemu dát v reálnom čase či v krátkych intervaloch.
Tieto kroky často vyžadujú špecializované nástroje a väčšie investície do hardvéru, no odmenou je detailný a kontinuálny pohľad na sledované javy.

Externé zdroje a ich kvalita
Nie vždy však máme k dispozícii vlastné dáta – v praxi sa často hodí využiť open data (voľne dostupné zdroje), platené databázy alebo API ďalších organizácií. Predtým než dáta integrujeme do nášho systému, oplatí sa otestovať:
- Štruktúru a formát – Zodpovedá JSON, XML alebo CSV našim potrebám?
- Aktuálnosť a presnosť – Ako pravidelne je zdroj aktualizovaný, sú v ňom časté chyby?
- Licenčné a právne obmedzenia – Možno dáta použiť na komerčné účely? Je nutné uvádzať zdroj?
- Metodiku zberu – Ako dáta vznikli, sú reprezentatívne a neskrývajú skreslenie?
Vďaka dôkladnej kontrole predídeme situácii, keď by sme pracovali s nepoužiteľným alebo zavádzajúcim datasetom.
Ochrana osobných údajov a etika
S akýmkoľvek zberom dát sa spája aj zodpovednosť za ochranu citlivých informácií. V praxi to znamená dôsledne aplikovať princípy GDPR a ďalších legislatívnych predpisov, ale aj mať interné smernice na anonymizáciu či pseudonymizáciu záznamov. Etické hľadisko je rovnako dôležité ako to právne – zbierame len také dáta, ktoré naozaj potrebujeme a ktoré dokážeme ochrániť pred zneužitím. Ak je to potrebné, používateľom musí byť poskytnutý prehľad o tom, aké dáta o nich evidujeme, prípadne možnosť svoj súhlas odvolať.
V nasledujúcom cvičení, Riešené úlohy k 5.-8. lekciu úvodu do dátovej analýzy, si precvičíme nadobudnuté skúsenosti z predchádzajúcich lekcií.
