NOVINKA: Kurz kybernetickej bezpečnosti teraz už od 0 €. Staň sa žiadaným profesionálom. Zisti viac:
NOVINKA: Staň sa dátovým analytikom od 0 € a získaj istotu práce, lepší plat a nové kariérne možnosti. Viac informácií:

8. diel - Dáta Lifecycle a metódy zberu dát

V predchádzajúcej lekcii, Databázy a tabuľky, sme sa oboznámili so základnou štruktúrou databázových tabuliek.

V tomto tutoriáli dátovej analýzy sa zoznámime s pojmom Data Lifecycle. Ten opisuje kompletný životný cyklus dát od ich vzniku a zberu cez spracovanie a analýzu až po archiváciu alebo likvidáciu. Venovať sa budeme tradičným aj moderným metódam zberu dát, vysvetlíme si niektoré pojmy, ktoré sa v tejto oblasti používajú (napr. web scraping, API, IoT), a ukážeme si, čo všetko musíme zohľadniť z hľadiska legislatívy, etiky aj bezpečnosti.

Data Lifecycle

Životný cyklus dát obvykle zahŕňa niekoľko na seba nadväzujúcich fáz. Ako dátoví analytici v každej z týchto fáz uplatňujeme trochu inú sadu zručností a nástrojov:

  • Stanovenie cieľov – Určíme, ktoré ukazovatele sledujeme a čo chceme z dát zistiť (napr. predpovedať dopyt, pochopiť nákupné správanie alebo detegovať anomálie vo výrobe).
  • Zber dát – Zisťujeme, ako dáta získať (dotazníky, databázy, API, IoT senzory), a posudzujeme kvalitu aj dostupnosť rôznych zdrojov.
  • Čistenie a úprava – Kontrolujeme konzistentnosť, odstraňujeme chybné či duplicitné záznamy a prevádzame formáty do podoby vhodnej na ďalšiu analýzu.
  • Analýza a interpretácia – Využívame štatistické metódy, vizualizácie či modely strojového učenia, aby sme z dát vyťažili užitočné poznatky.
  • Prezentácia výsledkov – Pripravujeme reporty, dashboardy alebo odporúčania na rozhodovanie.
  • Archivácia či odstránenie – Uchovávame dáta, ktoré môžu poslúžiť aj v budúcnosti, a zároveň sa zbavujeme záznamov, ktoré už nepotrebujeme, aby sme si udržali prehľad a splnili právne požiadavky (napr. GDPR).
Úvod do dátovej analýzy a obchodného rozhodovania

Vďaka ucelenému pohľadu na dáta si dokážeme lepšie naplánovať jednotlivé kroky a zohľadniť všetky dôležité aspekty – od zabezpečenia a kvality dát až po ich dlhodobú hodnotu pre firmu či výskumný tím. V našom kurze si jednotlivé kroky postupne predstavíme. Dnes sa zameriame na samotný zber dát.

Zber dát

Skôr než sa pustíme do metód zberu, zostavíme si stručný plán – aké informácie hľadáme, ako ich získame, ako overíme ich kvalitu a ako s nimi budeme pracovať ďalej. Pripravíme si zoznam potenciálnych zdrojov (interné databázy, externé API, senzory atď.) a vyberieme vhodné technológie na extrakciu a ukladanie dát. Ako dátoví analytici zároveň zvažujeme, do akej miery je dátová štruktúra kompatibilná s našimi nástrojmi a aké zložité bude dáta ďalej spracovávať. Starostlivým plánovaním sa vyhneme zbytočným oneskoreniam, chybným formátom či komplikáciám pri analýze.

Metódy zberu dát

Hneď ako určíme, čo a prečo chceme skúmať, nasleduje kľúčový výber správnej metódy zberu dát.

Tradičné postupy

Tradičné prístupy, ako sú dotazníky, ankety či pozorovanie v teréne, majú nižšie technologické nároky, takže sú vhodné pre menšie tímy alebo rýchle pilotné štúdie. Pri tvorbe dotazníkov si dávame pozor na jasné a zrozumiteľné otázky, aby respondenti poskytli relevantné odpovede. Pri rozhovoroch a fokusových skupinách záleží na schopnosti moderátora viesť diskusiu a nestrácať sa v nepodstatných detailoch. Pozorovanie potom využívame v situáciách, keď chceme zaznamenávať správanie ľudí či procesov bez priameho zásahu. Táto metóda však vyžaduje starostlivé protokolovanie a často aj vyššiu mieru subjektívneho posúdenia.

Automatizovaný zber z digitálnych zdrojov

Automatizovaný zber z digitálnych zdrojov - Úvod do dátovej analýzy a obchodného rozhodovania

V modernej dátovej analytike sa väčšinou nezaobídeme bez automatizovaných techník, ktoré sú rýchle a minimalizujú ľudské chyby. Patria sem:

  • Interné databázy a analytické aplikácie – Najjednoduchšie je, samozrejme, spracovávať dáta, ktoré už máme lokálne uložené (napr. v databáze nášho e-shopu) alebo ku ktorým máme prístup. Pomocou špecializovaných nástrojov, ako sú Google Analytics, Snowplow alebo Hotjar, môžeme zbierať a vyhodnocovať správanie zákazníkov vrátane informácií typu, ako sa napr. ľudia pohybujú po stránke myšou a pod. Zákazníkom tiež môžeme ľahko zobraziť dotazník na vyplnenie, napr. pomocou Google Forms, a automaticky získať zhrnutie výsledkov. Analyzovať môžeme tiež najrôznejšie logy, čo sú záznamy o vykonaných akciách, napr. chybách alebo vyťažení webu.
  • Otvorené externé dáta a API (Application Programming Interface) – Z webu Českého štatistického úradu si môžeme stiahnuť Excel súbory alebo použiť výsledky verejného dotazníka. API sú rozhrania partnerov a verejných služieb poskytujúce prístup k dátam a funkciám. Napríklad ak náš dodávateľ materiálu ponúka API, môžeme z neho sťahovať aktuálne informácie o produktoch, cenách a skladových zásobách.
  • Web scraping – Je technika zberu dát priamo z webových stránok, keď program (tzv. scraper) prechádza obsah a ukladá vybrané informácie (napríklad cenu tovaru, hodnotenie produktov, textové články). Na web scraping možno použiť rôzne nástroje (napr. Beautiful Soup, Selenium, Scrapy), ktoré umožňujú dáta extrahovať a ďalej spracovávať.
  • Komerčné dátové balíčky a dátové trhoviská – Platené dáta od firiem, ktoré sa zakúpia hotové s licenciou (napr. česká databáza firiem Merk).

Ako dátoví analytici pri automatizovanom zbere definujeme filtre, aby sme získavali skutočne relevantné dáta a aby sme predišli zahlteniu nepotrebnými informáciami.

Senzory a IoT technológie

V mnohých oblastiach (priemysel, logistika, inteligentné domácnosti, poľnohospodárstvo) je dôležitým zdrojom dát internet vecí (IoT), teda sieť inteligentných zariadení a senzorov. Sieť meria rôzne veličiny (teplota, tlak, poloha, vlhkosť) a odosiela ich v reálnom čase na ďalšie spracovanie. Pre dátového analytika to znamená potrebu:

  • zabezpečenia správnej konfigurácie a kalibrácie senzorov, aby merali presne,
  • výberu vhodnej komunikačnej technológie (Wi-Fi, Bluetooth a pod.) na prenos nameraných hodnôt,
  • riešenia spoľahlivosti pripojenia, výpadkov a prípadných oneskorení v dátach,
  • ukladania a spracovania veľkého objemu dát v reálnom čase či v krátkych intervaloch.

Tieto kroky často vyžadujú špecializované nástroje a väčšie investície do hardvéru, no odmenou je detailný a kontinuálny pohľad na sledované javy.

IoT - Úvod do dátovej analýzy a obchodného rozhodovania
Externé zdroje a ich kvalita

Nie vždy však máme k dispozícii vlastné dáta – v praxi sa často hodí využiť open data (voľne dostupné zdroje), platené databázy alebo API ďalších organizácií. Predtým než dáta integrujeme do nášho systému, oplatí sa otestovať:

  • Štruktúru a formát – Zodpovedá JSON, XML alebo CSV našim potrebám?
  • Aktuálnosť a presnosť – Ako pravidelne je zdroj aktualizovaný, sú v ňom časté chyby?
  • Licenčné a právne obmedzenia – Možno dáta použiť na komerčné účely? Je nutné uvádzať zdroj?
  • Metodiku zberu – Ako dáta vznikli, sú reprezentatívne a neskrývajú skreslenie?

Vďaka dôkladnej kontrole predídeme situácii, keď by sme pracovali s nepoužiteľným alebo zavádzajúcim datasetom.

Ochrana osobných údajov a etika

S akýmkoľvek zberom dát sa spája aj zodpovednosť za ochranu citlivých informácií. V praxi to znamená dôsledne aplikovať princípy GDPR a ďalších legislatívnych predpisov, ale aj mať interné smernice na anonymizáciu či pseudonymizáciu záznamov. Etické hľadisko je rovnako dôležité ako to právne – zbierame len také dáta, ktoré naozaj potrebujeme a ktoré dokážeme ochrániť pred zneužitím. Ak je to potrebné, používateľom musí byť poskytnutý prehľad o tom, aké dáta o nich evidujeme, prípadne možnosť svoj súhlas odvolať.

V nasledujúcom cvičení, Riešené úlohy k 5.-8. lekciu úvodu do dátovej analýzy, si precvičíme nadobudnuté skúsenosti z predchádzajúcich lekcií.


 

Predchádzajúci článok
Databázy a tabuľky
Všetky články v sekcii
Úvod do dátovej analýzy a obchodného rozhodovania
Preskočiť článok
(neodporúčame)
Riešené úlohy k 5.-8. lekciu úvodu do dátovej analýzy
Článok pre vás napísal Jan Rypáček
Avatar
Užívateľské hodnotenie:
Ešte nikto nehodnotil, buď prvý!
Jan Rypáček
Aktivity