Mikuláš je tu! Získaj 90 % extra kreditov ZADARMO s promo kódom CERTIK90 pri nákupe od 1 199 kreditov. Len do nedele 7. 12. 2025! Zisti viac:
NOVINKA: Najžiadanejšie rekvalifikačné kurzy teraz s 50% zľavou + kurz AI ZADARMO. Nečakaj, táto ponuka dlho nevydrží! Zisti viac:

11. diel - Nástroje na čistenie dát

V predchádzajúcom kvíze, Kvíz - Dátové formáty, databázy a životný cyklus dát, sme si overili nadobudnuté skúsenosti z predchádzajúcich lekcií.

V dnešnom tutoriále Úvodu do dátovej analýzy sa zoznámime s kľúčovými nástrojmi na čistenie dát. Prejdeme si tabuľkové editory pre manuálnu kontrolu a základné úpravy, nástroj OpenRefine na štandardizáciu dát pomocou výrazového jazyka GREL a filtrovanie dát pomocou faceted filtering. Nakoniec sa dotkneme dotazovacieho jazyka SQL pre manipuláciu s dátami v relačných databázach.

Prečo čistiť dáta

Surové dáta často obsahujú duplicity, chýbajúce alebo nekonzistentné hodnoty a rôzne formáty, ktoré môžu ovplyvniť analýzu. V praxi často nejaké osoby napr. vyplní dotazník niekoľkokrát, v niektorých položkách nebudeme mať vyplnené všetky hodnoty alebo budú dáta nekonzistentné (napr. ľudia vyplnia mesto ako PRaha, P-10, Praha 10 a my hodnoty môžeme chcieť zjednotiť pod Praha, aby sme podľa nich mohli filtrovať).

Tabuľkové editory

Začneme ako vždy tabuľkovými editormi. Excel alebo Google Sheets sú ideálne na rýchlu manuálnu kontrolu menších až stredne veľkých datasetov – súborov dát usporiadaných v riadkoch a stĺpcoch. Krátko si predstavíme ich hlavné funkcie na čistenie.

Úvod do dátovej analýzy a obchodného rozhodovania - Úvod do dátovej analýzy a obchodného rozhodovania

Na obrázku vidíme tabuľku s dátami zákazníkov. Môžeme si všimnúť niekoľko typických problémov:


 

...koniec náhľadu článku...
Pokračuj ďalej

Vedomosti v hodnote stoviek tisíc získaš za pár eur

Došiel si až sem a to je super! Veríme, že ti prvé lekcie ukázali niečo nového a užitočného.
Chceš v kurze pokračovať? Prejdi do prémiové sekcie.

Kúpiť tento kurz

Kúpiť všetky aktuálne dostupné lekcie s funkciou odovzdávanie úloh iba za 1 350 kreditov
Aktuálny stav konta 0 kreditov
Kúpou tohoto balíčku získaš prístup ku všetkým 45 článkom (31 lekcií, 7 testov, 7 praktických cvičení) tohoto kurzu.

Obsah článku spadá pod licenciu Premium, kúpou článku súhlasíš so zmluvnými podmienkami.

Čo od nás v ďalších lekciách dostaneš?
  • Neobmedzený a trvalý prístup k jednotlivým lekciím.
  • Kvalitné znalosti v oblasti IT.
  • Zručnosti, ktoré ti pomôžu získať vysnívanú a dobre platenú prácu.

Popis článku

Požadovaný článok má nasledujúci obsah:

V tutoriále dátovej analýzy si predstavíme nástroje na čistenie dát ako sú tabuľkové editory, OpenRefile alebo SQL.

Kredity získaš, keď podporíš našu sieť. To môžeš urobiť buď zaslaním symbolickej sumy na podporu prevádzky alebo pridaním obsahu na sieť.

Článok pre vás napísal Jan Rypáček
Avatar
Jan Rypáček
Aktivity