18. diel - Čistenie dát
V minulej lekcii, Nástroje na čistenie dát, sme sa zoznámili s nástrojmi na čistenie dát, ako sú tabuľkové editory, OpenRefine alebo SQL.
V dnešnom tutoriáli Úvodu do dátovej analýzy si na jednoduchom datasete prakticky vyskúšame základné techniky čistenia dát – teda ako identifikovať chýbajúce hodnoty, odstrániť duplicity, previesť hodnoty do správneho formátu a zjednotiť zápis. Ukážeme si, ako tieto kroky vykonávať v Exceli aj v Google Sheets.
Stiahnutie datasetu s bežnými chybami
Prejdite teraz na koniec lekcie a stiahnite si pod ňou prílohu s dátami.
Budeme pracovať so súborom data_cleaning.xlsx, ktorý obsahuje
nasledujúce typické problémy:
- chýbajúce hodnoty – napríklad prázdne bunky v
stĺpcoch
NamealeboAge, - duplicitné záznamy – napríklad dva riadky s rovnakým ID a menom,
- chybné formáty – napríklad vek zapísaný slovom (tridsať) namiesto číslom,
- nezrovnalosti v zápise – napríklad Brno a brno ako dva rôzne zápisy toho istého mesta,
- extrémne hodnoty – napríklad vek 150, ktorý výrazne presahuje bežné rozpätie.

Na tomto datasete si postupne ukážeme, ako každú z týchto chýb detegovať a opraviť. Budeme využívať filtre, podmienené formátovanie a rôzne funkcie či nástroje na odstránenie duplicít a zjednotenie formátu.
...koniec náhľadu článku...
Pokračuj ďalej
Došiel si až sem a to je super! Veríme, že ti prvé lekcie ukázali niečo nového a užitočného.
Chceš v kurze pokračovať? Prejdi do prémiové sekcie.
Kúpiť iba tento kurz
Získaj okamžitý prístup ku kurzu bez
časového obmedzenia.
1 350 kreditov
Obsah článku spadá pod licenciu Premium, kúpou článku súhlasíš so zmluvnými podmienkami.
- Prístup k jednotlivým lekciám podľa spôsobu obstarania.
- Kvalitné znalosti v oblasti IT.
- Zručnosti, ktoré ti pomôžu získať vysnívanú a dobre platenú prácu.
Popis článku
Požadovaný článok má nasledujúci obsah:
V tomto tutoriáli sa budeme venovať téme čistenia dát, teda identifikácii a odstraňovaniu chýb pri dátovej analýze.
Kredity získaš, keď podporíš našu sieť. To môžeš urobiť buď zaslaním symbolickej sumy na podporu prevádzky alebo pridaním obsahu na sieť.