16. diel - Čistenie dát
V predchádzajúcom kvíze, Kvíz - Archivácia dát a základy štatistiky, sme si overili nadobudnuté skúsenosti z predchádzajúcich lekcií.
V dnešnom tutoriále Úvodu do dátovej analýzy si na jednoduchom datasete prakticky vyskúšame základné techniky čistenia dát – teda ako identifikovať chýbajúce hodnoty, odstrániť duplicity, previesť hodnoty do správneho formátu a zjednotiť zápis. Ukážeme si, ako tieto kroky vykonávať v Exceli aj v Google Sheets.
Stiahnutie datasetu s bežnými chybami
Prejdite teraz na koniec lekcie a stiahnite si pod ňou prílohu s dátami.
Budeme pracovať so súborom kontrola_dat.xlsx, ktorý obsahuje
nasledujúce typické problémy:
- Chýbajúce hodnoty – napríklad prázdne bunky v
stĺpcoch
Jméno,VěkaleboMěsto, - Duplicitné záznamy – napríklad dva riadky s rovnakým ID a menom,
- Chybné formáty – napríklad vek zapísaný slovom (tridsať) miesto číslom,
- Nezrovnalosti v zápise – napríklad Brno a brno ako dva rôzne zápisy toho istého mesta,
- Extrémne hodnoty – napríklad vek 150, ktorý výrazne prekračuje bežné rozpätie.

Na tomto datasete si postupne ukážeme, ako každú z týchto chýb detekovať a opraviť. Budeme využívať filtre, podmienené formátovanie a rôzne funkcie či nástroje na odobratie duplicít a zjednotenie formátu.
...koniec náhľadu článku...
Pokračuj ďalej
Došiel si až sem a to je super! Veríme, že ti prvé lekcie ukázali niečo nového a užitočného.
Chceš v kurze pokračovať? Prejdi do prémiové sekcie.
Kúpiť tento kurz
Obsah článku spadá pod licenciu Premium, kúpou článku súhlasíš so zmluvnými podmienkami.
- Neobmedzený a trvalý prístup k jednotlivým lekciím.
- Kvalitné znalosti v oblasti IT.
- Zručnosti, ktoré ti pomôžu získať vysnívanú a dobre platenú prácu.
Popis článku
Požadovaný článok má nasledujúci obsah:
V tutoriáli sa budeme venovať téme čistenia dát, teda identifikácii a odstráneniu chýb pri dátovej analýze.
Kredity získaš, keď podporíš našu sieť. To môžeš urobiť buď zaslaním symbolickej sumy na podporu prevádzky alebo pridaním obsahu na sieť.