NOVINKA: Kurz kybernetickej bezpečnosti teraz už od 0 €. Staň sa žiadaným profesionálom. Zisti viac:
NOVINKA: Staň sa dátovým analytikom od 0 € a získaj istotu práce, lepší plat a nové kariérne možnosti. Viac informácií:

3. diel - Zoznámenie s Power Query a úvod do čistenia dát

V minulej lekcii, Import dát do nástroja Power BI, sme sa zoznámili so základnými spôsobmi importu dát do nástroja Power BI Desktop.

V tomto Power BI tutoriáli si vysvetlíme, prečo je dôležité čistiť dáta a čo všetko nám umožňuje nástroj Power Query. Zoznámime sa aj s jeho prostredím a základnými prvkami. To všetko je nevyhnutný základ pre každého, kto chce tvoriť kvalitné a spoľahlivé reporty v Power BI.

Editor Power Query a jeho prostredie

Najprv si vysvetlime, prečo je dôležité čistiť dáta a aké konkrétne problémy sa pri tom v praxi riešia. Tento prehľad nám pomôže pochopiť, na čo Power Query slúži a prečo je jeho ovládanie kľúčové pri akejkoľvek práci s dátami.

Prečo je dôležité čistiť dáta?

Práca s dátami sa začína omnoho skôr, než vytvoríme prvú vizualizáciu. Bez úprav dát by výsledná analýza bola nespoľahlivá a mohla by viesť k nesprávnym záverom. Dôvody na čistenie dát môžu byť rôzne, ale medzi najčastejšie patria:

  • Zabezpečenie kvality dát – Chybné alebo nekompletné hodnoty skresľujú výsledky.
  • Konzistentnosť – Rôzne formáty (napríklad pri dátume) je potrebné zjednotiť, aby sa dali dáta prepájať.
  • Odstránenie duplicít – Opakujúce sa riadky môžu ovplyvniť súčty, počty alebo priemery.
  • Zvýšenie výkonu – Menšia a vyčistená dátová sada sa načítava rýchlejšie a lepšie sa s ňou pracuje.
  • Prehľadnosť a interpretovateľnosť – Dobre štruktúrované dáta sa ľahšie čítajú a vysvetľujú ostatným.

Kedy čistiť dáta?

Úprava a čistenie dát nie je jednorazová akcia – v reálnych projektoch sa k nej vraciame opakovane. Často odhalíme problémy až vo chvíli, keď začneme vytvárať reporty alebo kombinovať viac dátových zdrojov. Dáta čistíme:

  • Pri spájaní z viacerých zdrojov – Tabuľky môžu mať rôzne štruktúry, kľúče alebo názvy stĺpcov.
  • Pred vizualizáciou alebo reportingom – Aby sa v grafoch nezobrazovali neplatné alebo zavádzajúce hodnoty.
  • Pri migrácii do iného systému – Nový systém očakáva presne dané typy a formáty dát.
  • Pri automatizácii – Chybné alebo chýbajúce dáta môžu spôsobiť zlyhanie celého procesu.
  • Pri modelovaní a predikcii – Na presné výpočty a trénovanie modelov potrebujeme kvalitné vstupy.

Ukážkové scenáre z praxe

Aby bolo jasnejšie, ako vyzerá čistenie dát v konkrétnych situáciách, pridávame niekoľko príkladov. Niektoré z nich si neskôr vyskúšame:

  • Zlúčenie dát z viacerých tabuliek – Spojíme tabuľku orders s tabuľkou customers pomocou spoločného stĺpca customer_id.
  • Odstránenie chýbajúcich hodnôt – Vynecháme riadok, v ktorom chýba napríklad údaj o veku alebo pohlaví.
  • Štandardizácia formátu dát – Zjednotíme rôzne zápisy dátumu, napríklad 1.1.2023 a 2023-01-01.
  • Oprava chybných hodnôt – Odstránime alebo upravíme záporné čísla v stĺpci quantity, kde dáva zmysel len kladná hodnota.
  • Odstránenie neplatných údajov – Vyfiltrujeme neplatné e-mailové adresy alebo telefónne čísla so znakmi, ktoré do nich nepatria.

Power Query je nástroj, ktorý tieto úpravy zvládne efektívne, prehľadne a bez nutnosti programovania.

Načítanie tabuliek do Power Query

V tejto lekcii budeme nadväzovať na dáta, ktoré sme importovali skôr. Ak ešte nemáte pripravený súbor s dátami, môžete si ho stiahnuť z prílohy na konci lekcie alebo sa vrátiť k lekcii Import dát do nástroja Power BI, kde je celý postup podrobne vysvetlený.

Pri importe vyberieme excelový zošit sales.xlsx a z neho všetky tabuľky. Následne klikneme na možnosť Transform Data. Tým sa nám otvorí editor Power Query, ktorý si teraz predstavíme.

Editor Power Query

Po načítaní dát do Power Query sa ocitneme v prostredí, ktoré slúži na vizuálnu úpravu tabuliek. Nejde o jednoúčelový importný nástroj, ale o plnohodnotné prostredie na dátovú prípravu. Tu budeme väčšinu času upravovať štruktúru a obsah dát ešte pred ich načítaním do modelu Power BI.

Prostredie editora Power Query vyzerá nasledovne:

Zobrazenie editora Power Query - Dátová analýza s Power BI

Popis panelov Power Query

Ako vidíme, Power Query sa skladá z niekoľkých základných častí, ktoré nám umožňujú prehľadnú a postupnú prácu:

  • Zoznam dotazov (vľavo) – Tu vidíme všetky tabuľky, ktoré sme načítali a medzi ktorými môžeme prepínať. Aktuálne sa nachádzame v zobrazení tabuľky customers.
  • Náhľad tabuľky (uprostred) – Zobrazuje aktuálny stav dát vybranej tabuľky s jednotlivými stĺpcami (atribútmi) a riadkami (záznamami). Tento náhľad sa priebežne aktualizuje pri každej úprave.
  • Nastavenie dotazov (vpravo) – Každá úprava, ktorú vykonáme, sa uloží ako samostatný krok v časti Applied steps. Tento zoznam obsahuje všetky kroky transformácie dát, ktoré sme doteraz vykonali. Každý krok môžeme spätne upraviť, premenovať alebo odstrániť kliknutím na ikonu krížika vedľa danej operácie.
  • Pás kariet (hore) – Obsahuje jednotlivé funkcie rozdelené do logických sekcií, ktoré používame na transformáciu dát.

Prehľad hlavných kariet Power Query

Podobne ako v Exceli alebo Worde pracujeme s kartami, ktoré združujú súvisiace nástroje. Tu je prehľad tých najdôležitejších:

  • File – Nájdeme tu ponuku na uloženie a načítanie dotazov, prístup k možnostiam dátových pripojení a nastaveniam Power Query.
  • Home – Ponúka základné akcie, ako sú zatvorenie či načítanie dát, odstránenie stĺpcov, filtrovanie, zoskupenie alebo zlúčenie dotazov.
  • Transform – Obsahuje nástroje na zmenu dátových typov, nahradenie hodnôt, rozdelenie alebo zlúčenie stĺpcov, transpozíciu tabuliek a ďalšie operácie na úpravu dát.
  • Add Column – Umožňuje vytvárať nové stĺpce z výpočtov, podmienok alebo kombinácií iných polí.
  • View – Tu nájdeme nastavenie náhľadu a pracovného priestoru, zobrazenie krokov transformácie, dátových typov a ďalších náhľadových prvkov.
  • Tools – Poskytuje pokročilé možnosti, ako sú správca dotazov, sledovanie výkonu alebo prístup k editoru jazyka M.
  • Help – Obsahuje odkazy na oficiálnu dokumentáciu, interaktívne návody, podporu a ďalšie užitočné zdroje.
Jazyk M

Power Query pri vykonávaní transformácií automaticky na pozadí generuje každý náš krok ako zápis v jazyku M. Tento jazyk umožňuje hlbšie úpravy dát pomocou vlastných skriptov. Každý krok je reprezentovaný konkrétnym M kódom, ktorý možno zobraziť a ručne upraviť v Editore pokročilých dotazov, ak potrebujeme zložitejšie operácie alebo väčšiu kontrolu nad procesom transformácie.

Jazyk M vyzerá nasledovne:

Jazyk M - Dátová analýza s Power BI

Teraz už vieme, prečo je dôležité čistiť dáta, kedy sa to v praxi najčastejšie rieši a ako s tým pomáha Power Query. Zoznámili sme sa s jeho prostredím, logikou práce a stručne sme si predstavili jazyk M, ktorý zaznamenáva každý krok úprav. Nabudúce si ukážeme konkrétne transformácie dát v praxi.

V ďalšej lekcii, Základné úpravy a transformácia dát v Power Query, sa zoznámime so základnými transformáciami v Power Query.


 

Mal si s čímkoľvek problém? Stiahni si vzorovú aplikáciu nižšie a porovnaj ju so svojím projektom, chybu tak ľahko nájdeš.

Stiahnuť

Stiahnutím nasledujúceho súboru súhlasíš s licenčnými podmienkami

Stiahnuté 0x (21.8 kB)
Aplikácia je vrátane zdrojových kódov

 

Predchádzajúci článok
Import dát do nástroja Power BI
Všetky články v sekcii
Dátová analýza s Power BI
Preskočiť článok
(neodporúčame)
Základné úpravy a transformácia dát v Power Query
Článok pre vás napísal Adam Hamšík
Avatar
Užívateľské hodnotenie:
Ešte nikto nehodnotil, buď prvý!
.
Aktivity