4. diel - Dátové formáty CSV a JSON
V predchádzajúcej lekcii, Rola dát v rozhodovaní , sme sa zoznámili s princípom dátovo podloženého rozhodovania - DDDM.
V tomto tutoriále sa ponoríme do základov dátových formátov, ktoré sú kľúčové pre ukladanie, výmenu a analýzu dát. Zameriame sa na tri najčastejšie formáty – CSV, JSON a XML a spomenieme aj SQL.
Dátové formáty
Pre kompatibilitu medzi rôznymi systémami JSON
XML jednoduchého spracovania a následnej
analýzy CSV štandardizované dátové formáty, ktoré
definujú štruktúru a spôsob zápisu dát.
Príprava nástrojov - Visual Studio Code
Ešte než sa pustíme do práce s reálnymi datasetmi, stiahneme si editor Visual Studio Code (VS Code), ktorý nám umožní prehľadne zobraziť štruktúru dát v súboroch. Stiahneme ho zo stránok "Microsoftu".

Spustíme inštalačný súbor a potvrdíme oprávnenie vo Windows:

V sprievodcovi inštalácie potvrdíme Next (Ďalší):

Zaškrtneme doplnkové voľby:

Dokončíme inštaláciu:

CSV formát
CSV (Comma-Separated Values - hodnoty oddelené čiarkou) je obľúbený formát vďaka svojej jednoduchosti a kompatibilite s mnohými nástrojmi. Napríklad ho možno jednoducho otvoriť v aplikácii Excel.
Štruktúra CSV
CSV sa používa pre ukladanie tabuľkových dát. CSV súbor evidujúci napr. dve osoby by vyzeral takto:
Jméno;Příjmení;Ulice;Město;PSČ Jan;Novák;Příkrá 3,Vlašim;25801 Jana;Příhodová;U Hrušní 15;Benešov;25601
Hodnoty sú oddelené čiarkami (prípadne bodkočiarkami) a dáta sú usporiadané do riadkov, každá položka na jednom CSV obvykle obsahuje prvý, hlavičkový riadok, kde popisuje, čo ktorý stĺpec znamená.
CSV je najkratšia, ale aj najhoršie čitateľná. Nie je univerzálna – nepodporuje zložité dátové štruktúry (ako sú hierarchie) ani binárne dáta (napr. obrázky).
Problémy môžu nastať s čiarkami vo vnútri hodnôt Ak hodnota obsahuje čiarku, program, ktorý súbor CSV číta, ju môže mylne interpretovať ako oddeľovač medzi hodnotami To môže viesť k chybnému spracovaniu dát.
Využitie CSV súborov v praxi
Pre praktickú ukážku práce s csv súbormi sme si vybrali
dataset elektromobilov z portálu Kaggle.
Súbory stiahneme a rozbalíme. Ak máme nainštalovaný Excel,
môžeme súbor otvoriť priamo v ňom.

Zobrazí sa nám excelová tabuľka s dátami:

Vidíme, že náš dataset je pomerne neprehľadný. Poďme si ho otvoriť vo VS Code.

Vyberieme požadovaný súbor, ktorý chceme otvoriť (ktorý sme si predtým rozbalili):

VSC nám obvykle samo ponúkne možnosť inštalácie rozšírenia Rainbow CSV, ktoré jednotlivé položky zafarbia pre lepšiu čitateľnosť:

Ak sa tak nestane, sami si ho môžeme pridať kliknutím na ikonu Extensions, kde vyhľadáme rozšírenie Rainbow CSV a pridáme si ho kliknutím na Install:

S rozšírením Rainbow CSV docielime lepšiu prehľadnosť:

Vidíme značky a typy dostupných elektromobilov a ich ďalšie parametre, ktorých význam udáva prvý, hlavičkový riadok.
JSON
JSON (JavaScript Object Notation - zápis objektov jazyka JavaScript) je moderný formát pre zápis štruktúrovaných dát. Umožňuje ukladať záznamy ako zrozumiteľný text vo forme kľúč-hodnota a podporuje hierarchiu.
Štruktúra JSON
Dáta sú vo formáte JSON organizované do objektov a polí. Na rozdiel od tabuľkového CSV sa teda hodí pre zložitejšie štruktúry, napr. kde objekt v sebe obsahuje ďalšie objekty.
[ { "jmeno": "Jan", "prijmeni": "Novák", "ulice":"Příkrá", "mesto":"Vlašim", "psc":25801 }, { "jmeno": "Jana", "prijmeni": "Příhodová", "ulice":"U Hrušní 15", "mesto":"Benešov", "psc":25601 } ]
Pole (zoznam položiek) je usporiadané {}
hodnôt uzavreté v hranatých zátvorkách []. Jednotlivé
položky (tu objekty ) sú oddelené čiarkami. spravidla
odsadzuje, aby bol súbor lepšie čitateľný.
Všimnite si, že za poslednou položkou nie je čiarka, mohla by spôsobiť chybu formátu.
Vďaka tejto štruktúre je formát JSON ľahký, ľahko čitateľný a strojovo spracovateľný, čo ho robí ideálnym pre API a webové aplikácie.
JSON ale nepodporuje ukladanie binárnych dát bez prevodu (napríklad do Base64) a chýba mu podpora komentárov Pre rozsiahle dátové štruktúry môže byť menej efektívna ako niektoré iné formáty.
Ukážkový dataset v JSON
Podobu JSON formátu si ukážeme na príklade datasetu zo stránok Kaggle. Jedná sa o slávny dataset s meraním parametrov rôznych kvetov, ktorý sa používa v kurzoch dátovej analýzy.
Vo VSC súbor otvoríme podobne ako sme otvárali súbor vo formáte
CSV. Formátovanie JSON nastavíme vo VSC klávesovou
skratkou, čím sa opäť pekne zafarbí:
- Shift + Alt + F (Windows, Linux)
- Shift + Option + F (Mac)
Vidíme pole (zoznam) av ňom veľa objektov. Každý predstavuje meranie jedného kvetu.
sepal_length– dĺžka kališného lístka (v centimetroch)sepal_width– šírka kališného lístkapetal_length– dĺžka korunného lístkapetal_width– šírka korunného lístkaspecies– druh kvety (napr. setosa, versicolor, virginica)
JSON vyžaduje nástroje, ktoré vedia
hierarchické dáta spracovať.V budúcej lekcii, Dátové formáty XML a SQL , sa budeme zaoberať najrozšírenejšími formátmi pre dátovú analýzu - XML a SQL.
Stiahnuť
Stiahnutím nasledujúceho súboru súhlasíš s licenčnými podmienkamiStiahnuté 483x (7.09 kB)
