5. diel - Práca vo VS Code s CSV a JSON
V predchádzajúcom kvíze, Kvíz - Základy dátovej analýzy, kvalita a typy dát, sme si overili nadobudnuté skúsenosti z predchádzajúcich lekcií.
V tomto tutoriáli dátovej analýzy si ukážeme nástroj VS Code a to, ako pomocou neho pracovať so súbormi CSV. Uvedieme si tiež formát JSON.
Príprava nástrojov – Visual Studio Code
Ešte než sa pustíme do práce s datasetmi, stiahneme si editor Visual Studio Code (VS Code), ktorý nám umožní prehľadne zobraziť štruktúru dát v súboroch. Editor stiahneme zo stránok Microsoftu a nainštalujeme:

Spustíme inštalačný súbor a potvrdíme oprávnenie vo Windows:

V sprievodcovi inštaláciou klikneme na Next (Ďalej):

Zaškrtneme doplnkové voľby:

A dokončíme inštaláciu:

Práca s CSV súbormi vo VS Code
Poďme si súbor CSV ElectricCarData_Clean.csv z minulej lekcie
otvoriť vo VS Code. Uvidíme ho v surovej textovej podobe, kde s dátami
nemôžeme na rozdiel od Excelu pracovať, ale bude aspoň prehľadne
zafarbený. V hornej časti okna editora nabehneme myšou na položku
File. Vyberieme možnosť Open File… a klikneme na ňu:

Vyberieme požadovaný súbor, ktorý chceme otvoriť a ktorý sme si predtým rozbalili:

VS Code nám zvyčajne samo ponúkne možnosť inštalácie rozšírenia Rainbow CSV, ktoré jednotlivé položky zafarbí pre lepšiu čitateľnosť:

Ak sa tak nestane, rozšírenie si môžeme pridať sami kliknutím na ikonu Extensions, kde vyhľadáme rozšírenie Rainbow CSV. Pridáme si ho kliknutím na Install:

S rozšírením Rainbow CSV dosiahneme lepšiu prehľadnosť:

Vidíme značky a typy dostupných elektromobilov a ich ďalšie parametre, ktorých význam udáva prvý, hlavičkový riadok.
JSON
JSON (JavaScript Object Notation – zápis objektov jazyka JavaScript) je moderný formát na zápis štruktúrovaných dát. Umožňuje ukladať záznamy ako zrozumiteľný text vo forme kľúč: hodnota a podporuje hierarchiu. Je ideálny na prenos dát medzi systémami a často sa používa vo webových službách, API a rôznych dátových platformách.
Štruktúra JSON
Dáta sú vo formáte JSON organizované do objektov a polí. Na rozdiel od tabuľkového CSV sa teda hodí pre zložitejšie štruktúry, napr. tam, kde objekt v sebe obsahuje ďalšie objekty. Ukážkový JSON s dvoma osobami by vyzeral takto:
[ { "first_name": "John", "last_name": "Smith", "street": "31 Queen Street", "city": "Liverpool", "zip_code": 13 }, { "first_name": "Jane", "last_name": "Davis", "street": "19 Park Avenue", "city": "Leeds", "zip_code": 28 } ]
Pole (zoznam položiek) je usporiadané zoskupenie hodnôt
uzavreté v hranatých zátvorkách []. Jednotlivé položky (tu
objekty) sú oddelené čiarkami. Objekt sa skladá z dvojíc kľúč:
hodnota, čo ho robí dobre čitateľným, a je uzavretý v zložených
zátvorkách {}. Texty sa píšu do úvodzoviek, aby sa neplietli s
ďalším obsahom. Každá úroveň vnorenia sa spravidla odsádza zľava
medzerami alebo tabulátormi, aby bol súbor čitateľnejší.
Všimnime si, že za poslednou položkou nie je čiarka. Tá by mohla spôsobiť chybu formátu.
Vďaka tejto štruktúre je formát JSON ľahký, ľahko čitateľný a strojovo spracovateľný, čo ho robí ideálnym pre API a webové aplikácie.
JSON nepodporuje ukladanie binárnych dát bez prevodu (napríklad do Base64) a chýba mu podpora komentárov. Pre rozsiahle dátové štruktúry môže byť menej efektívny než niektoré iné formáty.
Ukážkový dataset v JSON
Podobu formátu JSON si ukážeme na príklade datasetu zo stránok Kaggle.
Ide o slávny dataset s meraním parametrov rôznych kvetín, ktorý sa
používa v kurzoch dátovej analýzy. Vzhľadom na rozsah tohto datasetu si
ukážeme len jeho časť. Opäť ho nájdete aj v archíve pod lekciou ako
súbor iris.json. Na rozdiel od formátu CSV nám Excel súbory
JSON už neotvorí.
Vo VS Code súbor otvoríme podobne, ako sme otvárali súbor vo formáte
CSV. Formátovanie JSON nastavíme vo VS Code klávesovou skratkou,
čím sa dáta opäť pekne zafarbia:
- Shift + Alt + F (Windows, Linux),
- Shift + Option + F (Mac).

Vidíme pole (zoznam) a v ňom množstvo objektov. Každý objekt predstavuje meranie jednej kvetiny. Vysvetlíme si jednotlivé položky:
sepal_length– dĺžka kališného lístka (v centimetroch),sepal_width– šírka kališného lístka,petal_length– dĺžka korunného lístka,petal_width– šírka korunného lístka,species– druh kvetiny (napr. setosa, versicolor, virginica).
Práca so súbormi JSON vyžaduje nástroje, ktoré vedia spracovať hierarchické dáta. Patrí medzi ne napríklad Power BI, k používaniu ktorého sa dostaneme v neskorších lekciách.
V budúcej lekcii Dátové formáty XML a SQL sa budeme venovať najrozšírenejším formátom pre dátovú analýzu – XML a SQL.
Stiahnuť
Stiahnutím nasledujúceho súboru súhlasíš s licenčnými podmienkamiStiahnuté 214x (7.09 kB)
