5. diel - Práca vo VS Code s CSV a JSON
V predchádzajúcej lekcii, Štruktúrované a neštruktúrované údaje , sme sa zoznámili s rozdielmi medzi štruktúrovanými a neštruktúrovanými dátami a možnosťami ich kombinácie.
V tomto tutoriále dátovej analýzy si ukážeme nástroj VS Code a ako s ním pracovať so súbormi CSV. Uvedieme si tiež formát JSON.
Príprava nástrojov – Visual Studio Code
Ešte než sa pustíme do práce s datasetmi, stiahneme si editor Visual Studio Code (VS Code), ktorý nám umožní prehľadne zobraziť štruktúru dát v súboroch.

Spustíme inštalačný súbor a potvrdíme oprávnenie vo Windows:

V sprievodcovi inštalácie klikneme na Next (Ďalej):

Zaškrtneme doplnkové voľby:

A dokončíme inštaláciu:

Práca s csv súbormi vo VS Code
Poďme si CSV súbor ElectricCarData_Clean.csv z minulej lekcie
otvoriť vo VS Code. Uvidíme ho v surovej textovej podobe, kde s
dátami nemôžeme na rozdiel od Excelu pracovať, ale bude aspoň
prehľadne zafarbený.

Vyberieme požadovaný súbor, ktorý chceme otvoriť (ktorý sme si predtým rozbalili):

VS Code nám obvykle samo ponúkne možnosť inštalácie rozšírenia Rainbow CSV, ktoré jednotlivé položky zafarbia pre lepšiu čitateľnosť:

Ak sa tak nestane, rozšírenie si môžeme pridať sami kliknutím na ikonu Extensions, kde vyhľadáme rozšírenie Rainbow CSV.

S rozšírením Rainbow CSV docielime lepšiu prehľadnosť:

Vidíme značky a typy dostupných elektromobilov a ich ďalšie parametre, ktorých význam udáva prvý, hlavičkový riadok.
JSON
JSON (JavaScript Object Notation – zápis objektov jazyka JavaScript) je moderný formát pre zápis štruktúrovaných dát . Umožňuje ukladať záznamy ako zrozumiteľný text vo forme kľúča: hodnota a podporuje hierarchiu.
Štruktúra JSON
Dáta sú vo formáte JSON organizované do objektov a polí. Na rozdiel od tabuľkového CSV sa teda hodia pre zložitejšie štruktúry, napr. tam, kde objekt v sebe obsahuje ďalšie objekty Ukážkový JSON s dvoma osobami by vyzeral takto:
[ { "jmeno": "Jan", "prijmeni": "Novák", "ulice": "Příkrá", "mesto": "Vlašim", "psc": 25801 }, { "jmeno": "Jana", "prijmeni": "Příhodová", "ulice": "U Hrušní 15", "mesto": "Benešov", "psc": 25601 } ]
Pole (zoznam položiek) je usporiadané zoskupenie hodnôt
uzatvorené v hranatých zátvorkách []. Jednotlivé položky (tu
objekty ) {} oddelené čiarkami. sa spravidla
odsadzuje zľava medzerami alebo tabulátormi, aby bol súbor lepšie
čitateľný.
Všimnime si, že za poslednou položkou nie je čiarka. Tá by mohla spôsobiť chybu formátu.
Vďaka tejto štruktúre je formát JSON ľahký, ľahko čitateľný a strojovo spracovateľný, čo ho robí ideálnym pre API a webové aplikácie.
JSON nepodporuje ukladanie binárnych dát bez prevodu (napríklad do Base64) a chýba mu podpora komentárov Pre rozsiahle dátové štruktúry môže byť menej efektívna ako niektoré iné formáty.
Ukážkový dataset v JSON
Podobu JSON formátu si ukážeme na príklade datasetu zo stránok Kaggle. Jedná sa o slávny dataset s meraním parametrov rôznych kvetín, ktorý sa používa v kurzoch dátovej analýzy.
Vo VS Code súbor otvoríme podobne, ako sme otvárali súbor vo formáte
CSV. Formátovanie JSON nastavíme vo VS Code klávesovou skratkou,
čím sa dáta opäť pekne zafarbia:
- Shift + Alt + F (Windows, Linux),
- Shift + Option + F (Mac).
Vidíme pole (zoznam) av ňom veľa objektov. Každý objekt predstavuje meranie jedného kvetu.
sepal_length– dĺžka kališného lístka (v centimetroch),sepal_width– šírka kališného lístka,petal_length– dĺžka korunného lístka,petal_width– šírka korunného lístka,species– druh kvety (napr. setosa, versicolor, virginica).
V ďalšej lekcii, Dáta Lifecycle a metódy zberu dát , sa zoznámime s procesom, ktorým prechádzajú dáta pri dátovej analýze, a priblížime si metódu zberu dát.
Stiahnuť
Stiahnutím nasledujúceho súboru súhlasíš s licenčnými podmienkamiStiahnuté 115x (7.09 kB)
