NOVINKA: Kurz kybernetickej bezpečnosti teraz už od 0 €. Staň sa žiadaným profesionálom. Zisti viac:
NOVINKA: Staň sa dátovým analytikom od 0 € a získaj istotu práce, lepší plat a nové kariérne možnosti. Viac informácií:

5. diel - Práca vo VS Code s CSV a JSON

V predchádzajúcom kvíze, Kvíz - Základy dátovej analýzy, kvalita a typy dát, sme si overili nadobudnuté skúsenosti z predchádzajúcich lekcií.

V tomto tutoriáli dátovej analýzy si ukážeme nástroj VS Code a to, ako pomocou neho pracovať so súbormi CSV. Uvedieme si tiež formát JSON.

Príprava nástrojov – Visual Studio Code

Ešte než sa pustíme do práce s datasetmi, stiahneme si editor Visual Studio Code (VS Code), ktorý nám umožní prehľadne zobraziť štruktúru dát v súboroch. Editor stiahneme zo stránok Microsoftu a nainštalujeme:

Stiahnutie editora VS Code - Úvod do dátovej analýzy a obchodného rozhodovania

Spustíme inštalačný súbor a potvrdíme oprávnenie vo Windows:

Spustenie VS Code - Úvod do dátovej analýzy a obchodného rozhodovania

V sprievodcovi inštaláciou klikneme na Next (Ďalej):

Sprievodca inštaláciou VS Code - Úvod do dátovej analýzy a obchodného rozhodovania

Zaškrtneme doplnkové voľby:

Nastavenie doplnkových volieb VS Code - Úvod do dátovej analýzy a obchodného rozhodovania

A dokončíme inštaláciu:

Dokončenie inštalácie VS Code - Úvod do dátovej analýzy a obchodného rozhodovania

Práca s CSV súbormi vo VS Code

Poďme si súbor CSV ElectricCarData_Clean.csv z minulej lekcie otvoriť vo VS Code. Uvidíme ho v surovej textovej podobe, kde s dátami nemôžeme na rozdiel od Excelu pracovať, ale bude aspoň prehľadne zafarbený. V hornej časti okna editora nabehneme myšou na položku File. Vyberieme možnosť Open File… a klikneme na ňu:

Otvorenie súboru vo VS Code - Úvod do dátovej analýzy a obchodného rozhodovania

Vyberieme požadovaný súbor, ktorý chceme otvoriť a ktorý sme si predtým rozbalili:

Otvoríme súbor s naším datasetom - Úvod do dátovej analýzy a obchodného rozhodovania

VS Code nám zvyčajne samo ponúkne možnosť inštalácie rozšírenia Rainbow CSV, ktoré jednotlivé položky zafarbí pre lepšiu čitateľnosť:

Dataset s možnosťou rozšírenia o Rainbow CSV - Úvod do dátovej analýzy a obchodného rozhodovania

Ak sa tak nestane, rozšírenie si môžeme pridať sami kliknutím na ikonu Extensions, kde vyhľadáme rozšírenie Rainbow CSV. Pridáme si ho kliknutím na Install:

Pridanie rozšírenia Rainbow CSV - Úvod do dátovej analýzy a obchodného rozhodovania

S rozšírením Rainbow CSV dosiahneme lepšiu prehľadnosť:

Vďaka rozšíreniu Rainbow CSV je dataset prehľadnejší - Úvod do dátovej analýzy a obchodného rozhodovania

Vidíme značky a typy dostupných elektromobilov a ich ďalšie parametre, ktorých význam udáva prvý, hlavičkový riadok.

JSON

JSON (JavaScript Object Notation – zápis objektov jazyka JavaScript) je moderný formát na zápis štruktúrovaných dát. Umožňuje ukladať záznamy ako zrozumiteľný text vo forme kľúč: hodnota a podporuje hierarchiu. Je ideálny na prenos dát medzi systémami a často sa používa vo webových službách, API a rôznych dátových platformách.

Štruktúra JSON

Dáta sú vo formáte JSON organizované do objektov a polí. Na rozdiel od tabuľkového CSV sa teda hodí pre zložitejšie štruktúry, napr. tam, kde objekt v sebe obsahuje ďalšie objekty. Ukážkový JSON s dvoma osobami by vyzeral takto:

[
    {
        "first_name": "John",
        "last_name": "Smith",
        "street": "31 Queen Street",
        "city": "Liverpool",
        "zip_code": 13
    },
    {
        "first_name": "Jane",
        "last_name": "Davis",
        "street": "19 Park Avenue",
        "city": "Leeds",
        "zip_code": 28
    }
]

Pole (zoznam položiek) je usporiadané zoskupenie hodnôt uzavreté v hranatých zátvorkách []. Jednotlivé položky (tu objekty) sú oddelené čiarkami. Objekt sa skladá z dvojíc kľúč: hodnota, čo ho robí dobre čitateľným, a je uzavretý v zložených zátvorkách {}. Texty sa píšu do úvodzoviek, aby sa neplietli s ďalším obsahom. Každá úroveň vnorenia sa spravidla odsádza zľava medzerami alebo tabulátormi, aby bol súbor čitateľnejší.

Všimnime si, že za poslednou položkou nie je čiarka. Tá by mohla spôsobiť chybu formátu.

Vďaka tejto štruktúre je formát JSON ľahký, ľahko čitateľný a strojovo spracovateľný, čo ho robí ideálnym pre API a webové aplikácie.

JSON nepodporuje ukladanie binárnych dát bez prevodu (napríklad do Base64) a chýba mu podpora komentárov. Pre rozsiahle dátové štruktúry môže byť menej efektívny než niektoré iné formáty.

Ukážkový dataset v JSON

Podobu formátu JSON si ukážeme na príklade datasetu zo stránok Kaggle. Ide o slávny dataset s meraním parametrov rôznych kvetín, ktorý sa používa v kurzoch dátovej analýzy. Vzhľadom na rozsah tohto datasetu si ukážeme len jeho časť. Opäť ho nájdete aj v archíve pod lekciou ako súbor iris.json. Na rozdiel od formátu CSV nám Excel súbory JSON už neotvorí.

Vo VS Code súbor otvoríme podobne, ako sme otvárali súbor vo formáte CSV. Formátovanie JSON nastavíme vo VS Code klávesovou skratkou, čím sa dáta opäť pekne zafarbia:

  • Shift + Alt + F (Windows, Linux),
  • Shift + Option + F (Mac).
Otvorenie JSON súboru vo VS Code - Úvod do dátovej analýzy a obchodného rozhodovania

Vidíme pole (zoznam) a v ňom množstvo objektov. Každý objekt predstavuje meranie jednej kvetiny. Vysvetlíme si jednotlivé položky:

  • sepal_length – dĺžka kališného lístka (v centimetroch),
  • sepal_width – šírka kališného lístka,
  • petal_length – dĺžka korunného lístka,
  • petal_width – šírka korunného lístka,
  • species – druh kvetiny (napr. setosa, versicolor, virginica).

Práca so súbormi JSON vyžaduje nástroje, ktoré vedia spracovať hierarchické dáta. Patrí medzi ne napríklad Power BI, k používaniu ktorého sa dostaneme v neskorších lekciách.

V budúcej lekcii Dátové formáty XML a SQL sa budeme venovať najrozšírenejším formátom pre dátovú analýzu – XML a SQL.


 

Stiahnuť

Stiahnutím nasledujúceho súboru súhlasíš s licenčnými podmienkami

Stiahnuté 214x (7.09 kB)

 

Predchádzajúci článok
Kvíz - Základy dátovej analýzy, kvalita a typy dát
Všetky články v sekcii
Úvod do dátovej analýzy a obchodného rozhodovania
Preskočiť článok
(neodporúčame)
Dátové formáty XML a SQL
Článok pre vás napísal Jan Rypáček
Avatar
Užívateľské hodnotenie:
Ešte nikto nehodnotil, buď prvý!
Jan Rypáček
Aktivity