Mikuláš je tu! Získaj 90 % extra kreditov ZADARMO s promo kódom CERTIK90 pri nákupe od 1 199 kreditov. Len do nedele 7. 12. 2025! Zisti viac:
NOVINKA: Najžiadanejšie rekvalifikačné kurzy teraz s 50% zľavou + kurz AI ZADARMO. Nečakaj, táto ponuka dlho nevydrží! Zisti viac:

4. diel - Dátové formáty CSV a JSON

V predchádzajúcej lekcii, Rola dát v rozhodovaní , sme sa zoznámili s princípom dátovo podloženého rozhodovania - DDDM.

V tomto tutoriále sa ponoríme do základov dátových formátov, ktoré sú kľúčové pre ukladanie, výmenu a analýzu dát. Zameriame sa na tri najčastejšie formáty – CSV, JSON a XML a spomenieme aj SQL.

Dátové formáty

Pre kompatibilitu medzi rôznymi systémami JSON XML jednoduchého spracovania a následnej analýzy CSV štandardizované dátové formáty, ktoré definujú štruktúru a spôsob zápisu dát.

Príprava nástrojov - Visual Studio Code

Ešte než sa pustíme do práce s reálnymi datasetmi, stiahneme si editor Visual Studio Code (VS Code), ktorý nám umožní prehľadne zobraziť štruktúru dát v súboroch. Stiahneme ho zo stránok "Microsoftu".

Stiahnutie editora VS Code - Úvod do dátovej analýzy a obchodného rozhodovania - Úvod do dátovej analýzy a obchodného rozhodovania

Spustíme inštalačný súbor a potvrdíme oprávnenie vo Windows:

Spustenie VS code - Úvod do dátovej analýzy a obchodného rozhodovania - Úvod do dátovej analýzy a obchodného rozhodovania

V sprievodcovi inštalácie potvrdíme Next (Ďalší):

Sprievodca inštaláciou VS Code - Úvod do dátovej analýzy a obchodného rozhodovania - Úvod do dátovej analýzy a obchodného rozhodovania

Zaškrtneme doplnkové voľby:

Nastavenie doplnkových volieb VS Code - Úvod do dátovej analýzy a obchodného rozhodovania - Úvod do dátovej analýzy a obchodného rozhodovania

Dokončíme inštaláciu:

Dokončenie inštalácie VS Code - Úvod do dátovej analýzy a obchodného rozhodovania - Úvod do dátovej analýzy a obchodného rozhodovania

CSV formát

CSV (Comma-Separated Values - hodnoty oddelené čiarkou) je obľúbený formát vďaka svojej jednoduchosti a kompatibilite s mnohými nástrojmi. Napríklad ho možno jednoducho otvoriť v aplikácii Excel.

Štruktúra CSV

CSV sa používa pre ukladanie tabuľkových dát. CSV súbor evidujúci napr. dve osoby by vyzeral takto:

Jméno;Příjmení;Ulice;Město;PSČ
Jan;Novák;Příkrá 3,Vlašim;25801
Jana;Příhodová;U Hrušní 15;Benešov;25601

Hodnoty sú oddelené čiarkami (prípadne bodkočiarkami) a dáta sú usporiadané do riadkov, každá položka na jednom CSV obvykle obsahuje prvý, hlavičkový riadok, kde popisuje, čo ktorý stĺpec znamená.

CSV je najkratšia, ale aj najhoršie čitateľná. Nie je univerzálna – nepodporuje zložité dátové štruktúry (ako sú hierarchie) ani binárne dáta (napr. obrázky).

Problémy môžu nastať s čiarkami vo vnútri hodnôt Ak hodnota obsahuje čiarku, program, ktorý súbor CSV číta, ju môže mylne interpretovať ako oddeľovač medzi hodnotami To môže viesť k chybnému spracovaniu dát.

Využitie CSV súborov v praxi

Pre praktickú ukážku práce s csv súbormi sme si vybrali dataset elektromobilov z portálu Kaggle. Súbory stiahneme a rozbalíme. Ak máme nainštalovaný Excel, môžeme súbor otvoriť priamo v ňom.

Otvorenie datasetu v Excelu - Úvod do dátovej analýzy a obchodného rozhodovania - Úvod do dátovej analýzy a obchodného rozhodovania

Zobrazí sa nám excelová tabuľka s dátami:

Dataset s elektromobilmi v Exceli - Úvod do dátovej analýzy a obchodného rozhodovania - Úvod do dátovej analýzy a obchodného rozhodovania

Vidíme, že náš dataset je pomerne neprehľadný. Poďme si ho otvoriť vo VS Code.

Otvorenie súboru vo VS Code - Úvod do dátovej analýzy a obchodného rozhodovania - Úvod do dátovej analýzy a obchodného rozhodovania

Vyberieme požadovaný súbor, ktorý chceme otvoriť (ktorý sme si predtým rozbalili):

Otvoríme súbor s naším datasetom - Úvod do dátovej analýzy a obchodného rozhodovania - Úvod do dátovej analýzy a obchodného rozhodovania

VSC nám obvykle samo ponúkne možnosť inštalácie rozšírenia Rainbow CSV, ktoré jednotlivé položky zafarbia pre lepšiu čitateľnosť:

Dataset s možnosťou rozšírenia o Rainbow CSC - Úvod do dátovej analýzy a obchodného rozhodovania - Úvod do dátovej analýzy a obchodného rozhodovania

Ak sa tak nestane, sami si ho môžeme pridať kliknutím na ikonu Extensions, kde vyhľadáme rozšírenie Rainbow CSV a pridáme si ho kliknutím na Install:

Pridanie rozšírenia Rainbow CSV - Úvod do dátovej analýzy a obchodného rozhodovania - Úvod do dátovej analýzy a obchodného rozhodovania

S rozšírením Rainbow CSV docielime lepšiu prehľadnosť:

Vďaka rozšíreniu Rainbow CSV je dataset prehľadnejší - Úvod do dátovej analýzy a obchodného rozhodovania - Úvod do dátovej analýzy a obchodného rozhodovania

Vidíme značky a typy dostupných elektromobilov a ich ďalšie parametre, ktorých význam udáva prvý, hlavičkový riadok.

JSON

JSON (JavaScript Object Notation - zápis objektov jazyka JavaScript) je moderný formát pre zápis štruktúrovaných dát. Umožňuje ukladať záznamy ako zrozumiteľný text vo forme kľúč-hodnota a podporuje hierarchiu.

Štruktúra JSON

Dáta sú vo formáte JSON organizované do objektov a polí. Na rozdiel od tabuľkového CSV sa teda hodí pre zložitejšie štruktúry, napr. kde objekt v sebe obsahuje ďalšie objekty.

[
    {
        "jmeno": "Jan",
        "prijmeni": "Novák",
        "ulice":"Příkrá",
        "mesto":"Vlašim",
        "psc":25801
    },
    {
        "jmeno": "Jana",
        "prijmeni": "Příhodová",
        "ulice":"U Hrušní 15",
        "mesto":"Benešov",
        "psc":25601
    }
]

Pole (zoznam položiek) je usporiadané {} hodnôt uzavreté v hranatých zátvorkách []. Jednotlivé položky (tu objekty ) sú oddelené čiarkami. spravidla odsadzuje, aby bol súbor lepšie čitateľný.

Všimnite si, že za poslednou položkou nie je čiarka, mohla by spôsobiť chybu formátu.

Vďaka tejto štruktúre je formát JSON ľahký, ľahko čitateľný a strojovo spracovateľný, čo ho robí ideálnym pre API a webové aplikácie.

JSON ale nepodporuje ukladanie binárnych dát bez prevodu (napríklad do Base64) a chýba mu podpora komentárov Pre rozsiahle dátové štruktúry môže byť menej efektívna ako niektoré iné formáty.

Ukážkový dataset v JSON

Podobu JSON formátu si ukážeme na príklade datasetu zo stránok Kaggle. Jedná sa o slávny dataset s meraním parametrov rôznych kvetov, ktorý sa používa v kurzoch dátovej analýzy.

Vo VSC súbor otvoríme podobne ako sme otvárali súbor vo formáte CSV. Formátovanie JSON nastavíme vo VSC klávesovou skratkou, čím sa opäť pekne zafarbí:

  • Shift + Alt + F (Windows, Linux)
  • Shift + Option + F (Mac)
.<> Otvorenie JSON súboru vo VSC - Úvod do dátovej analýzy a obchodného rozhodovania - Úvod do dátovej analýzy a obchodného rozhodovania

Vidíme pole (zoznam) av ňom veľa objektov. Každý predstavuje meranie jedného kvetu.

  • sepal_length – dĺžka kališného lístka (v centimetroch)
  • sepal_width – šírka kališného lístka
  • petal_length – dĺžka korunného lístka
  • petal_width – šírka korunného lístka
  • species – druh kvety (napr. setosa, versicolor, virginica)
Práca s JSON vyžaduje nástroje, ktoré vedia hierarchické dáta spracovať.

V budúcej lekcii, Dátové formáty XML a SQL , sa budeme zaoberať najrozšírenejšími formátmi pre dátovú analýzu - XML a SQL.


 

Stiahnuť

Stiahnutím nasledujúceho súboru súhlasíš s licenčnými podmienkami

Stiahnuté 483x (7.09 kB)

 

Predchádzajúci článok
Rola dát v rozhodovaní
Všetky články v sekcii
Úvod do dátovej analýzy a obchodného rozhodovania
Preskočiť článok
(neodporúčame)
Dátové formáty XML a SQL
Článok pre vás napísal Jan Rypáček
Avatar
Užívateľské hodnotenie:
Ešte nikto nehodnotil, buď prvý!
Jan Rypáček
Aktivity