Vydělávej až 160.000 Kč měsíčně! Akreditované rekvalifikační kurzy s garancí práce od 0 Kč. Více informací.
Hledáme nové posily do ITnetwork týmu. Podívej se na volné pozice a přidej se do nejagilnější firmy na trhu - Více informací.

1. diel - Úvod do knižnice Pandas v Pythone

V tomto kurze jazyka Python sa zameriame na knižnicu Pandas. Najprv si vysvetlíme jej účel a naučíme sa ako knižnicu Pandas nainštalovať. Vysvetlíme si, ako v nej vyrobiť vlastný dataset alebo vložiť dataset cudzí. Ukážeme si tiež, ako pomocou tejto knižnice dokážeme urobiť jednoduchú štatistickú analýzu našich dát. V neposlednom rade si necháme vyrobiť aj pekné grafy.

Predpoklady pre zvládnutie kurzu

Pre úspešné absolvovanie kurzu je nutná znalosť jazyka Python najmenej v rozsahu základov. Výhodou je aspoň základná orientácia v štatistike.

Čo je Pandas?

Pandas je knižnica programovacieho jazyka Python 3, ktorá sa používa na prácu s datasetmi. Názov je vlastne slovnou hračkou, ktorá môže znamenať ako "Panel Data", tak "Python Data Analysis":

Pandas - Pandas - Vizualizácia dát v Pythone

Na čo je Pandas?

Knižnica Pandas sa používa na štatistickú prácu s dátami. Povedzme, že máme väčší objem údajov. Pandas je riešením, keď z neho potrebujeme vyťažiť konkrétne informácie. Môžeme ich potom zoradiť na základe hodnôt a treba ich aj očistiť o zlé a prázdne polia. S pomocou Pandas môžeme napríklad zoradiť svetové národy podľa výšky, vytvoriť graf závislosti druhov vtákov na typoch lesa, prípadne spočítať našu priemernú mesačnú útratu za nejaký typ tovaru.

Pandas vs R

Ak už máme so štatistikou nejaké skúsenosti, najskôr sme sa už stretli s programovacím jazykom R. "Erko" je obľúbená freewarová alternatíva používaná vo všetkých možných sférach, či už vo finančníctve alebo napríklad vo vedeckej sfére. Tento komplexný jazyk zaoberajúci sa takmer výhradne štatistikou má oveľa rozsiahlejšie možnosti ako Pandas. Prečo teda použiť Pandas? Dôvod je v podstate rovnaký, ako prečo používať Python samotný. Pandas je užívateľsky oveľa prívetivejší a naučiť sa s touto knižnicou pracovať trvá výrazne kratšiu dobu ako s jazykom R.

Knižnice spolupracujúce s Pandas

V programovacom jazyku označuje knižnica súbor funkcií, ktoré už niekto prichystal pred nami a uložil ich to premenných v rámci konkrétnej knižnice. V praxi nám to ušetrí veľa času a riadkov v kóde, pretože nemusíme písať celú funkciu znova. Stačí nám zavolať si konkrétnu funkciu z konkrétnej knižnice. Pandas je samostatnou knižnicou, ale aby sme plne ocenili jej funkcie, je dobré pri práci s ňou využiť ešte niekoľko ďalších knižníc.

NumPy

Numpy je knižnica, ktorá nám v Pythone umožňuje efektívne vykonávať matematické operácie na veľkých objemoch dát, vrátane tých viacrozmerných. Dôležité je tiež podotknúť, že celá knižnica Pandas stojí na knižnici NumPy.

MatPlotLib

Knižnicu MatPlotLib využijeme vo chvíli, keď budeme chcieť naše výsledky vizualizovať. Umožní nám vytvoriť celú škálu grafov, od korelačného diagramu scatterplotu, cez histogram a krabicový graf boxplot, až po zložitejšie systémy súradníc. Rovnako dokáže tieto vizualizácie farebne upravovať, zoomovať, prípadne vie aj upraviť ich škálu.

Ostatné

Okrem vyššie spomínaných knižníc existuje celý rad ďalších, ktoré majú podobné funkcie či rozširujú možnosti našej práce s Pandas iným smerom. Napríklad knižnica Statsmodels prehlbuje štatistické funkcie Pandas. Knižnice Altair, Bokeh a Plotly zase rozširujú vizualizačné možnosti. V tomto kurze sa nimi však nebudeme zaoberať.

Inštalácia Pandas

Inštalácia knižnice Pandas je veľmi jednoduchá. Môžeme si zvoliť jednu z dvoch nižšie popísaných metód – buď pomocou PIP alebo pomocou programu Anaconda.

Inštalácia pomocou PIP

Pokiaľ už máme nainštalovaný Python 3 a PIP, stačí do príkazového riadku napísať text nižšie:

pip install Pandas

Po chvíľke čakania bude knižnica Pandas pridaná do nášho Pythona. Rovnakým spôsobom následne nainštalujeme obe knižnice, ktoré využijeme v tomto kurze. Najprv NumPy:

pip install Numpy

A následne Matplotlib:

pip install Matplotlib

Inštalácia pomocou Anacondy

Pre začiatočníkov je tento variant inštalácie optimálnejšou metódou, pretože cez Anacondu môžeme do nášho Pythonu stiahnuť aj ďalšie užitočné knižnice a programy. Na stránke Anaconda.com si stiahneme verziu pre náš operačný systém. Dostupné sú pre Windows, MacOS aj Linux. Následne program spustíme a zahájime inštaláciu. Vyberieme zložku, kam Anacondu stiahneme a necháme všetky zaškrtávacie políčka v defaultnom stave. Políčko "Add anaconda to my PATH environment variable." chceme ponechať nezaškrtnuté. Po dokončení inštalácie máme Pandas v našom Pythone pripravený na prácu.

Pandas a Jupyter Notebook

Jedným z najobľúbenejších prostredí pre prácu s Pandas je Jupyter Notebook. Jedná sa o aplikáciu využívajúcu prostredie prehliadača, do ktorej píšeme svoj kód v Pythone. Prostredie, ako už názov napovedá, skutočne pripomína poznámkový blok, a je užívateľsky veľmi prívetivé. V Jupyter Notebooku budeme s pomocou Pandas knižnice tvoriť zoznamy, tabuľky aj grafy.

Jupyter Notebook nainštalujeme aj pomocou PIP:

pip install notebook

Vytvorenie projektu

Jupyter Notebook si spustíme buď cez príkazový riadok alebo Anacondu. Na otvorenie príkazového riadka stačí v počítači vyhľadať cmd a kliknúť naň. Akonáhle sa nám príkazový riadok otvorí, zadáme doňho:

python -m notebook

Po pár sekundách sa nám Jupyter Notebook otvorí ako nová záložka v prehliadači.

Ak sme si stiahli Anacondu, môžeme Jupyter Notebook taktiež otvoriť pomocou aplikácie Anaconda Navigator. Po spustení Anacondy si v hlavnom menu aplikácie nájdeme dlaždicu Jupyter Notebook a klikneme na Launch. Opäť sa nám objaví nová záložka v našom prehliadači:

Jupyter Notebook prostredie - Pandas - Vizualizácia dát v Pythone

Teraz si vytvoríme nový projekt. V pravom hornom rohu klikneme na New, čím sa nám rozbalí lišta. Hneď ako prvá máme možnosť Python 3. Tú vyberieme a otvorí sa nám nový projekt:

Nový projekt - Pandas - Vizualizácia dát v Pythone

Importovanie Pandas

V samotnom Pythone potom na začiatku nášho kódu importujeme Pandas pomocou import. Tradične sa Pandas importuje pod skratkou pd, pre prácu to však nie je podmienkou. Spolu s Pandas si importujeme obe knižnice, NumPy ako np az knižnice MatPlotlib si importujeme podmodul pyplot obsahujúci všetky pre nás dôležité funkcie. Ten má tradične skratku plt.

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

Stlačením kláves Shift + Enter potvrdíme import knižníc. V tejto chvíli náš Jupyter Notebook vyzerá takto a my sme pripravení s ním začať pracovať:

Nový projekt v Jupyter Notebook - Pandas - Vizualizácia dát v Pythone

Knižnicu aj pracovné prostredie teda máme pripravené a môžeme sa pustiť do práce. Pre túto lekciu je to ale všetko.

V budúcej lekcii, Pandas - Tvorba vlastného datasetu , sa dozvieme, ako v Pandas vytvoriť vlastný dataset.


 

Všetky články v sekcii
Pandas - Vizualizácia dát v Pythone
Preskočiť článok
(neodporúčame)
Pandas - Tvorba vlastného datasetu
Článok pre vás napísal Michal Souček
Avatar
Užívateľské hodnotenie:
2 hlasov
Michal
Aktivity