25. diel - ChatGPT - Čistenie a anonymizácia dát
V predchádzajúcej lekcii, ChatGPT - Praktické využitie na analýzu dát, sme si ukázali, ako pomocou ChatGPT generovať textové správy a triediť textové odpovede.
V dnešnom tutoriáli Úvodu do dátovej analýzy sa zameriame na to, ako ChatGPT pomáha s čistením dát, konkrétne so zjednotením, kategorizáciou a opravou textových údajov. Ručná úprava dát býva zdĺhavá. ChatGPT umožňuje rýchlo a bez programovania odstrániť nekonzistencie, opraviť preklepy a zjednotiť výrazy. Stačí jasne zadať požiadavku v prirodzenom jazyku.
Zjednotenie názvov
Používateľ zadal zoznam názvov miest, ktoré obsahujú rôzne varianty zápisu (napr. rôzne veľkosti písmen, preklepy alebo doplnkové informácie ako číslovky). Cieľom bolo zjednotiť tieto názvy do jednotného formátu tak, aby každé mesto bolo reprezentované iba jednou štandardizovanou verziou (Praha, Brno, Ostrava). Funkčnosť si najprv vyskúšame na jednoduchom príklade, čistenie väčšej tabuľky dát si ukážeme na konci lekcie:
Imagine we have data with the same city names, but in different variants and with errors: Original entry Praha praha Praha 1 Brno brno BRNO Ostrava ostava (typo) Standardize these city names into a single format (Praha, Brno, Ostrava)!
Výsledok:
...koniec náhľadu článku...
Pokračuj ďalej
Došiel si až sem a to je super! Veríme, že ti prvé lekcie ukázali niečo nového a užitočného.
Chceš v kurze pokračovať? Prejdi do prémiové sekcie.
Kúpiť iba tento kurz
Získaj okamžitý prístup ku kurzu bez
časového obmedzenia.
1 350 kreditov
Obsah článku spadá pod licenciu Premium, kúpou článku súhlasíš so zmluvnými podmienkami.
- Prístup k jednotlivým lekciám podľa spôsobu obstarania.
- Kvalitné znalosti v oblasti IT.
- Zručnosti, ktoré ti pomôžu získať vysnívanú a dobre platenú prácu.
Popis článku
Požadovaný článok má nasledujúci obsah:
V tutoriále si ukážeme, ako využiť ChatGPT pri čistení a príprave dát – najmä pri identifikácii kategórií, zjednotení výrazov a návrhoch pravidiel.
Kredity získaš, keď podporíš našu sieť. To môžeš urobiť buď zaslaním symbolickej sumy na podporu prevádzky alebo pridaním obsahu na sieť.