21. diel - Práca s PDF súbormi v Pythone - Obrázky a tabuľky
V predchádzajúcej lekcii, Práca s PDF súbormi v Pythone - Čítanie a extrakcia dát, sme si ukázali, ako čítať a
extrahovať dáta z PDF súborov pomocou knižníc PyMuPDF a
camelot.
V nasledujúcom tutoriáli práce s PDF súbormi v Pythone
budeme pokračovať v čítaní a extrakcii dát z PDF súboru. Okrem textu,
ktorý už načítať vieme, chceme aj informácie o obrázkoch a tabuľkách.
Na to opäť využijeme metódu get_text(), teraz však s
argumentom json.
Využitie JSON na analýzu PDF
Formát JSON nám poskytne detailnú štruktúru súboru. Poďme sa teda pozrieť na štruktúru štvrtej strany nášho modelového dokumentu. Postupujeme takto:
...koniec náhľadu článku...
Pokračuj ďalej
Došiel si až sem a to je super! Veríme, že ti prvé lekcie ukázali niečo nového a užitočného.
Chceš v kurze pokračovať? Prejdi do prémiové sekcie.
Obmedzená ponuka: Nauč sa všetko a ušetri
Pred kúpou tohto článku je potrebné kúpiť predchádzajúci diel
Obsah článku spadá pod licenciu Premium, kúpou článku súhlasíš so zmluvnými podmienkami.
- Neobmedzený a trvalý prístup k jednotlivým lekciím.
- Kvalitné znalosti v oblasti IT.
- Zručnosti, ktoré ti pomôžu získať vysnívanú a dobre platenú prácu.
Popis článku
Požadovaný článok má nasledujúci obsah:
V nasledujúcom tutoriáli práce s PDF súbormi v Pythone dokončíme našu čítačku PDF súborov. Použijeme knižnice PyMuPDF a camelot.
Kredity získaš, keď podporíš našu sieť. To môžeš urobiť buď zaslaním symbolickej sumy na podporu prevádzky alebo pridaním obsahu na sieť.
