21. diel - Práca s PDF súbormi v Pythone - Obrázky a tabuľky
V predchádzajúcej lekcii, Práca s PDF súbormi v Pythone - Čítanie a extrakcia dát, sme si ukázali, ako čítať a
extrahovať dáta z PDF súborov pomocou knižníc PyMuPDF a
camelot.
V nasledujúcom tutoriáli práce s PDF súbormi v Pythone
budeme pokračovať v čítaní a extrakcii dát z PDF súboru. Okrem textu,
ktorý už načítať vieme, chceme aj informácie o obrázkoch a tabuľkách.
Na to opäť využijeme metódu get_text(), teraz však s
argumentom json.
Využitie JSON na analýzu PDF
Formát JSON nám poskytne detailnú štruktúru súboru. Poďme sa teda pozrieť na štruktúru štvrtej strany nášho modelového dokumentu. Postupujeme takto:
...koniec náhľadu článku...
Pokračuj ďalej
Došiel si až sem a to je super! Veríme, že ti prvé lekcie ukázali niečo nového a užitočného.
Chceš v kurze pokračovať? Prejdi do prémiové sekcie.
Kúpiť iba tento kurz
Získaj okamžitý prístup ku kurzu bez
časového obmedzenia.
550 kreditov
Pred kúpou tohto článku je potrebné kúpiť predchádzajúci diel
Obsah článku spadá pod licenciu Premium, kúpou článku súhlasíš so zmluvnými podmienkami.
- Prístup k jednotlivým lekciám podľa spôsobu obstarania.
- Kvalitné znalosti v oblasti IT.
- Zručnosti, ktoré ti pomôžu získať vysnívanú a dobre platenú prácu.
Popis článku
Požadovaný článok má nasledujúci obsah:
V nasledujúcom tutoriáli práce s PDF súbormi v Pythone dokončíme našu čítačku PDF súborov. Použijeme knižnice PyMuPDF a camelot.
Kredity získaš, keď podporíš našu sieť. To môžeš urobiť buď zaslaním symbolickej sumy na podporu prevádzky alebo pridaním obsahu na sieť.
