20. diel - Práca s PDF súbormi v Pythone - Čítanie a extrakcia dát
V predchádzajúcej lekcii, Práca so súbormi DocX v Pythone - Analýza blokov, sme zostavili celý program na analýzu a prečítanie súboru DocX.
V nasledujúcom tutoriáli práce s PDF súbormi v Pythone
si ukážeme, ako prečítať a extrahovať dáta zo súborov vo formáte
PDF. Na prácu s týmto formátom využijeme knižnice
PyMuPDF a camelot.
Práca s PDF súbormi v Pythone
Formát PDF patrí v súčasnosti k najpoužívanejším formátom na distribúciu dokumentov po celom svete a každý z nás sa s ním určite stretáva pomerne často. Je teda dôležité, aby sme tomuto formátu rozumeli a vedeli s ním zaobchádzať. Konkrétne sa zameriame na nasledujúce oblasti:
- prečítanie a extrakciu dát z PDF dokumentov,
- vytvorenie PDF dokumentov z HTML šablóny,
- prevedenie dokumentov iného formátu (
.docx,.xls...) do formátu PDF.
...koniec náhľadu článku...
Pokračuj ďalej
Došiel si až sem a to je super! Veríme, že ti prvé lekcie ukázali niečo nového a užitočného.
Chceš v kurze pokračovať? Prejdi do prémiové sekcie.
Obmedzená ponuka: Nauč sa všetko a ušetri
Pred kúpou tohto článku je potrebné kúpiť predchádzajúci diel
Obsah článku spadá pod licenciu Premium, kúpou článku súhlasíš so zmluvnými podmienkami.
- Neobmedzený a trvalý prístup k jednotlivým lekciím.
- Kvalitné znalosti v oblasti IT.
- Zručnosti, ktoré ti pomôžu získať vysnívanú a dobre platenú prácu.
Popis článku
Požadovaný článok má nasledujúci obsah:
V nasledujúcom tutoriáli práce s PDF súbormi v Pythone si ukážeme, ako prečítať a extrahovať dáta z PDF súborov. Použijeme knižnice PyMuPDF a camelot.
Kredity získaš, keď podporíš našu sieť. To môžeš urobiť buď zaslaním symbolickej sumy na podporu prevádzky alebo pridaním obsahu na sieť.
