20. diel - Práca s PDF súbormi v Pythone - Čítanie a extrakcia dát
V predchádzajúcej lekcii, Práca so súbormi DocX v Pythone - Analýza blokov, sme zostavili celý program na analýzu a prečítanie súboru DocX.
V nasledujúcom tutoriáli práce s PDF súbormi v Pythone
si ukážeme, ako prečítať a extrahovať dáta zo súborov vo formáte
PDF. Na prácu s týmto formátom využijeme knižnice
PyMuPDF a camelot.
Práca s PDF súbormi v Pythone
Formát PDF patrí v súčasnosti k najpoužívanejším formátom na distribúciu dokumentov po celom svete a každý z nás sa s ním určite stretáva pomerne často. Je teda dôležité, aby sme tomuto formátu rozumeli a vedeli s ním zaobchádzať. Konkrétne sa zameriame na nasledujúce oblasti:
- prečítanie a extrakciu dát z PDF dokumentov,
- vytvorenie PDF dokumentov z HTML šablóny,
- prevedenie dokumentov iného formátu (
.docx,.xls...) do formátu PDF.
...koniec náhľadu článku...
Pokračuj ďalej
Došiel si až sem a to je super! Veríme, že ti prvé lekcie ukázali niečo nového a užitočného.
Chceš v kurze pokračovať? Prejdi do prémiové sekcie.
Kúpiť iba tento kurz
Získaj okamžitý prístup ku kurzu bez
časového obmedzenia.
550 kreditov
Pred kúpou tohto článku je potrebné kúpiť predchádzajúci diel
Obsah článku spadá pod licenciu Premium, kúpou článku súhlasíš so zmluvnými podmienkami.
- Prístup k jednotlivým lekciám podľa spôsobu obstarania.
- Kvalitné znalosti v oblasti IT.
- Zručnosti, ktoré ti pomôžu získať vysnívanú a dobre platenú prácu.
Popis článku
Požadovaný článok má nasledujúci obsah:
V nasledujúcom tutoriáli práce s PDF súbormi v Pythone si ukážeme, ako prečítať a extrahovať dáta z PDF súborov. Použijeme knižnice PyMuPDF a camelot.
Kredity získaš, keď podporíš našu sieť. To môžeš urobiť buď zaslaním symbolickej sumy na podporu prevádzky alebo pridaním obsahu na sieť.
