Tots heu d'estar familiaritzats amb què són els PDF. De fet, són un dels mitjans digitals més importants i utilitzats. PDF significa Format de document portàtil . S'utilitza .pdf extensió. S'utilitza per presentar i intercanviar documents de manera fiable, independentment del programari, maquinari o sistema operatiu.
Extraurem text dels fitxers pdf mitjançant dues biblioteques de Python, pypdf i PyMuPDF , en aquest article.
Extracció de text d'un fitxer PDF mitjançant la biblioteca pypdf.
Paquet Python pypdf pot servir per aconseguir el que volem (extracció de text), encara que pot fer més del que necessitem. Aquest paquet també es pot utilitzar per generar, desxifrar i combinar fitxers PDF. Nota: Per a més informació, consulteu Treballar amb fitxers PDF a Python
Instal·lació
Per instal·lar aquest paquet, escriviu l'ordre següent al terminal.
pip install pypdf>
Exemple: PDF d'entrada: 
Python 3
Neena Gupta
# importing required modules> from> pypdf>import> PdfReader> > # creating a pdf reader object> reader>=> PdfReader(>'example.pdf'>)> > # printing number of pages in pdf file> print>(>len>(reader.pages))> > # getting a specific page from the pdf file> page>=> reader.pages[>0>]> > # extracting text from page> text>=> page.extract_text()> print>(text)> |
>
>
Sortida:
Intentem entendre el codi anterior en trossos:
reader = PdfReader('example.pdf')> - Hem creat un objecte de PdfReader classe de la pypdf mòdul.
- El PdfReader class pren un argument de posició requerit de la ruta al fitxer pdf.
print(len(reader.pages))>
- pàgines propietat dóna una llista de PageObjects . Per tant, aquí podem utilitzar l'incorporat només () funció de Python per obtenir el nombre de pàgines del fitxer pdf.
page = reader.pages[0]>
- Ara, com lector.pàgines és una llista de PageObjects , podem obtenir un concret Pàgina del pdf tocant a l'índex de la pàgina. A Python, la indexació de la llista comença des de 0, per tant reader.pages[0] ens dóna la primera pàgina del fitxer pdf.
text = page.extract_text() print(text)>
- L'objecte de la pàgina té funció extracte_text() per extreure text de la pàgina pdf.
Extracció de text d'un fitxer PDF mitjançant la biblioteca PyMuPDF.
PyMuPDF és una biblioteca de Python que admet formats de fitxer com XPS, PDF, CBR i CBZ. Però de moment, en aquest article, ens centrarem en els fitxers PDF (Portable Document Format).
Instal·lació
pip install pymupdf pip install fitz>
Per extreure el text del pdf, hem de seguir els següents passos:
llançar cadena a int
- Importació de la biblioteca
- Document d'obertura
- Extracció de text
Nota: Estem utilitzant el sample.pdf aquí; per obtenir el pdf, utilitzeu l'enllaç següent.
sample.pdf – Enllaç
1. Importació de la biblioteca
Python 3
import> fitz> |
>
>
2. Document d'obertura
Python 3
connectar-se a una base de dades java
doc>=> fitz.>open>(>'sample.pdf'>)> |
>
>
Aquí hem creat un objecte anomenat doc , i el nom del fitxer hauria de ser una cadena de Python.
3. Extracció de text
Python 3
for> page>in> doc:> >text>=> page.get_text()> >print>(text)> |
igualtat d'objectes java
>
>
Aquí, hem iterat pàgines en pdf i hem utilitzat get_text() mètode per extreure cada pàgina del fitxer.
Tot el Codi per extreure el text
Python 3
bloquejar anuncis a youtube Android
import> fitz> doc>=> fitz.>open>(>'sample.pdf'>)> text>=> ''> for> page>in> doc:> >text>+>=>page.get_text()> print>(text)> |
>
>
Sortida:

Conclusió
Hem vist dues biblioteques de Python, pypdf i PyMuPDF , que pot extreure text d'un fitxer PDF. Comenta la teva biblioteca preferida de les dues biblioteques anteriors.