logo

Extreu text del fitxer PDF mitjançant Python

Tots heu d'estar familiaritzats amb què són els PDF. De fet, són un dels mitjans digitals més importants i utilitzats. PDF significa Format de document portàtil . S'utilitza .pdf extensió. S'utilitza per presentar i intercanviar documents de manera fiable, independentment del programari, maquinari o sistema operatiu.

Extraurem text dels fitxers pdf mitjançant dues biblioteques de Python, pypdf i PyMuPDF , en aquest article.



Extracció de text d'un fitxer PDF mitjançant la biblioteca pypdf.

Paquet Python pypdf pot servir per aconseguir el que volem (extracció de text), encara que pot fer més del que necessitem. Aquest paquet també es pot utilitzar per generar, desxifrar i combinar fitxers PDF. Nota: Per a més informació, consulteu Treballar amb fitxers PDF a Python

Instal·lació

Per instal·lar aquest paquet, escriviu l'ordre següent al terminal.

pip install pypdf>

Exemple: PDF d'entrada: extracte-pdf-text-python



Python 3






Neena Gupta

# importing required modules> from> pypdf>import> PdfReader> > # creating a pdf reader object> reader>=> PdfReader(>'example.pdf'>)> > # printing number of pages in pdf file> print>(>len>(reader.pages))> > # getting a specific page from the pdf file> page>=> reader.pages[>0>]> > # extracting text from page> text>=> page.extract_text()> print>(text)>

>

>

Sortida:

extracte-pdf-python

Intentem entendre el codi anterior en trossos:

reader = PdfReader('example.pdf')>
  • Hem creat un objecte de PdfReader classe de la pypdf mòdul.
  • El PdfReader class pren un argument de posició requerit de la ruta al fitxer pdf.
print(len(reader.pages))>
  • pàgines propietat dóna una llista de PageObjects . Per tant, aquí podem utilitzar l'incorporat només () funció de Python per obtenir el nombre de pàgines del fitxer pdf.
page = reader.pages[0]>
  • Ara, com lector.pàgines és una llista de PageObjects , podem obtenir un concret Pàgina del pdf tocant a l'índex de la pàgina. A Python, la indexació de la llista comença des de 0, per tant reader.pages[0] ens dóna la primera pàgina del fitxer pdf.
text = page.extract_text() print(text)>
  • L'objecte de la pàgina té funció extracte_text() per extreure text de la pàgina pdf.

Extracció de text d'un fitxer PDF mitjançant la biblioteca PyMuPDF.

PyMuPDF és una biblioteca de Python que admet formats de fitxer com XPS, PDF, CBR i CBZ. Però de moment, en aquest article, ens centrarem en els fitxers PDF (Portable Document Format).

Instal·lació

pip install pymupdf pip install fitz>

Per extreure el text del pdf, hem de seguir els següents passos:

llançar cadena a int
  1. Importació de la biblioteca
  2. Document d'obertura
  3. Extracció de text

Nota: Estem utilitzant el sample.pdf aquí; per obtenir el pdf, utilitzeu l'enllaç següent.

sample.pdf – Enllaç

1. Importació de la biblioteca

Python 3




import> fitz>

>

>

2. Document d'obertura

Python 3


connectar-se a una base de dades java



doc>=> fitz.>open>(>'sample.pdf'>)>

>

>

Aquí hem creat un objecte anomenat doc , i el nom del fitxer hauria de ser una cadena de Python.

3. Extracció de text

Python 3




for> page>in> doc:> >text>=> page.get_text()> >print>(text)>

igualtat d'objectes java

>

>

Aquí, hem iterat pàgines en pdf i hem utilitzat get_text() mètode per extreure cada pàgina del fitxer.

Tot el Codi per extreure el text

Python 3


bloquejar anuncis a youtube Android



import> fitz> doc>=> fitz.>open>(>'sample.pdf'>)> text>=> ''> for> page>in> doc:> >text>+>=>page.get_text()> print>(text)>

>

>

Sortida:

Conclusió

Hem vist dues biblioteques de Python, pypdf i PyMuPDF , que pot extreure text d'un fitxer PDF. Comenta la teva biblioteca preferida de les dues biblioteques anteriors.