Я пытаюсь извлечь текст из PDF-файлов doem с помощью Textract. Однако, когда я печатаю текст в конце кода, он просто печатает много пустых мест. Может ли кто-нибудь указать мне направление происходящего? (текст не = "", кстати)
import os
import codecs
import PyPDF2
import textract
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
for filename in os.listdir('Harbour PDF'):
if '.DS_Store' == filename:
continue
filename = 'Harbour PDF/' + filename
print(filename)
pdfFileObj = open(filename,'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
num_pages = pdfReader.numPages
count = 0
text = ""
while count < num_pages:
pageObj = pdfReader.getPage(count)
count +=1
text += pageObj.extractText()
if text != "":
text = text
else:
text = textract.process(pdfFileObj, method='tesseract', language='eng')
print(text)