我使用爬虫从网站和tring获得一些pdf文件转换为txt,我得到了这个错误,获取UnsupportedOperation:搜索。
我搜索了很多网站,只是帮不了我解决这个问题。
文件"",第51行,解析praser_pdf = PDFParser(fp)
文件"D:\Anaconda\lib\site-packages\pdfminer\pdfparser.py",第43行,在init fp中)
文件"D:\Anaconda\lib\site-packages\pdfminer\psparser.py",第515行,在init fp中)
文件"D:\Anaconda\lib\site-packages\pdfminer\psparser.py",第169号,init self.seek(0)
文件"D:\Anaconda\lib\site-packages\pdfminer\psparser.py",第527行,在搜索PSBaseParser.seek(self,pos)中
文件"D:\Anaconda\lib\site-packages\pdfminer\psparser.py",第199行,在搜索self.fp.seek(pos)中
UnsupportedOperation:寻找
这是我的密码
baseurl = "http://reportdocs.static.szse.cn/UpFiles/fxklwxhj/"
def parse(docucode):
_path = baseurl + quote(docucode) +"?random=0.3006649122149502"
request = Request(url=_path, headers=headers)
fp = urlopen(request)
praser_pdf = PDFParser(fp)
doc = PDFDocument()
praser_pdf.set_document(doc)
doc.set_parser(praser_pdf)
doc.initialize()代码不能工作,它只是在praser_pdf = PDFParser(fp)中分解,我真的想知道如何修复它!
非常感谢!
发布于 2020-10-28 08:50:03
这是从url读取pdf并写入输出文件的示例实现。注意:此实现适用于pdfminer:20191125,并且未包括来自url的响应的错误处理。
from urllib.request import urlopen, Request
import os
pdf_url = "http://www.inkwelleditorial.com/pdfSample.pdf"
rp1 = Request(pdf_url)
fp = urlopen(rp1)
output_path = "/home/mint/Desktop/temper.html"
input_path = "/home/mint/Desktop/temper.pdf"
open(input_path, "w").close() # For making the output file as empty before going forward
with open(input_path, "wb") as f:
f.write(fp.read())
command = "pdf2txt.py -t html -o {} {} ".format(output_path, input_path)
os.system(command)https://stackoverflow.com/questions/64567135
复制相似问题