我正在寻找一个从PDF文件中提取文本和表格的解决方案。虽然有些包适合提取文本,但它们不足以提取表。一种解决方案是使用Azure表单识别器布局模型,但是当我们有文本和表的混合时,它就失败了,特别是当表是某种文本格式并且它们将表和文本的内容混合在一起时(请参见Azure Form Recognizer代码文件,pypdf2工作正常,但是它失败了,并且没有为一些pdfs (来自的pdf文件)保留单词之间的空格:
第二,如果页面中存在表,我如何提取
我有一个PDF,其中包含表格,文字和一些图像。我想从PDF文件中的任何位置提取表格。
PDFfilename = "Sammamish.pdf" #filename of your PDF/directory where your PDF is storedPdfFileWriter() #create