搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

pdfplumber extract_text函数也可以从表格中提取文本。只想提取表外的文本

我有一个包含文本和表格的pdf。我想将它们都提取出来，但是当我使用extract_text函数时，它也会提取表中的内容。我只想提取表外的文本，并且可以使用extract_tables函数提取该表。我测试了一个只包含表格的pdf，但仍然使用extract_tables函数提取我想要提取的表格内容。

浏览 232提问于2021-10-01得票数 0

2回答

使用Adobe API提取PDF内容

我正在尝试读取PDF文件的内容，该文件由多个表组成。使用Java和Adobe API，如果所有单元格都有一行内容，我就能够提取表格中的内容。当单元格有多行时，问题就出现了，这会导致提取的内容移动到下一行，从而导致与表头不对齐。有没有什么方法可以从PDF中按原样提取内容，同时保持表格格式与在PDF中显示的方式相同？我目前正在使用\t转义字符来提取

浏览 56修改于2015-02-11得票数 2

1回答

如何在Java中从PDF文件中提取表格数据

我对从PDF文件中提取数据有疑问。我有一个PDF文件，其中有多个可用的数据表。我想从require表内容中提取数据。如何使用iText/PDFBox执行此操作？

浏览 2修改于2018-02-14得票数 0

3回答

是否将表格从pdf导出到excel？

如何通过C#编程只将表格内容导出到excel文件中？我目前正在使用PDFNET SDK从PDF中提取所有内容，但无法将表格作为表格结构读取

浏览 3提问于2011-08-03得票数 1

2回答

如何使用pdfplumber将表详细信息提取到行和列中

我正在使用pdfplumber从pdf中提取表格。但是，正在使用的表没有可见的垂直线分隔内容，因此提取的数据被分成3行和1列。 ? 我想把上面的表格排成13行。import pdfplumberimport numpy as np tabl

浏览 67提问于2021-08-21得票数 0

1回答

如何读取一些pdf文件中除表格以外的所有内容？

我想使用python读取pdf文件，但在阅读时，我不想将表格包含在pdf文件中。我只想要除了那些表格之外的所有其他内容。我尝试过像PyPDF2和Tabula这样的库，但我只是找到了提取表格或读取包括表格在内的内容的方法。我也不想创建一个新文件并在其中添加页面。准确地说，除了表的内容之外，所有的内容都应该是strings的list格式。

浏览 26修改于2019-09-02得票数 0

1回答

如何使用python从PDF中提取文本、表格和图像

我有一个PDF文件，其中包括文本，图像和表格。如何提取3，使其能够识别要提取的内容，并自行完成提取？

浏览 12提问于2020-04-03得票数 0

1回答

将扫描的PDF表格转换为Excel

我有一个扫描的PDF，其中有一些表格格式的随机数据，并希望将其复制到Excel工作表。我试过使用数字PDF，使用'tabula‘来提取表格，但扫描的PDF需要OCR(我在google上看到的)。我知道涉及到OCR (Tesseract)，但不知道我应该采取什么方法来解决这个问题。

浏览 7修改于2019-06-20得票数 0

1回答

我是一个非常新的阅读PDF内容与图像，文本和表格。我浏览过许多网站，我使用iTextSharp (TextWithFontExtractionStategy)读取内容并将其转换为HTML，我只处理文本。我在许多网站上寻找建议，但我找不到解决方案。现在，我想要实现的是我想从PDF中读取包含文本、图像和表格的内容，并将其转换为HTML。我知道识别图像和表格是很困难的。对于图像-我不想从PDF中提取图像，因为我要为图像保留

浏览 2提问于2019-01-04得票数 0

2回答

用Python提取PDF文件的文本和表

我正在寻找一个从PDF文件中提取文本和表格的解决方案。虽然有些包适合提取文本，但它们不足以提取表。一种解决方案是使用Azure表单识别器布局模型，但是当我们有文本和表的混合时，它就失败了，特别是当表是某种文本格式并且它们将表和文本的内容混合在一起时(请参见Azure Form Recognizer代码文件，pypdf2工作正常，但是它失败了，并且没有为一些pdfs (来自的pdf文件)保留单词之间的空格：第二，如果页面中存在表，我如何提取

浏览 8修改于2021-09-21得票数 1

1回答

使用PDF* Clown检测PDF表格中的标题和边框*

我正在使用PDF Clown的TextInfoExtractionSample将PDF表格提取到Excel中，除了合并的单元格之外，我可以做到这一点。在下面的代码中，对于object，" content“，我看到扫描的内容是文本、XObject、ContainerObject，但没有边框。谁知道什么对象代表PDF表格中的边框，或者如何检测文本是否是表格的标题？

浏览 6提问于2015-07-20得票数 1

2回答

如何使用pdfbox解析包含表格格式数据的pdf

谁能帮助我如何提取表格数据使用itext或pdfbox，我有一个有1000页的pdf，我的工作是解析pdf并将数据存储到数据库中。

浏览 1修改于2013-01-15得票数 5

1回答

GSON / iText:从PDF1.7 byte[]中提取文本

我正在使用Rest自动化测试-Assured和GSON -并且需要验证在POST请求的响应中返回的PDF文件的内容。文件的内容各不相同，可以包含任何内容，从文本到文本和表格，或者文本和表格和图形。每个页面都可以，而且很可能是不同的字形内容。我只关心pdf页面上的所有文本--无论是纯文本，还是表格中的文本，或者与图像相关(或在图像中)的文本。由于请求返回的所有pdf都是不同的，因此我无法定义搜索区域(

浏览 20提问于2020-09-24得票数 0

1回答

提取跨越多个页面的表

我正在尝试从pdf中提取表格。Tabula帮助我从pdf中提取表格。from tabula import read_pdf df = read_pdf("SampleTableFormat2pages.pdf", multiple_tabl

浏览 1提问于2018-09-08得票数 4

8回答

PDF表格提取

我将(相同的)数据保存为GIF图像文件和PDF文件，并希望将其解析为HTML或XML。这些数据实际上是我校食堂的菜单。这意味着有一个新版本的文件，必须分析每周！我阅读了一些关于堆栈溢出的文章，并开始尝试将表数据解析为HTML/XML：我在用PDFBox解析PDF文件时得到了最好的结果，但是(因为菜单每周都有变化)，它还不够可靠。

浏览 10修改于2017-05-19得票数 12

1回答

如何在C#中使用提取PDF文本

我想使用谷歌视觉，以提取PDF到文本/表格。我的PDF包含一个我想要提取的表(BlockType = table)。}.Build(); Image image = Image.FromUri("https://storage.cloud.google.com/pathtomyfile.pdf有人能帮我找出如何将PDF

浏览 2提问于2021-10-04得票数 0

2回答

AttributeError:模块'camelot‘没有属性'read_pdf’

尝试从PDF中提取表格数据时获得以下内容。import camelot file = input_folder+file_name print(tables[0].df) Error: AttributeError: module 'camelot' has no attribute 'read_

浏览 301提问于2021-01-10得票数 0

1回答

如何提取pdf文件中表格的内容？

我想提取pdf格式的表格内容，如下所示：我用写的这个java程序，它可以逐行读取PDF文件的内容，但是我不知道如何获取表的内容import com.itextpdf.text.pdf.parser.PdfTextExtractor;

浏览 3修改于2015-07-10得票数 6

2回答

在C#中从PDF中提取格式信息

我需要制定一个程序，可以分析和理解在某些PDF中的特定结构和格式的内容的上下文和语义关系。下面是一个示例，其中显示了这种PDF的一段内容：因此，我需要一个PDF阅读库，它不仅可以提取文本，还可以提取PDF中的流星数据，如字体大小、字体样式(粗体、塔利)、背景色、表及其子元素、表格单元格背景颜色

浏览 11修改于2017-05-23得票数 4

回答已采纳

2回答

使用Perl从PDF中提取图像/文本

我正在尝试使用Perl从PDF文件中提取文本/图像/表格。有没有一种方法可以使用Perl模块从PDF中提取文本/图像/表格？

浏览 0修改于2016-04-27得票数 2

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

pdfplumber extract_text函数也可以从表格中提取文本。只想提取表外的文本

使用Adobe API提取PDF内容

如何在Java中从PDF文件中提取表格数据

是否将表格从pdf导出到excel？

如何使用pdfplumber将表详细信息提取到行和列中

如何读取一些pdf文件中除表格以外的所有内容？

如何使用python从PDF中提取文本、表格和图像

将扫描的PDF表格转换为Excel

我想阅读带有图像、文本和表格的PDF内容

用Python提取PDF文件的文本和表

使用PDF* Clown检测PDF表格中的标题和边框*

如何使用pdfbox解析包含表格格式数据的pdf

GSON / iText:从PDF1.7 byte[]中提取文本

提取跨越多个页面的表

PDF表格提取

如何在C#中使用提取PDF文本

AttributeError:模块'camelot‘没有属性'read_pdf’

如何提取pdf文件中表格的内容？

在C#中从PDF中提取格式信息

使用Perl从PDF中提取图像/文本

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐