搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

2回答

使用java从pdf中识别和提取表格

我有不同类型的pdf，其中包含多个东西，如文字，表格等。该表可能存在任何地方的pdf(顶部，中部，底部)。我只想提取表数据(否)。列上的，不。在不传递位置的情况下使用java从pdf中提取行和表中的数据。我也使用过PDFBox java，但它也解决不了我的问题。我无法

浏览 12修改于2017-05-23得票数 1

2回答

使用Azure表单识别器提取PDF表格数据

我正在工作的发票处理项目使用Azure从识别器。所有发票都是PDF格式的。我正在使用一个自定义的表单识别器与标签。我可以从PDF中提取一些数据，如发票编号、发票日期、金额等，但我想使用Azure表单识别器从pdf中提取表格数据，但它没有正确读取表。是否有办法使用Azure表单识别器正确地从PDF中提取表数据？扫描表是我们的应用程序的基本要求，它将决定我们是否使用Azure表单<e

浏览 10修改于2020-09-15得票数 0

1回答

如何使用python从PDF中提取文本、表格和图像

我有一个PDF文件，其中包括文本，图像和表格。如何提取3，使其能够识别要提取的内容，并自行完成提取？

浏览 12提问于2020-04-03得票数 0

1回答

如何使用python识别pdf中的图形？

新的pdf解析。输入- pdf与一个图形，如这一个。输出应为-真或假也许还有别的办法？谢谢!

浏览 5提问于2022-11-17得票数 0

1回答

如何用java识别pdf文件中的表格、图片和列表？

我是java编程的新手....我需要提取每个tables and images as per source，我试图提取文本使用pdfbox，但我只得到文本和文本属性。如何识别表格、图像、列表等。是否可以在pdf文件中识别...？我使用的模块是PDFbox,如果有任何想法进一步处理...，

浏览 1提问于2014-09-29得票数 0

1回答

我想阅读带有图像、文本和表格的PDF内容

我是一个非常新的阅读PDF内容与图像，文本和表格。现在，我想要实现的是我想从PDF中读取包含文本、图像和表格的内容，并将其转换为HTML。我知道识别图像和表格是很困难的。对于图像-我不想从PDF中提取图像，因为我要为图像保留一些占位符，以便我可以给出一些替代文本。如果存在图像，是否可以在读取PDF内容时识别图像？对于表格-我想阅读表格，因为它是如何在PDF中出现的

浏览 2提问于2019-01-04得票数 0

1回答

为了更准确地提取表单元格中嵌入的类似表格的数据，我希望能够识别PDF中的表单元格边界，如下所示：我已经尝试使用Camelot、pdfplumber和PyMuPDF来提取这样的表，并取得了不同程度的成功但由于我们收到的PDF格式不一致，即使在指定表格边界时，我也无法可靠地获得准确的结果。我发现，如果我通过显式指定单元格边界来单独提取每个表格单元格，结果会更好。我的挑战是如何以编程方式识别表格</e

浏览 12修改于2021-03-04得票数 0

2回答

用Python提取PDF文件的文本和表

我正在寻找一个从PDF文件中提取文本和表格的解决方案。虽然有些包适合提取文本，但它们不足以提取表。一种解决方案是使用Azure表单识别器布局模型，但是当我们有文本和表的混合时，它就失败了，特别是当表是某种文本格式并且它们将表和文本的内容混合在一起时(请参见Azure Form Recognizer代码文件，pypdf2工作正常，但是它失败了，并且没有为一些pdfs (来自的pdf文件)保留单词之间的空格：第二，如果页面中存在表，我如何提取

浏览 8修改于2021-09-21得票数 1

2回答

PDF表格数据

我有一个关于从pdf文件中提取文本，准确地说是表格数据的一般问题。我为我的一堆pdf文件解决了这个问题，方法是重新展开文本(顺便说一下。pdf查看器为单元格绘制线条，并知道单元格的开始和结束位置，但我们无法从<em

浏览 2提问于2012-12-22得票数 2

1回答

在python中是否有一种方法只提取核心文本(没有框、页脚等)。从pdf里？

我只想从一个“富”pdf文档中提取核心文本，这意味着它有很多我不感兴趣的表格、图表、框、页脚等等。我尝试使用一些常见的python包，如PyPDF2、pdfplumber或pdfreader.The，显然它们提取了pdf中所有的文本，包括上面列出的那些我不感兴趣的部分。file = PdfReader(file)text = page.extract_text() 这段代码将为我从第11页获得整个文本，包括页脚、框、表格中的文本和页面的编号

浏览 11修改于2022-11-07得票数 -1

回答已采纳

1回答

使用c#识别从pdf文档中提取的文本的段落和页面边界

我正在开发应用程序，我需要从pdf中识别段落。是否有任何方法提取文本和识别段落和页面边界提取的文本从pdf文档使用c#？

浏览 2修改于2015-03-25得票数 3

回答已采纳

1回答

如何在将文档从PDF转换为文本时处理unicode字符编码问题

我正在尝试从PDF中提取文本。PDF包含印地语(Unicode)文本。我使用的提取实用程序是Apache PDFBox ( )。提取器提取文本，但文本无法识别。我尝试了在多种编码和字体之间切换，但仍然无法识别预期的文本。下面是一个例子:假设PDF中的文本是:पवार有什么建议吗？

浏览 3提问于2011-09-20得票数 4

回答已采纳

8回答

PDF表格提取

我将(相同的)数据保存为GIF图像文件和PDF文件，并希望将其解析为HTML或XML。这些数据实际上是我校食堂的菜单。这意味着有一个新版本的文件，必须分析每周！我阅读了一些关于堆栈溢出的文章，并开始尝试将表数据解析为HTML/XML：我在用PDFBox解析PDF文件时得到了最好的结果，但是(因为菜单每周都有变化)，它还不够可靠。

浏览 10修改于2017-05-19得票数 12

1回答

pdfplumber extract_text函数也可以从表格中提取文本。只想提取表外的文本

我有一个包含文本和表格的pdf。我想将它们都提取出来，但是当我使用extract_text函数时，它也会提取表中的内容。我只想提取表外的文本，并且可以使用extract_tables函数提取该表。我测试了一个只包含表格的pdf，但仍然使用extract_tables函数提取我想要提取的表格内容。

浏览 232提问于2021-10-01得票数 0

2回答

使用Perl从PDF中提取图像/文本

我正在尝试使用Perl从PDF文件中提取文本/图像/表格。有没有一种方法可以使用Perl模块从PDF中提取文本/图像/表格？

浏览 0修改于2016-04-27得票数 2

1回答

获取PDF中嵌入的表数

下面的代码从PDF中提取表格。install.packages("tidyverse") n_tables <- extract_tables("filename.pdf我们是否可以绕过实际的表格提取步骤，直接使用tabulizer或任何其他R包从pdf中获取表格计数？

浏览 3提问于2018-08-22得票数 0

2回答

如何使用camelot从pdf中提取表格？

我想在python3中使用camelot从pdf中提取所有的表格。# PDF file to extract tables fromtables = camelot.read_pdf(file)print("Total tables extracted/p

浏览 29提问于2020-05-27得票数 1

1回答

如何使用python从pdf中提取单个行表数据？

我需要从pdfs中提取表格数据。pdf中的一些表只包含一行。我一直在尝试使用camelot库提取数据。使用Camelot提取代码：import camelottables = camelot.read_pdf(file,pages ="all")以上代码无法提取单

浏览 18修改于2022-11-23得票数 -1

回答已采纳

4回答

如何使用Python从PDF中提取表作为文本？

我有一个PDF，其中包含表格，文字和一些图像。我想从PDF文件中的任何位置提取表格。 PDFfilename = "Sammamish.pdf" #filename of your PDF/directory where your PDF is storedPdfFileWriter() #create

浏览 4修改于2020-09-30得票数 47

回答已采纳

1回答

如何在PHP中从PDF表单中提取字段值

我们分发一份PDF格式的登记表。填写表格后，用户将上传PDF表格到我们的应用程序注册。我们希望从PHP中提取PDF格式的注册数据，并将这些数据保存到数据库中。有人能指出PHP类从PDF表单中提取字段值吗？

浏览 3提问于2011-09-14得票数 10

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

使用java从pdf中识别和提取表格

使用Azure表单识别器提取PDF表格数据

如何使用python从PDF中提取文本、表格和图像

如何使用python识别pdf中的图形？

如何用java识别pdf文件中的表格、图片和列表？

我想阅读带有图像、文本和表格的PDF内容

如何在PDF文件中找到表格网格线？

用Python提取PDF文件的文本和表

PDF表格数据

在python中是否有一种方法只提取核心文本(没有框、页脚等)。从pdf里？

使用c#识别从pdf文档中提取的文本的段落和页面边界

如何在将文档从PDF转换为文本时处理unicode字符编码问题

PDF表格提取

pdfplumber extract_text函数也可以从表格中提取文本。只想提取表外的文本

使用Perl从PDF中提取图像/文本

获取PDF中嵌入的表数

如何使用camelot从pdf中提取表格？

如何使用python从pdf中提取单个行表数据？

如何使用Python从PDF中提取表作为文本？

如何在PHP中从PDF表单中提取字段值

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐