搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

2回答

使用R识别PDF表格

我正在尝试从一些pdf报告中的表中提取数据。我已经看到一些使用pdftools和类似包的示例，我成功地获得了文本，但是，我只想提取表。有没有一种方法可以使用R来识别和提取仅表？

浏览 36修改于2017-05-24得票数 23

2回答

如何识别pdf文件中的表格

我想要识别一个pdf文件中的表格。在C#中使用了什么SDK来识别pdf中的表，以及一些逐个单元格读取的机制，有人能推荐一下吗？

浏览 1修改于2017-05-06得票数 1

回答已采纳

2回答

我正在工作的发票处理项目使用Azure从识别器。所有发票都是PDF格式的。我正在使用一个自定义的表单识别器与标签。我可以从PDF中提取一些数据，如发票编号、发票日期、金额等，但我想使用Azure表单识别器从pdf中提取表格数据，但它没有正确读取表。是否有办法使用Azure表单识别器正确地从PDF中提取表数据？扫描表是我们的应用程序的基本要求，它将决定我们是否使用Azure表单识别器作为应用程序的基础。请查看下面的<

浏览 10修改于2020-09-15得票数 0

2回答

使用java从pdf中识别和提取表格

我有不同类型的pdf，其中包含多个东西，如文字，表格等。该表可能存在任何地方的pdf(顶部，中部，底部)。我只想提取表数据(否)。列上的，不。在不传递位置的情况下使用java从pdf中提取行和表中的数据。有人

浏览 12修改于2017-05-23得票数 1

1回答

如何用java识别pdf文件中的表格、图片和列表？

如何识别表格、图像、列表等。使用java程序。我使用的模块是PDFbox,如果有任何想法进一步处理...，

浏览 1提问于2014-09-29得票数 0

1回答

非PDF格式文件中可填入PDF表格的正面识别

我正在寻找一种编程方法，以积极识别非PDF表单文件中的可填充PDF表单。我认为可供选择的办法如下：用支持十六进制的语言(如Python )解析文件以进行签名标识。

浏览 5修改于2013-07-23得票数 0

1回答

如何使用python识别pdf中的图形？

新的pdf解析。输入- pdf与一个图形，如这一个。输出应为-真或假也许还有别的办法？谢谢!

浏览 5提问于2022-11-17得票数 0

1回答

我想阅读带有图像、文本和表格的PDF内容

我是一个非常新的阅读PDF内容与图像，文本和表格。现在，我想要实现的是我想从PDF中读取包含文本、图像和表格的内容，并将其转换为HTML。我知道识别图像和表格是很困难的。对于图像-我不想从PDF中提取图像，因为我要为图像保留一些占位符，以便我可以给出一些替代文本。如果存在图像，是否可以在读取PDF内容时识别图像？对于表格-我想阅读表格，因为它是如何在PDF中出现的。所有这些转换都

浏览 2提问于2019-01-04得票数 0

1回答

表未被识别

import pandas as pdFileName="Filepath"print DF3 import camelottables = camelot.read_pdf(FileName,pages='1-end') print t

浏览 10修改于2019-02-28得票数 0

2回答

识别已提交的网页网址以供联络表格7

我目前正在使用一个单一的形式通过联系表格7的访问者下载我的网站上的pdf文件。一旦他们填写表格并点击提交按钮，相关的pdf文件将被下载。但是，我想导出有关访问者的信息，无论谁下载了特定页面的pdf文件。我从联系表格DB下载了报告，但是它没有显示访问者提交表单的任何链接或页面名称。我相信有一种方法可以识别或解决这个问题。谢谢

浏览 4提问于2017-08-15得票数 1

回答已采纳

1回答

用c#编程编辑PDF (非固定PDF)

是否可以编辑在C#中不可填充的PDF格式所需经费：必须编辑以编程方式填写的表格中的文本和数据，并保存它。

浏览 6修改于2012-06-28得票数 1

1回答

如何使用python从PDF中提取文本、表格和图像

我有一个PDF文件，其中包括文本，图像和表格。如何提取3，使其能够识别要提取的内容，并自行完成提取？

浏览 12提问于2020-04-03得票数 0

1回答

Tabula-py不能识别正确的列

我正在尝试使用表格来识别pdf文档。我使用以下代码：但是，在识别之后，前两列是单列。

浏览 9提问于2021-06-10得票数 0

2回答

PDF表格数据

我有一个关于从pdf文件中提取文本，准确地说是表格数据的一般问题。我为我的一堆pdf文件解决了这个问题，方法是重新展开文本(顺便说一下。pdf查看器为单元格绘制线条，并知道单元格的开始和结束位置，但我们无法从pdf

浏览 2提问于2012-12-22得票数 2

1回答

如何在ITextSharp 4中使用css和样式表？

我正在导出一个html视图到pdf，我怎样才能让它识别css样式？主要是颜色，表格边框，字体大小，没有什么太忙乱的。

浏览 3提问于2011-08-05得票数 0

1回答

如何在PDF文件中找到表格网格线？

为了更准确地提取表单元格中嵌入的类似表格的数据，我希望能够识别PDF中的表单元格边界，如下所示：我已经尝试使用Camelot、pdfplumber和PyMuPDF来提取这样的表，并取得了不同程度的成功但由于我们收到的PDF格式不一致，即使在指定表格边界时，我也无法可靠地获得准确的结果。我发现，如果我通过显式指定单元格边界来单独提取每个表格单元格，结果会更好。我的挑战是如何以编程方式识别表格单元格边界，因为表格可以从页面上

浏览 12修改于2021-03-04得票数 0

4回答

将Excel电子表格另存为PDF

我正在尝试使用Visual Basic将Excel电子表格另存为PDF文件。我在网上找到了一些示例代码(见下文)，但它让我打开了一个Visual Basic似乎不再识别的Workbook对象。建议..Dim workbook As New Workbook() pdfDocume

浏览 1修改于2015-09-24得票数 2

1回答

如何在Abby Finereader中从用户字典创建连字？

我需要从扫描的文档(pdf)中识别复杂的化学名称。它们包含特殊字符，并以表格格式写入。我还有一个Excel文档，其中包含我在扫描过程中可能遇到的所有可能的名称(我认为是行，因为没有组合)。有没有办法创建连字(这样Finereader就可以识别整行，而不是把它分解成单独的字符)？我尝试创建用户字典，但Finereader没有将其视为一行。

浏览 3提问于2017-05-02得票数 0

1回答

找不到'w2_‘类型的文档，找到1种其他文档类型- Google文档AI

我使用GoogleDocumentA.I来识别不同类型的表格，如美国政府表格、W2表格、W9表格、发票表格、收据表格。document typesUnable to find a document of type 'w9_', found 1 other document typesconst dow

浏览 2修改于2021-08-18得票数 0

1回答

从pdf里？

我只想从一个“富”pdf文档中提取核心文本，这意味着它有很多我不感兴趣的表格、图表、框、页脚等等。我尝试使用一些常见的python包，如PyPDF2、pdfplumber或pdfreader.The，显然它们提取了pdf中所有的文本，包括上面列出的那些我不感兴趣的部分。file = PdfReader(file)text = page.extract_text() 这段代码将为我从第11页获得整个文本，包括页脚、框、表格中的文本和页面的编号是否有任何方法/包可以自动

浏览 11修改于2022-11-07得票数 -1

回答已采纳

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

使用R识别PDF表格

如何识别pdf文件中的表格

使用Azure表单识别器提取PDF表格数据

使用java从pdf中识别和提取表格

如何用java识别pdf文件中的表格、图片和列表？

非PDF格式文件中可填入PDF表格的正面识别

如何使用python识别pdf中的图形？

我想阅读带有图像、文本和表格的PDF内容

表未被识别

识别已提交的网页网址以供联络表格7

用c#编程编辑PDF (非固定PDF)

如何使用python从PDF中提取文本、表格和图像

Tabula-py不能识别正确的列

PDF表格数据

如何在ITextSharp 4中使用css和样式表？

如何在PDF文件中找到表格网格线？

将Excel电子表格另存为PDF

如何在Abby Finereader中从用户字典创建连字？

找不到'w2_‘类型的文档，找到1种其他文档类型- Google文档AI

从pdf里？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐