搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

如何在将文档从PDF转换为文本时处理unicode字符编码问题

我正在尝试从PDF中提取文本。PDF包含印地语(Unicode)文本。我使用的提取实用程序是Apache PDFBox ( )。提取器提取文本，但文本无法识别。我尝试了在多种编码和字体之间切换，但仍然无法识别预期的文本。下面是一个例子:假设PDF中的文本是:पवार有什么建议吗？

浏览 3提问于2011-09-20得票数 4

回答已采纳

1回答

如何使用python从PDF中提取文本、表格和图像

我有一个PDF文件，其中包括文本，图像和表格。如何提取3，使其能够识别要提取的内容，并自行完成提取？

浏览 12提问于2020-04-03得票数 0

1回答

使用c#识别从pdf文档中提取的文本的段落和页面边界

我正在开发应用程序，我需要从pdf中识别段落。是否有任何方法提取文本和识别段落和页面边界提取的文本从pdf文档使用c#？

浏览 2修改于2015-03-25得票数 3

回答已采纳

1回答

我正在寻找布局分析库或工具(最好是开源的)，可以应用于文本PDF，以识别主要文本内容与侧栏，章节标题，章节标题(甚至可能是具有装饰/阴影和下划线的花哨的标题)等。我遇到了像OCRopus这样的工具，它们使用光学字符识别和图像识别来识别布局。有没有库可以在没有OCR的情况下做同样的事情？可以从文本PDF中提取文本和图像，并将包含文本和图像位置的输入提供给该工具；对于此类文件使用OCR将是相当繁琐的。

浏览 2修改于2013-05-08得票数 2

回答已采纳

1回答

面对使用java从pdf文件中提取文本的问题

无法从具有客户加密字体的pdf中提取文本，后者可以通过Adobe中的File -> ->字体识别。其中一种字体被提及为，C0EX02Q0_22类型:类型3编码:自定义实际字体: C0EX02Q0_22实际字体类型:类型3 让我知道是否有任何方法来提取这些pdf文件的文本内容。目前，我正在使用的PDFText2HTML从pdf util。在提取这样的pdf文件时，获取类似于‘extracting @ files’之类的值。样

浏览 0修改于2014-01-22得票数 1

2回答

使用表单识别器解析内容错误

在试图分析作为架构图的PDF文件时，我收到了以下错误： "error": { "innerError": {我也尝试过不同的内容类型的标题(“多部分/表单-数据”，“应用程序/pdf”)，具有相同的结果。如果我截图PDF文件(只有一页)，并将其保存为图像，它将成功地处理。表单识别器支持这些类型的PDF文件吗？我想知

浏览 3修改于2019-12-16得票数 0

1回答

我想阅读带有图像、文本和表格的PDF内容

我是一个非常新的阅读PDF内容与图像，文本和表格。我浏览过许多网站，我使用iTextSharp (TextWithFontExtractionStategy)读取内容并将其转换为HTML，我只处理文本。我在许多网站上寻找建议，但我找不到解决方案。现在，我想要实现的是我想从PDF中读取包含文本、图像和表格的内容，并将其转换为HTML。我知道识别图像和表格是很困难的。对于图像-我不想从PDF中提取图像，因为我要为图像保留一些占位符，以便我可以给出一些替代文

浏览 2提问于2019-01-04得票数 0

1回答

寻找收据扫描器，而不是连续扫描任何长度的收据。

我正在寻找一个收据扫描仪，可以扫描非常长的收据(高达30英尺长)，并产生一个单一的图像或PDF。理想情况下，它将具有光学字符识别(optical字符识别)，并生成一个包含文本信息的PDF (例如，当您在Acrobat之类的地方打开PDF时，您可以搜索单词，或者可以使用单独的软件将文本内容提取到一个

浏览 0提问于2018-05-09得票数 2

1回答

使用pdfbox获取pdf文本的字体属性

我在PDFBox上工作，以提取pdf文件的内容。我能够提取文本，但我还需要获得文本的字体属性。那么有没有人能帮我提取字体属性呢？提前谢谢..

浏览 2提问于2012-03-20得票数 0

2回答

使用Azure表单识别器提取PDF表格数据

我正在工作的发票处理项目使用Azure从识别器。所有发票都是PDF格式的。我正在使用一个自定义的表单识别器与标签。我可以从PDF中提取一些数据，如发票编号、发票日期、金额等，但我想使用Azure表单识别器从pdf中提取表格数据，但它没有正确读取表。是否有办法使用Azure表单识别器正确地从PDF中提取表数据？扫描表是我们的应用程序的基本要求，它将决定我们是否使用Azure表单识别

浏览 10修改于2020-09-15得票数 0

1回答

从php中的pdf数据流中提取文本

可能重复：我有一个url，它返回一个页面，其中包含一些pdf数据以及HTML .我删除了HTML部分，现在数据字符串包含pdf格式的数据。我需要从这个string.Is中提取pdf文件的文本内容，有什么方法可以在php中实现吗?我已经在googled上搜索了that..The数据，它以%PDF开头，以EOF .B/w结尾，有一些无法识别的字符(可能是二进制数据)。

浏览 2修改于2017-05-23得票数 0

1回答

nutch只提取pdf文件

我需要提取的pdf文件，这将只在一个给定的水平(只是为了实验)。 Strin

浏览 2修改于2013-04-09得票数 1

回答已采纳

1回答

如何使用python识别pdf中的图形？

新的pdf解析。输入- pdf与一个图形，如这一个。输出应为-真或假也许还有别的办法？谢谢!

浏览 5提问于2022-11-17得票数 0

1回答

在AWS中存储和执行大文本搜索

我需要从S3中的PDF和图像文件中获取OCR (光学字符识别)数据，以便用户可以对这些OCR数据执行搜索。我正在使用AWS提取的文本提取来获取OCR数据。在我的情况下，用户上传100+ MB PDF文件在S3中，提取的文本内容将超过这一限制。那么，在这种情况下，最好的方法是什么。请提前帮忙谢谢！

浏览 1修改于2021-06-19得票数 1

回答已采纳

1回答

通过机器学习或编程从PDF/扫描的PDF中为30种不同类型的文档提取关键数据字段

我有30种不同类型的PDF。我需要提取特定于每个PDF的信息。我需要用python来做这个工作。我能够从一种类型的pdf中提取特定的信息，但需要一个模型，它将识别文件的类型，并自动识别需要提取的关键字，然后检索它们。可以通过编程方式使用python吗？任何帮助都将不胜感激。我试过用OpenCV从扫描的图像中提取文本，但结果很糟糕。我已经将整个图像转换为文本，但这不是我要找的。我只是在寻找每个pdf的具体信息。

浏览 2修改于2018-06-30得票数 0

1回答

如何在从pdf中提取文本时忽略表格及其内容

到目前为止，我已经成功地从pdf文件中提取了文本内容。我不得不在表外提取文本内容(忽略表及其内容)，并且需要帮助该文件可从here下载 import pdfplumber for epage in range

浏览 173提问于2021-05-04得票数 0

3回答

从PDF python中提取/识别表

是否有任何支持表标识和提取的开源库？以有用的输出格式从表中提取数据，例如JSON / CSV等。试图解决问题1，但根据列表，它目前无法识别由空格分隔的表。这是一个问题，因为我的PDF中的所有表都用空格分隔！目前，我在想，我需要花费大量的时间来开发一个机器学习解决方案来从PDF中识别表结构。因此，任何替代方法都将是非常受欢迎的！

浏览 1修改于2020-09-30得票数 50

回答已采纳

2回答

用Python提取PDF文件的文本和表

我正在寻找一个从PDF文件中提取文本和表格的解决方案。虽然有些包适合提取文本，但它们不足以提取表。一种解决方案是使用Azure表单识别器布局模型，但是当我们有文本和表的混合时，它就失败了，特别是当表是某种文本格式并且它们将表和文本的内容混合在一起时(请参见Azure Form Recognizer代码文件，pypdf2工作正常，但是它失败了，并且没有为一些pdfs (来自的pdf文件)保留单词之间的空格：第二，如果页面中存在表，我如何提取

浏览 8修改于2021-09-21得票数 1

1回答

Acrobat OCR识别的访问文本

我有PDF文件已经被“识别”使用OCR文本识别->识别文本使用功能在Acrobat。有什么想法吗？

浏览 0提问于2010-06-25得票数 0

回答已采纳

1回答

从PDF或包含段落的字符串中识别特定字段的数据

我正在开发一个Android应用程序，其中我想从PDF中提取文本，识别提取出来的文本中的数据，并将其存储在数据库中。例如：如果有人有什么主意，请帮忙.

浏览 1修改于2022-08-20得票数 -1

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

如何在将文档从PDF转换为文本时处理unicode字符编码问题

如何使用python从PDF中提取文本、表格和图像

使用c#识别从pdf文档中提取的文本的段落和页面边界

是否有任何不基于OCR的通用布局分析库或工具？

面对使用java从pdf文件中提取文本的问题

使用表单识别器解析内容错误

我想阅读带有图像、文本和表格的PDF内容

寻找收据扫描器，而不是连续扫描任何长度的收据。

使用pdfbox获取pdf文本的字体属性

使用Azure表单识别器提取PDF表格数据

从php中的pdf数据流中提取文本

nutch只提取pdf文件

如何使用python识别pdf中的图形？

在AWS中存储和执行大文本搜索

通过机器学习或编程从PDF/扫描的PDF中为30种不同类型的文档提取关键数据字段

如何在从pdf中提取文本时忽略表格及其内容

从PDF python中提取/识别表

用Python提取PDF文件的文本和表

Acrobat OCR识别的访问文本

从PDF或包含段落的字符串中识别特定字段的数据

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐