腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
如何在将文档从
PDF
转换为文本时处理unicode字符编码问题
我正在尝试从
PDF
中
提取
文本。
PDF
包含印地语(Unicode)文本。我使用的
提取
实用程序是Apache PDFBox ( )。
提取
器
提取
文本,但文本无法
识别
。我尝试了在多种编码和字体之间切换,但仍然无法
识别
预期的文本。下面是一个例子:假设
PDF
中的文本是:पवार有什么建议吗?
浏览 3
提问于2011-09-20
得票数 4
回答已采纳
1
回答
如何使用python从
PDF
中
提取
文本、表格和图像
我有一个
PDF
文件,其中包括文本,图像和表格。如何
提取
3,使其能够
识别
要
提取
的
内容
,并自行完成
提取
?
浏览 12
提问于2020-04-03
得票数 0
1
回答
使用c#
识别
从
pdf
文档中
提取
的文本的段落和页面边界
我正在开发应用程序,我需要从
pdf
中
识别
段落。是否有任何方法
提取
文本和
识别
段落和页面边界
提取
的文本从
pdf
文档使用c#?
浏览 2
修改于2015-03-25
得票数 3
回答已采纳
1
回答
是否有任何不基于OCR的通用布局分析库或工具?
我正在寻找布局分析库或工具(最好是开源的),可以应用于文本
PDF
,以
识别
主要文本
内容
与侧栏,章节标题,章节标题(甚至可能是具有装饰/阴影和下划线的花哨的标题)等。我遇到了像OCRopus这样的工具,它们使用光学字符
识别
和图像
识别
来
识别
布局。有没有库可以在没有OCR的情况下做同样的事情?可以从文本
PDF
中
提取
文本和图像,并将包含文本和图像位置的输入提供给该工具;对于此类文件使用OCR将是相当繁琐的。
浏览 2
修改于2013-05-08
得票数 2
回答已采纳
1
回答
面对使用java从
pdf
文件中
提取
文本的问题
无法从具有客户加密字体的
pdf
中
提取
文本,后者可以通过Adobe中的File -> ->字体
识别
。其中一种字体被提及为,C0EX02Q0_22类型:类型3编码:自定义实际字体: C0EX02Q0_22实际字体类型:类型3 让我知道是否有任何方法来
提取
这些
pdf
文件的文本
内容
。目前,我正在使用的PDFText2HTML从
pdf
util。在
提取
这样的
pdf
文件时,获取类似于‘extracting @ files’之类的值。样
浏览 0
修改于2014-01-22
得票数 1
2
回答
使用表单
识别
器解析
内容
错误
在试图分析作为架构图的
PDF
文件时,我收到了以下错误: "error": { "innerError": {我也尝试过不同的
内容
类型的标题(“多部分/表单-数据”,“应用程序/
pdf
”),具有相同的结果。如果我截图
PDF
文件(只有一页),并将其保存为图像,它将成功地处理。表单
识别
器支持这些类型的
PDF
文件吗?我想知
浏览 3
修改于2019-12-16
得票数 0
1
回答
我想阅读带有图像、文本和表格的
PDF
内容
我是一个非常新的阅读
PDF
内容
与图像,文本和表格。我浏览过许多网站,我使用iTextSharp (TextWithFontExtractionStategy)读取
内容
并将其转换为HTML,我只处理文本。我在许多网站上寻找建议,但我找不到解决方案。现在,我想要实现的是我想从
PDF
中读取包含文本、图像和表格的
内容
,并将其转换为HTML。我知道
识别
图像和表格是很困难的。对于图像-我不想从
PDF
中
提取
图像,因为我要为图像保留一些占位符,以便我可以给出一些替代文
浏览 2
提问于2019-01-04
得票数 0
1
回答
寻找收据扫描器,而不是连续扫描任何长度的收据。
我正在寻找一个收据扫描仪,可以扫描非常长的收据(高达30英尺长),并产生一个单一的图像或
PDF
。理想情况下,它将具有光学字符
识别
(optical字符
识别
),并生成一个包含文本信息的
PDF
(例如,当您在Acrobat之类的地方打开
PDF
时,您可以搜索单词,或者可以使用单独的软件将文本
内容
提取
到一个
浏览 0
提问于2018-05-09
得票数 2
1
回答
使用pdfbox获取
pdf
文本的字体属性
我在PDFBox上工作,以
提取
pdf
文件的
内容
。我能够
提取
文本,但我还需要获得文本的字体属性。那么有没有人能帮我
提取
字体属性呢?提前谢谢..
浏览 2
提问于2012-03-20
得票数 0
2
回答
使用Azure表单
识别
器
提取
PDF
表格数据
我正在工作的发票处理项目使用Azure从
识别
器。所有发票都是
PDF
格式的。我正在使用一个自定义的表单
识别
器与标签。我可以从
PDF
中
提取
一些数据,如发票编号、发票日期、金额等,但我想使用Azure表单
识别
器从
pdf
中
提取
表格数据,但它没有正确读取表。是否有办法使用Azure表单
识别
器正确地从
PDF
中
提取
表数据? 扫描表是我们的应用程序的基本要求,它将决定我们是否使用Azure表单
识别
浏览 10
修改于2020-09-15
得票数 0
1
回答
从php中的
pdf
数据流中
提取
文本
可能重复: 我有一个url,它返回一个页面,其中包含一些
pdf
数据以及HTML .我删除了HTML部分,现在数据字符串包含
pdf
格式的数据。我需要从这个string.Is中
提取
pdf
文件的文本
内容
,有什么方法可以在php中实现吗?我已经在googled上搜索了that..The数据,它以%
PDF
开头,以EOF .B/w结尾,有一些无法
识别
的字符(可能是二进制数据)。
浏览 2
修改于2017-05-23
得票数 0
1
回答
nutch只
提取
pdf
文件
我需要
提取
的
pdf
文件,这将只在一个给定的水平(只是为了实验)。 Strin
浏览 2
修改于2013-04-09
得票数 1
回答已采纳
1
回答
如何使用python
识别
pdf
中的图形?
新的
pdf
解析。输入-
pdf
与一个图形,如这一个。输出应为-真或假也许还有别的办法? 谢谢!
浏览 5
提问于2022-11-17
得票数 0
1
回答
在AWS中存储和执行大文本搜索
我需要从S3中的
PDF
和图像文件中获取OCR (光学字符
识别
)数据,以便用户可以对这些OCR数据执行搜索。我正在使用AWS
提取
的文本
提取
来获取OCR数据。在我的情况下,用户上传100+ MB
PDF
文件在S3中,
提取
的文本
内容
将超过这一限制。那么,在这种情况下,最好的方法是什么。 请提前帮忙谢谢!
浏览 1
修改于2021-06-19
得票数 1
回答已采纳
1
回答
通过机器学习或编程从
PDF
/扫描的
PDF
中为30种不同类型的文档
提取
关键数据字段
我有30种不同类型的
PDF
。我需要
提取
特定于每个
PDF
的信息。我需要用python来做这个工作。我能够从一种类型的
pdf
中
提取
特定的信息,但需要一个模型,它将
识别
文件的类型,并自动
识别
需要
提取
的关键字,然后检索它们。可以通过编程方式使用python吗?任何帮助都将不胜感激。我试过用OpenCV从扫描的图像中
提取
文本,但结果很糟糕。我已经将整个图像转换为文本,但这不是我要找的。我只是在寻找每个
pdf
的具体信息。
浏览 2
修改于2018-06-30
得票数 0
1
回答
如何在从
pdf
中
提取
文本时忽略表格及其
内容
到目前为止,我已经成功地从
pdf
文件中
提取
了文本
内容
。我不得不在表外
提取
文本
内容
(忽略表及其
内容
),并且需要帮助 该文件可从here下载 import pdfplumber for epage in range
浏览 173
提问于2021-05-04
得票数 0
3
回答
从
PDF
python中
提取
/
识别
表
是否有任何支持表标识和
提取
的开源库? 以有用的输出格式从表中
提取
数据,例如JSON / CSV等。试图解决问题1,但根据列表,它目前无法
识别
由空格分隔的表。这是一个问题,因为我的
PDF
中的所有表都用空格分隔!目前,我在想,我需要花费大量的时间来开发一个机器学习解决方案来从
PDF
中
识别
表结构。因此,任何替代方法都将是非常受欢迎的!
浏览 1
修改于2020-09-30
得票数 50
回答已采纳
2
回答
用Python
提取
PDF
文件的文本和表
我正在寻找一个从
PDF
文件中
提取
文本和表格的解决方案。虽然有些包适合
提取
文本,但它们不足以
提取
表。一种解决方案是使用Azure表单
识别
器布局模型,但是当我们有文本和表的混合时,它就失败了,特别是当表是某种文本格式并且它们将表和文本的
内容
混合在一起时(请参见Azure Form Recognizer代码文件,pypdf2工作正常,但是它失败了,并且没有为一些pdfs (来自的
pdf
文件)保留单词之间的空格: 第二,如果页面中存在表,我如何
提取
浏览 8
修改于2021-09-21
得票数 1
1
回答
Acrobat OCR
识别
的访问文本
我有
PDF
文件已经被“
识别
”使用OCR文本
识别
->
识别
文本使用功能在Acrobat。有什么想法吗?
浏览 0
提问于2010-06-25
得票数 0
回答已采纳
1
回答
从
PDF
或包含段落的字符串中
识别
特定字段的数据
我正在开发一个Android应用程序,其中我想从
PDF
中
提取
文本,
识别
提取
出来的文本中的数据,并将其存储在数据库中。例如:如果有人有什么主意,请帮忙.
浏览 1
修改于2022-08-20
得票数 -1
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券