腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
5
回答
从
PDF
(google应用程序引擎)中
提取
文本
有没有免费的Java库可以从
PDF
中
提取
文本,与Google应用程序引擎兼容?有没有其他方法可以从
PDF
中
提取
文本?我试过,不幸的是他们不能正确处理非英
文字
符。
浏览 6
提问于2010-03-28
得票数 2
回答已采纳
1
回答
PdfBox从
pdf
中
提取
具有相同字体的文本
我需要从
pdf
中
提取
一段
文字
。本文具有与特征相同的字体族。有什么想法吗?干杯 编辑:,让我用另一种方式问这个问题:我如何才能从
pdf
页面中
提取
出“粗体”文本?
浏览 1
修改于2013-09-18
得票数 1
1
回答
Python读取
pdf
文件
如何使用jupyter实验室从
pdf
文件中读取和
提取
表格? 一个典型的
pdf
文件与文本之间的
文字
字幕和表格。我需要编码来
提取
特定标题下的表格,并清理一些不需要的文本,比如页码。
浏览 3
提问于2022-09-19
得票数 -1
1
回答
如何从
PDF
文件中正确
提取
日文txt
我需要从
pdf
文件中
提取
文本。谁能给我一个如何处理的提示?
浏览 5
提问于2022-02-22
得票数 1
回答已采纳
3
回答
给定一个
PDF
,如何从命令行
提取
图像*及其在页面上的位置?
我有一个
PDF
,其中包括
文字
和图像。我想使用linux命令行从
PDF
中
提取
图像。我可以使用pdfimages
提取
图像,但我也希望在每个页面上找到该图像所在的位置。
浏览 4
提问于2011-01-03
得票数 16
4
回答
如何使用Python从
PDF
中
提取
表作为文本?
我有一个
PDF
,其中包含表格,
文字
和一些图像。我想从
PDF
文件中的任何位置
提取
表格。 PDFfilename = "Sammamish.
pdf
" #filename of your
PDF
/directory where your
PDF
is storedPdfFileWriter() #create PdfFileW
浏览 4
修改于2020-09-30
得票数 47
回答已采纳
2
回答
Python 2:返回一些PyPdf的空结果
嗨,我有一些
pdf
的,我需要他们的
文字
信息被
提取
。我使用了以下代码:pdfReader = PyPDF2.PdfFileReader(pdfFileObj)pageObj.extractText()‘\n\n\n’ 然而,这段代码适用于我所拥有的一些
pdf
。
浏览 13
提问于2019-08-19
得票数 0
1
回答
为什么我得到的是"ق“而不是"fi"?
我从文档中
提取
了文本,并注意到该文本包含一些未知字符,例如:很明显,ق不是真正的字符,应该用"fi“代替--我可以使用python将这些字符替换为正确的英
文字
符吗?import zlib file = open ("
PDF
_File.
pdf
"."rb").read()
浏览 0
修改于2015-01-13
得票数 2
1
回答
搜索存储在Google上的
pdf
文档中的特定字符串
我的项目是发送带有
pdf
附件的电子邮件。我所有的
pdf
是在一个文件夹中的谷歌驱动器,我需要寻找特定的
pdf
相关的特定客户。
pdf
只包含
文字
和客户号码。因此,我需要一个脚本,以
提取
文本从
pdf
到字符串,并研究这个字符串,以确定它是否包含客户编号。function myFunction() { var file = DocsList.getFileById(
浏览 4
修改于2014-05-30
得票数 0
1
回答
在SVG中定位SVG字体路径
我使用这里的脚本从svg字体中
提取
路径,然后将文本(象形
文字
)放置在svg中,然后将其拉到
PDF
中。我的问题是,象形
文字
的基线在0,这是我的svg的开始,所以我只看到了字形的下降。我这样做是为了使最终的
PDF
文件能够概述文本,而不需要将字体嵌入到
pdf
中,因为该文档将被发送到打印机,并且大多数希望在艺术作品中包含大纲文本,并且不需要将整个svg字体嵌入到我的最终文档中。
浏览 5
修改于2017-05-23
得票数 2
回答已采纳
3
回答
使用PHP编辑
PDF
我有一个
PDF
文件与图像,
文字
和价格。我想在价格的基础上再打个折。有没有可能用PHP找到价格并进行编辑?使用正则表达式(可能是/Price: [0-9,]*,-/ )可以很容易地找到模式。我也知道有可能从
PDF
中
提取
文本并重写文件,但我如何才能即时编辑它?
浏览 2
修改于2011-09-06
得票数 0
2
回答
如何从pdfplumber解压后删除英文单词之间的空格
我已经
提取
文本从
pdf
(使用pdfplumber)到txt,但有一些空格之间的
文字
不在
PDF
文件中。
浏览 11
提问于2021-03-15
得票数 0
2
回答
如何强制PDFsharp只嵌入字体的子集?
我能够成功地使用PDFsharp和MigraDoc创建
PDF
文件。两种专用字体(OTF格式)用于创建单个页面
PDF
。创建的
PDF
包含完全嵌入的两种字体。不幸的是,每种字体都包含中
文字
母,因此每种字体的大小约为4MB,导致
PDF
文件大小约为9 MB (仅包含一页
文字
!)*震惊: 是否可以使用这些字体的子集来节省宝贵的空间。更新:我使用fontforge
提取
嵌入式字体子组,并发现从
pdf
派生的字体与完整的字体文件完全匹配。因此,实际上根本没有使用任何字体子
浏览 1
修改于2018-07-31
得票数 0
2
回答
使用java从
pdf
中识别和
提取
表格
我有不同类型的
pdf
,其中包含多个东西,如
文字
,表格等。该表可能存在任何地方的
pdf
(顶部,中部,底部)。我只想
提取
表数据(否)。列上的,不。在不传递位置的情况下使用java从
pdf
中
提取
行和表中的数据。 我也使用过PDFBox java,但它也解决不了我的问题。我无法确定在哪里找到该表
浏览 12
修改于2017-05-23
得票数 1
4
回答
分析
pdf
文件的格式并
提取
文本和图像
我需要从这本杂志中
提取
“文章”,其中既有
文字
和图像。图像内容必须单独放置,文本
提取
(尽可能)并单独放置。(实际的文件应该是普通的
pdf
文件,而不是加密的文件)
浏览 4
修改于2011-05-04
得票数 3
2
回答
LocationTextExtractionStrategy/HorizontalTextExtractionStrategy将文本拆分为单个字符
我使用了LocationTextExtractionStrategy的扩展版本来
提取
一个
pdf
的连接文本及其位置/大小。我是通过使用locationalResult来做到这一点的。突然,这些
文字
被分割成单个字符或小片段。 { return (List<TextChunk>)locationalResultField.GetValue(
浏览 3
提问于2016-11-17
得票数 0
回答已采纳
1
回答
如何使用python从
pdf
中从每个超链接中
提取
锚文本/单词?
我试图
提取
超链接在每一页与他们的锚文本从
pdf
使用PymuPdf库。我能够
提取
超链接与他们的页码,但不能
提取
锚文本/
文字
为每个超链接。 有人能帮我吗?
浏览 18
修改于2022-10-03
得票数 1
1
回答
用R编程实现
Pdf
中基于关键字的前后行
提取
我想使用R从
pdf
列表中
提取
与关键字“癌症”相关的信息。 我想
提取
之前和之后的行或段落中包含
文字
癌症的文本文件。
浏览 0
修改于2017-04-14
得票数 0
1
回答
如何使用System.Drawing.Image将
PDF
页面绘制成iTextSharp?
我有一个
PDF
文档的存储库,我需要将其复制到图像中(每页一张图像)并对它们进行处理。这些
PDF
有
文字
,光栅图像和矢量图像,并可能,更多的东西在其中。我不是很熟悉
PDF
的结构,我宁愿使用iTextSharp之前,必须购买一些
PDF
软件包。我已经完成了使用iTextSharp在C#上从每个
PDF
文档中
提取
文本和光栅图像的工作,但是尝试将它们呈现成图像会产生混合的结果,如果有矢量图形,我就无法轻松地
提取
和呈现它们。对于我对
PDF
内部工作和i
浏览 3
提问于2014-07-29
得票数 0
回答已采纳
1
回答
可以找到与正则表达式匹配的
(它由
pdf
文件呈现) 我正在用Python编码,从
pdf
发票中
提取
数据到invoice2data包的数据,并面对一个从一个
pdf
文件中呈现的文本错误。我认为我的
文字
中有不同的字体,但不确定。
浏览 6
修改于2022-12-03
得票数 1
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券