搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

5回答

从PDF (google应用程序引擎)中提取文本

有没有免费的Java库可以从PDF中提取文本，与Google应用程序引擎兼容？有没有其他方法可以从PDF中提取文本？我试过，不幸的是他们不能正确处理非英文字符。

浏览 6提问于2010-03-28得票数 2

回答已采纳

1回答

PdfBox从pdf中提取具有相同字体的文本

我需要从pdf中提取一段文字。本文具有与特征相同的字体族。有什么想法吗？干杯编辑：，让我用另一种方式问这个问题:我如何才能从pdf页面中提取出“粗体”文本？

浏览 1修改于2013-09-18得票数 1

1回答

Python读取pdf文件

如何使用jupyter实验室从pdf文件中读取和提取表格？一个典型的pdf文件与文本之间的文字字幕和表格。我需要编码来提取特定标题下的表格，并清理一些不需要的文本，比如页码。

浏览 3提问于2022-09-19得票数 -1

1回答

如何从PDF文件中正确提取日文txt

我需要从pdf文件中提取文本。谁能给我一个如何处理的提示？

浏览 5提问于2022-02-22得票数 1

回答已采纳

3回答

给定一个PDF，如何从命令行提取图像*及其在页面上的位置？

我有一个PDF，其中包括文字和图像。我想使用linux命令行从PDF中提取图像。我可以使用pdfimages提取图像，但我也希望在每个页面上找到该图像所在的位置。

浏览 4提问于2011-01-03得票数 16

4回答

如何使用Python从PDF中提取表作为文本？

我有一个PDF，其中包含表格，文字和一些图像。我想从PDF文件中的任何位置提取表格。 PDFfilename = "Sammamish.pdf" #filename of your PDF/directory where your PDF is storedPdfFileWriter() #create PdfFileW

浏览 4修改于2020-09-30得票数 47

回答已采纳

2回答

Python 2:返回一些PyPdf的空结果

嗨，我有一些pdf的，我需要他们的文字信息被提取。我使用了以下代码：pdfReader = PyPDF2.PdfFileReader(pdfFileObj)pageObj.extractText()‘\n\n\n’ 然而，这段代码适用于我所拥有的一些pdf。

浏览 13提问于2019-08-19得票数 0

1回答

为什么我得到的是"ق“而不是"fi"？

我从文档中提取了文本，并注意到该文本包含一些未知字符，例如：很明显，ق不是真正的字符，应该用"fi“代替--我可以使用python将这些字符替换为正确的英文字符吗？import zlib file = open ("PDF_File.pdf"."rb").read()

浏览 0修改于2015-01-13得票数 2

1回答

搜索存储在Google上的pdf文档中的特定字符串

我的项目是发送带有pdf附件的电子邮件。我所有的pdf是在一个文件夹中的谷歌驱动器，我需要寻找特定的pdf相关的特定客户。pdf只包含文字和客户号码。因此，我需要一个脚本，以提取文本从pdf到字符串，并研究这个字符串，以确定它是否包含客户编号。function myFunction() { var file = DocsList.getFileById(&#

浏览 4修改于2014-05-30得票数 0

1回答

在SVG中定位SVG字体路径

我使用这里的脚本从svg字体中提取路径，然后将文本(象形文字)放置在svg中，然后将其拉到PDF中。我的问题是，象形文字的基线在0，这是我的svg的开始，所以我只看到了字形的下降。我这样做是为了使最终的PDF文件能够概述文本，而不需要将字体嵌入到pdf中，因为该文档将被发送到打印机，并且大多数希望在艺术作品中包含大纲文本，并且不需要将整个svg字体嵌入到我的最终文档中。

浏览 5修改于2017-05-23得票数 2

回答已采纳

3回答

使用PHP编辑PDF

我有一个PDF文件与图像，文字和价格。我想在价格的基础上再打个折。有没有可能用PHP找到价格并进行编辑？使用正则表达式(可能是/Price: [0-9,]*,-/ )可以很容易地找到模式。我也知道有可能从PDF中提取文本并重写文件，但我如何才能即时编辑它？

浏览 2修改于2011-09-06得票数 0

2回答

如何从pdfplumber解压后删除英文单词之间的空格

我已经提取文本从pdf (使用pdfplumber)到txt，但有一些空格之间的文字不在PDF文件中。

浏览 11提问于2021-03-15得票数 0

2回答

我能够成功地使用PDFsharp和MigraDoc创建PDF文件。两种专用字体(OTF格式)用于创建单个页面PDF。创建的PDF包含完全嵌入的两种字体。不幸的是，每种字体都包含中文字母，因此每种字体的大小约为4MB，导致PDF文件大小约为9 MB (仅包含一页文字！)*震惊：是否可以使用这些字体的子集来节省宝贵的空间。更新：我使用fontforge提取嵌入式字体子组，并发现从pdf派生的字体与完整的字体文件完全匹配。因此，实际上根本没有使用任何字体子

浏览 1修改于2018-07-31得票数 0

2回答

使用java从pdf中识别和提取表格

我有不同类型的pdf，其中包含多个东西，如文字，表格等。该表可能存在任何地方的pdf(顶部，中部，底部)。我只想提取表数据(否)。列上的，不。在不传递位置的情况下使用java从pdf中提取行和表中的数据。我也使用过PDFBox java，但它也解决不了我的问题。我无法确定在哪里找到该表

浏览 12修改于2017-05-23得票数 1

4回答

分析pdf文件的格式并提取文本和图像

我需要从这本杂志中提取“文章”，其中既有文字和图像。图像内容必须单独放置，文本提取(尽可能)并单独放置。(实际的文件应该是普通的pdf文件，而不是加密的文件)

浏览 4修改于2011-05-04得票数 3

2回答

LocationTextExtractionStrategy/HorizontalTextExtractionStrategy将文本拆分为单个字符

我使用了LocationTextExtractionStrategy的扩展版本来提取一个pdf的连接文本及其位置/大小。我是通过使用locationalResult来做到这一点的。突然，这些文字被分割成单个字符或小片段。 { return (List<TextChunk>)locationalResultField.GetValue(

浏览 3提问于2016-11-17得票数 0

回答已采纳

1回答

如何使用python从pdf中从每个超链接中提取锚文本/单词？

我试图提取超链接在每一页与他们的锚文本从pdf使用PymuPdf库。我能够提取超链接与他们的页码，但不能提取锚文本/文字为每个超链接。有人能帮我吗？

浏览 18修改于2022-10-03得票数 1

1回答

用R编程实现Pdf中基于关键字的前后行提取

我想使用R从pdf列表中提取与关键字“癌症”相关的信息。我想提取之前和之后的行或段落中包含文字癌症的文本文件。

浏览 0修改于2017-04-14得票数 0

1回答

如何使用System.Drawing.Image将PDF页面绘制成iTextSharp？

我有一个PDF文档的存储库，我需要将其复制到图像中(每页一张图像)并对它们进行处理。这些PDF有文字，光栅图像和矢量图像，并可能，更多的东西在其中。我不是很熟悉PDF的结构，我宁愿使用iTextSharp之前，必须购买一些PDF软件包。我已经完成了使用iTextSharp在C#上从每个PDF文档中提取文本和光栅图像的工作，但是尝试将它们呈现成图像会产生混合的结果，如果有矢量图形，我就无法轻松地提取和呈现它们。对于我对PDF内部工作和i

浏览 3提问于2014-07-29得票数 0

回答已采纳

1回答

可以找到与正则表达式匹配的

(它由pdf文件呈现) 我正在用Python编码，从pdf发票中提取数据到invoice2data包的数据，并面对一个从一个pdf文件中呈现的文本错误。我认为我的文字中有不同的字体，但不确定。

浏览 6修改于2022-12-03得票数 1

回答已采纳

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

从PDF (google应用程序引擎)中提取文本

PdfBox从pdf中提取具有相同字体的文本

Python读取pdf文件

如何从PDF文件中正确提取日文txt

给定一个PDF，如何从命令行提取图像*及其在页面上的位置？

如何使用Python从PDF中提取表作为文本？

Python 2:返回一些PyPdf的空结果

为什么我得到的是"ق“而不是"fi"？

搜索存储在Google上的pdf文档中的特定字符串

在SVG中定位SVG字体路径

使用PHP编辑PDF

如何从pdfplumber解压后删除英文单词之间的空格

如何强制PDFsharp只嵌入字体的子集？

使用java从pdf中识别和提取表格

分析pdf文件的格式并提取文本和图像

LocationTextExtractionStrategy/HorizontalTextExtractionStrategy将文本拆分为单个字符

如何使用python从pdf中从每个超链接中提取锚文本/单词？

用R编程实现Pdf中基于关键字的前后行提取

如何使用System.Drawing.Image将PDF页面绘制成iTextSharp？

可以找到与正则表达式匹配的

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐