搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

从PDF中提取页面时Ghostscript丢失字体

我使用可用的命令行将PDF拆分为多个页面： -dBATCH \ -dFirstPage=$G \ -o $G.pdf\done 但某些页面

浏览 0修改于2012-06-26得票数 0

3回答

PDFBox:拆分pdf和输出前缀

我喜欢使用PDFBox从一个大的PDF文件中提取一个页面。我所有的“真正的”PDF文件都位于一个目录下。因此，如果我提取一个页面，我喜欢将该页面保存到单个页面的不同目录中)。(或通过管道将其标准输出)带有选项PDFSplit seams的PDFBox可以将拆分的页面存储在与源pdf顺便说一句:在拆分之前不能选择拷贝源pdf</e

浏览 3提问于2012-12-10得票数 0

回答已采纳

3回答

用Python从PDF中提取文本

我有一份PDF格式的引文： import PyPDF2 pdfReader是否有可能通过水平分隔符将pdf“拆分”并以这种方式将其拆分为引号？

浏览 4提问于2017-03-22得票数 1

回答已采纳

2回答

保存多个文件并将其重命名为PDF，而无需同时询问位置

EMEA.doc --改名-> EMEA 083117.doc -> EMEA 082317.PDF3.LATAM.doc --改名-> LATAM 083117.doc --> LATAM 082317.PDF 我需要ExportAsFixedFormat(PDF)这些.Doc文件。ActiveDocument.E

浏览 7修改于2017-08-31得票数 0

回答已采纳

2回答

在创建了一个使用java和pdfbox提取pdf的工具之后，我一直在尝试用Python提取pdf。虽然对于相同的pdf，Java实现是成功的，但我一直在努力在python中做同样的事情，因为pdfminer和pypdf和pypdf2都不能逐行提取带有空格的pdf。特别是，出于某种奇怪的原因，pdfminer pdf2txt将pdf拆分为3列，然后逐行读取。我得到的最接近的是使用的实现，不幸的是，它没有保留空格。鉴于

浏览 10修改于2017-05-23得票数 4

1回答

合并和拆分大型PDF文档？

我们正在使用进行PDF操作。我们有需要合并然后再拆分的1000+ pdf文档。合并过程将在合并时在两个pdf文档之间添加一个分隔页。因此拆分过程将知道在何处拆分文档。我知道如何使用Aspose合并和拆分PDF文档。我的问题是，如何创建和检测这个分隔符页面？我想的一个选择是创建一个具有特定条形码的PDF页面，拆分过程将读取条形码。()但这似乎是一个耗时的过程，因为拆分过程必须读取每一页，检查是否有条

浏览 0提问于2016-06-23得票数 1

3回答

如何在iText 7中从pdf页面获取文本位置

我正在尝试查找PDF页面中的文本位置？var Words = pdftextextractor.Split(new char[] { ' ', '\n' }); 我不能做的是找到文本的位置。我需要找到的就是PDF文件中单词的y坐标。

浏览 21修改于2017-05-06得票数 4

回答已采纳

1回答

PDF页面拆分-增加PDF的大小

我已经使用PyPDF2创建了一个PDF Splitter。它将大小超过20Mb的PDF拆分为多个较小的PDF。我使用的逻辑是将所有页面分割成单页PDF，找到每个页面的大小。添加大小，直到达到20Mb并拆分。我面临的问题是，PDF中的某些页面几乎与原始PDF的大小相同。尽管当我手动进行页面提取时，页面大小约为500Kb。不确定大小增加的原因。请帮我解决这些问题。for i in range(pdf_reader.

浏览 11修改于2020-05-01得票数 1

回答已采纳

1回答

将PDF按章节从目录中拆分

我正在使用，我需要提取一个PDF文件中的各个章节作为一个单独的PDF文件。第一页(也可能是第二页)包含TOC (目录)，我需要根据其划分PDF页面的其余部分：另外，那些拆分的PDF文档应该被命名为它们包含的章节。我可以根据每个文档的页数来拆分PDF (我使用计算出了这一点)：{ int

浏览 2修改于2020-04-16得票数 1

回答已采纳

1回答

如何使用itextsharp打开pdf文件

我想在我的硬disk.How中打开一个现有的PDF文档，我能打开一个PDF文档并使用itextsharp查看它吗？或者我必须使用adobe阅读器组件来查看PDF。如果我使用adobe阅读器组件来查看PDF文档，是否可以使用itextsharp的特性，如拆分/合并文档，提取图像？我用的是c#

浏览 10修改于2015-05-02得票数 1

回答已采纳

1回答

在PDF文档中查找超链接？

我目前正在使用Aspose PDF Kit将一个“主PDF”拆分成单独的文档+缩略图。这目前运行良好，但我将在其上渲染PDF的设备不会知道PDF中的注释/链接。我知道有一种方法可以解析PDF文档来检测超链接的X/Y位置等，有没有一种简单的方法来提取/迭代文档数据，以便我可以将其写入外部XML文件？

浏览 3修改于2011-02-07得票数 7

回答已采纳

2回答

用“”分隔字符串。

拆分一个字符串，但是数组中什么都没有。文件名是"Head-First-Java-2nd-edition.pdf"，在拆分后，我想提取扩展名，但不知道为什么它会给出空白数组。

浏览 0修改于2013-10-01得票数 1

回答已采纳

1回答

python基于模式拆分长输出字符串(无分隔符)

我是python的新手，我试着用(PyPDF2)来阅读PDF地图。我得到了这个作为输出Sample output of pdf map as text。我想从这个输出中提取某个模式与RIY-DIRAHH-015524.49121946.651068匹配的数据。我只需要那些只有这个模式的值。图案的长度在30-34之间变化。Complete output of PDF MAP。请帮助提取/拆分特定值(匹配模式)。如果有任何其他解决方案可用于阅读PDF地图。敬请指

浏览 27提问于2020-06-17得票数 1

回答已采纳

2回答

ImageMagick拆分PDF输出文件名总是从零开始

我运行以下命令在ImageMagick中拆分PDF：结果输出文件总是以零开头的后缀。文档指出，文件应该从5开始以后缀形式出现，与提取的页面页码相匹配。

浏览 3修改于2015-02-18得票数 6

回答已采纳

2回答

如何根据页码将单个pdf拆分成多个PdfFileReader对象？

我需要根据页码将一个PdfFileReader文件拆分成几个对象，以便使用getFormTextFields()从特定页面提取数据。有没有一种方法可以做到这一点，而不是为每个页面创建新的PDF文档。

浏览 5提问于2021-06-07得票数 0

2回答

LocationTextExtractionStrategy/HorizontalTextExtractionStrategy将文本拆分为单个字符

我使用了LocationTextExtractionStrategy的扩展版本来提取一个pdf的连接文本及其位置/大小。我是通过使用locationalResult来做到这一点的。例如，"Detail“不是locationalResult列表中的任何一个对象，而是拆分为六个项(D、e、t、a、i、l)。GetLocationalResult() return (List<TextChunk>)locationalResultField.GetValue(this);并使用PdfReaderC

浏览 3提问于2016-11-17得票数 0

回答已采纳

1回答

如何将R输出数据保存到文本文件中

我使用R从扫描的PDF中提取数据，但我的输出在控制台中，我想将其保存为文本文件。如果你有任何建议，请让我知道。我的代码如下filename= 'my_file.pdf'Cat(text)谢谢 Xxxx

浏览 0修改于2020-06-20得票数 3

回答已采纳

1回答

从多页PDF的集合中提取页面级别的ASCII文本？

我试图从一系列多页PDF中获取页面级别的ASCII文本。我目前的过程是将所有PDF与Sejda (一个很棒的工具)进行批处理，然后从已分割的PDF( Sejda作为批处理)中提取文本到相应的文本文件。是否有一种简单的方法可以绕过拆分阶段，直接转到页面级别的TXT文件？我只想输入一个多页PDF的集合，并输出对应的TXT文件每页的每一个PDF。如有任何意见或见解，将不胜感激。我的过程 File.pdf --> File-001.pdf</em

浏览 5修改于2013-10-25得票数 1

2回答

使用批处理文件脚本重命名文件

我想使用批处理脚本重命名文件夹中的所有PDF文件。例如，我在文件夹中有3个文件：otherfile.pdf,现在我想将文件重命名为：-PDF1.pdf,我已经使用这个脚本获取了文件%%F IN (*.pdf) DO ( SETLOCAL EnableDelay

浏览 2提问于2014-08-21得票数 0

1回答

PDF转XML表格数据提取

我想从PDF文件中提取表格数据，我正在使用Itext，但我不知道如何搜索dablur数据，(拆分)谁能给出相关的想法搜索表content.Here数据是无序的格式，如何将这些数据转换为可理解的格式。

浏览 1提问于2013-09-02得票数 0

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

从PDF中提取页面时Ghostscript丢失字体

PDFBox:拆分pdf和输出前缀

用Python从PDF中提取文本

保存多个文件并将其重命名为PDF，而无需同时询问位置

可以在Python中提取带有空格的pdf吗？

合并和拆分大型PDF文档？

如何在iText 7中从pdf页面获取文本位置

PDF页面拆分-增加PDF的大小

将PDF按章节从目录中拆分

如何使用itextsharp打开pdf文件

在PDF文档中查找超链接？

用“”分隔字符串。

python基于模式拆分长输出字符串(无分隔符)

ImageMagick拆分PDF输出文件名总是从零开始

如何根据页码将单个pdf拆分成多个PdfFileReader对象？

LocationTextExtractionStrategy/HorizontalTextExtractionStrategy将文本拆分为单个字符

如何将R输出数据保存到文本文件中

从多页PDF的集合中提取页面级别的ASCII文本？

使用批处理文件脚本重命名文件

PDF转XML表格数据提取

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐