搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

将网站迁移到8

我需要将静态内容网站迁移到。基本上，我们有大量的HTML页面。还有很多Word和PDF文档是从HTML页面引用的。是否可以通过某种API或服务自动化创建页面和组件的过程？如何批量导入Word文档和PDF，将其存储为可从迁移页面引用的组件。致以问候。

浏览 3修改于2014-05-28得票数 3

回答已采纳

1回答

如何批量解压pdf？

我有一个食谱的PDF列表，我想嵌入到我的食谱网站。有没有办法批量提取整个文本和格式？我将与100的pdf的工作。

浏览 4修改于2019-08-10得票数 0

1回答

食谱PDF批量提取

我现在正在处理500个pdf食谱文件，我想在我的网站上显示。如何批量提取它们并在PDF上显示信息到我的网站？PDF包含了食谱的所有信息。对于每个食谱，我需要显示它的描述，图像，成分，说明，营养标签等。

浏览 19提问于2019-08-15得票数 0

1回答

计算机视觉API批量读取文件，可从多个pdf和图像中提取文本

docs.microsoft.com/en-us/azure/cognitive-services/computer-vision/quickstarts/javascript-hand-text (后批量读取文件以发送pdf和图像并获得提取的文本我们能够获得pdf和图像的提取文本，但它一次只能用于一个图像和一个pdf，是否有任何用于多个图像/pdf处理的azure计算机视觉api通过一个api调用，

浏览 9提问于2019-12-13得票数 0

1回答

如何以编程方式使用AcroTextExtractor.exe？

我正在尝试从PDF文件中进行批量文本提取。我尝试过很多库，Adobe Reader对我来说似乎是最准确的文本提取工具。它的名字似乎很有希望，谷歌他们显示这个文件是PDF到文本转换例程的一部分。如何从命令行调用此文件进行文本提取？

浏览 0提问于2015-04-09得票数 7

1回答

我必须将PDF文件存储在Azure Blob存储到OCR并对其进行索引吗？

我的问题是如何索引PDF文件中的内容，包括文本，以及使用认知服务从PDF文件中的图像中提取文本。在与索引PDF文件相关的教程中，似乎假定PDF文件位于Search (如)可访问的位置。因此，我似乎必须将我网站中已经存在的所有PDF文件存储在Azure Blob存储中(以某种方式保存它们的原始URL )，这样我就可以使用数据源索引器索引来索引它们并提取内容。我想要寻找的功能是，您可以访问我的网站，搜索PDF<

浏览 1提问于2019-09-23得票数 0

回答已采纳

1回答

Tet Pdf文本提取教程

有没有人知道一个好的TET教程，它不是标准文档？如果有人能把我解释为一个答案，那也没什么。

浏览 4修改于2012-10-01得票数 1

回答已采纳

5回答

如何在Python2.7中使用Tika package(https://github.com/chrismattmann/tika-python)来解析PDF文件？

我正在尝试解析几个包含工程图的PDF文件，以获取这些文件中的文本数据。我尝试将TIKA作为jar与python一起使用，并将其与jnius包一起使用(在这里使用本教程：)，但是代码抛出了一个错误。使用TIKA包，我可以传递文件并解析它们，但Python只能提取元数据，当被要求解析内容时，Python返回输出"none“。它能够完美地解析.txt文件，但无法提取PDF的内容。= parser.from_file('/path/to&

浏览 0提问于2015-10-12得票数 3

2回答

如何使用PyPDF2按正确的顺序从PDF中提取文本？

我目前正在做一个项目，以提取PDF的内容。代码运行平稳，我可以提取文本，但提取的文本没有正确的顺序。代码以一种奇怪的方式提取文本。课文的顺序到处都是。它不会自上而下，而且真的令人困惑。我在网上查了一下，但在如何排序文本提取方面几乎没有什么帮助。大多数教程得出了同样的结果。作为参考，这是我目前正在测试的PDF文件(第5页)： with open('pdftest2.pdf

浏览 8提问于2021-05-16得票数 0

回答已采纳

1回答

使用PyPDF2从目录中的PDF文件提取文本

我想提取文本从一个目录的pdf文件到另一个目录的文本文件(转换PDF=> .txt)与PyPDF2 我已经阅读了这里的信息：https://automatetheboringstuff.com/chapter13/ 但是我没有找到批量转换文件的信息 import PyPDF2pdfReader = PyPDF2.PdfFileR

浏览 15提问于2019-04-12得票数 0

3回答

如何更改亚马逊S3对象的内容类型

我的亚马逊S3存储桶中的对象都是application/octet-stream内容类型。其中一些对象是PDF，有时是JPG、GIF、PNG等图像。如何将这些对象的内容类型更改为images/jpeg、application/pdf等？我可以使用命令行吗？或者也许是通过PHP？

浏览 1提问于2016-12-07得票数 22

2回答

如何从不可搜索的pdf中检测出可搜索的pdf？

我有一堆pdf文件，一些是可搜索的常规pdf文件，一些是一些不可搜索的文件的扫描版本。我想提取每个pdf的内容。要提取常规的内容，我使用pdf；要从不可搜索的pdfs中提取内容，我使用pdf。然而，我需要区分哪个pdf是正常的pdf，哪个不是。有没有办法做到这一点？

浏览 4提问于2015-07-09得票数 2

1回答

如何从PDF中批量提取图像

TL/DR版本：我正在重新设计我公司的在线目录，需要从~2000 PDF中提取设计图像，它们要么是A型(在那里我可以使用Acrobat工具导出图像-文档处理-提取所有图像)，要么是B型。我不知道这些是如何设计的，也不知道差异的原因( PDF创建是在两年前外包给一些现在已经停业的公司)。

浏览 1提问于2013-08-11得票数 1

1回答

用于将通过循环提取的文本追加到Python中的列表的多重处理

作为一名Python (和编程)新手，我正在尝试将数千个PDF的文本提取到一个文件(或列表，如果更好)。这些数据将用于稍后的内容分析。我创建了一个工作函数，可以遍历目录中的所有PDF，使用pdfplumber提取文本并将其附加到列表中。现在，我想使用多进程来加速一个非常冗长的过程。下面是在我的函数中使用concurrent.futures的一些教程中的代码： import pdfplumberimport concurrent.futures def pdfex

浏览 8提问于2020-10-27得票数 1

回答已采纳

1回答

从pdf* - PyPDF2中提取文本*

我按照页面上的教程从pdf中提取文本： http://www.blog.pythonlibrary.org/2018/06/07/an-intro-to-pypdf2/ 我可以打印pdf信息，但不能打印页面的内容它不会抛出任何错误，但我也看不到pdf的文本可能的问题是什么？from PyPDF2 import PdfFileReader with open(path

浏览 10提问于2019-09-11得票数 0

1回答

用Java实现PDF内容验证的自动化解决方案

我正在做PDF内容验证的POC，这将基本上验证PDF文件的内容。但我没有找到任何解决办法。我正在寻找的解决办法：提取PDF内容，并可能将其以某种结构化格式放入根据预期值验证实际提取的内容

浏览 0修改于2020-02-14得票数 1

2回答

使用Adobe API提取PDF内容

我正在尝试读取PDF文件的内容，该文件由多个表组成。使用Java和Adobe API，如果所有单元格都有一行内容，我就能够提取表格中的内容。当单元格有多行时，问题就出现了，这会导致提取的内容移动到下一行，从而导致与表头不对齐。有没有什么方法可以从PDF中按原样提取内容，同时保持表格格式与在PDF中显示的方式相同？我目前正在使用\t转义字符来提取数据。

浏览 56修改于2015-02-11得票数 2

6回答

如何在.PDF中索引ElasticSearch文件

我已经完成了关于创建索引的非常基本的教程。我确实理解索引的概念。我希望ElasticSearch在.PDF文件中搜索。根据我对创建索引的理解，我似乎需要读取.PDF文件并提取所有用于索引的关键字。如何读取.PFD文件来提取关键字。

浏览 2提问于2016-01-18得票数 30

回答已采纳

2回答

如何将.pdf文件内容放入varbinary(max)列

我尝试将.pdf文件的内容放入varbinary(max)类型的列中。set @var1 'c:\xxx\inp.pdf' ???然后：或者我可以使用insert from from文件，不确定这在没有<e

浏览 12修改于2017-12-06得票数 6

1回答

在pdf中自动缩小页边距

他们在所有这些pdf中写的内容占据了页面中心的一小部分，留下了大量的页边距。这就缩小了角色的大小。我正在试图看看是否有一种方法来扩展书面内容，以占用更多的页面(放大页面大小不变)。有什么pdf工具可以帮我大批量地修剪上/下/右/左边距吗？某种以pdf作为输入和页面范围来修改这种方式的东西？谢谢

浏览 14提问于2022-08-09得票数 0

回答已采纳

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

将网站迁移到8

如何批量解压pdf？

食谱PDF批量提取

计算机视觉API批量读取文件，可从多个pdf和图像中提取文本

如何以编程方式使用AcroTextExtractor.exe？

我必须将PDF文件存储在Azure Blob存储到OCR并对其进行索引吗？

Tet Pdf文本提取教程

如何在Python2.7中使用Tika package(https://github.com/chrismattmann/tika-python)来解析PDF文件？

如何使用PyPDF2按正确的顺序从PDF中提取文本？

使用PyPDF2从目录中的PDF文件提取文本

如何更改亚马逊S3对象的内容类型

如何从不可搜索的pdf中检测出可搜索的pdf？

如何从PDF中批量提取图像

用于将通过循环提取的文本追加到Python中的列表的多重处理

从pdf* - PyPDF2中提取文本*

用Java实现PDF内容验证的自动化解决方案

使用Adobe API提取PDF内容

如何在.PDF中索引ElasticSearch文件

如何将.pdf文件内容放入varbinary(max)列

在pdf中自动缩小页边距

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐