腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(2427)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
将网站迁移到8
我需要将静态
内容
网站迁移到。基本上,我们有大量的HTML页面。还有很多Word和
PDF
文档是从HTML页面引用的。是否可以通过某种API或服务自动化创建页面和组件的过程? 如何
批量
导入Word文档和
PDF
,将其存储为可从迁移页面引用的组件。致以问候。
浏览 3
修改于2014-05-28
得票数 3
回答已采纳
1
回答
如何
批量
解压
pdf
?
我有一个食谱的
PDF
列表,我想嵌入到我的食谱网站。有没有办法
批量
提取
整个文本和格式?我将与100的
pdf
的工作。
浏览 4
修改于2019-08-10
得票数 0
1
回答
食谱
PDF
批量
提取
我现在正在处理500个
pdf
食谱文件,我想在我的网站上显示。如何
批量
提取
它们并在
PDF
上显示信息到我的网站?
PDF
包含了食谱的所有信息。对于每个食谱,我需要显示它的描述,图像,成分,说明,营养标签等。
浏览 19
提问于2019-08-15
得票数 0
1
回答
计算机视觉API
批量
读取文件,可从多个
pdf
和图像中
提取
文本
docs.microsoft.com/en-us/azure/cognitive-services/computer-vision/quickstarts/javascript-hand-text (后
批量
读取文件以发送
pdf
和图像并获得
提取
的文本我们能够获得
pdf
和图像的
提取
文本,但它一次只能用于一个图像和一个
pdf
,是否有任何用于多个图像/
pdf
处理的azure计算机视觉api通过一个api调用,
浏览 9
提问于2019-12-13
得票数 0
1
回答
如何以编程方式使用AcroTextExtractor.exe?
我正在尝试从
PDF
文件中进行
批量
文本
提取
。我尝试过很多库,Adobe Reader对我来说似乎是最准确的文本
提取
工具。它的名字似乎很有希望,谷歌他们显示这个文件是
PDF
到文本转换例程的一部分。 如何从命令行调用此文件进行文本
提取
?
浏览 0
提问于2015-04-09
得票数 7
1
回答
我必须将
PDF
文件存储在Azure Blob存储到OCR并对其进行索引吗?
我的问题是如何索引
PDF
文件中的
内容
,包括文本,以及使用认知服务从
PDF
文件中的图像中
提取
文本。 在与索引
PDF
文件相关的
教程
中,似乎假定
PDF
文件位于Search (如)可访问的位置。因此,我似乎必须将我网站中已经存在的所有
PDF
文件存储在Azure Blob存储中(以某种方式保存它们的原始URL ),这样我就可以使用数据源索引器索引来索引它们并
提取
内容
。我想要寻找的功能是,您可以访问我的网站,搜索
PDF<
浏览 1
提问于2019-09-23
得票数 0
回答已采纳
1
回答
Tet
Pdf
文本
提取
教程
有没有人知道一个好的TET
教程
,它不是标准文档?如果有人能把我解释为一个答案,那也没什么。
浏览 4
修改于2012-10-01
得票数 1
回答已采纳
5
回答
如何在Python2.7中使用Tika package(https://github.com/chrismattmann/tika-python)来解析
PDF
文件?
我正在尝试解析几个包含工程图的
PDF
文件,以获取这些文件中的文本数据。我尝试将TIKA作为jar与python一起使用,并将其与jnius包一起使用(在这里使用本
教程
:),但是代码抛出了一个错误。使用TIKA包,我可以传递文件并解析它们,但Python只能
提取
元数据,当被要求解析
内容
时,Python返回输出"none“。它能够完美地解析.txt文件,但无法
提取
PDF
的
内容
。= parser.from_file('/path/to&
浏览 0
提问于2015-10-12
得票数 3
2
回答
如何使用PyPDF2按正确的顺序从
PDF
中
提取
文本?
我目前正在做一个项目,以
提取
PDF
的
内容
。代码运行平稳,我可以
提取
文本,但
提取
的文本没有正确的顺序。代码以一种奇怪的方式
提取
文本。课文的顺序到处都是。它不会自上而下,而且真的令人困惑。我在网上查了一下,但在如何排序文本
提取
方面几乎没有什么帮助。大多数
教程
得出了同样的结果。作为参考,这是我目前正在测试的
PDF
文件(第5页): with open('pdftest2.
pdf
浏览 8
提问于2021-05-16
得票数 0
回答已采纳
1
回答
使用PyPDF2从目录中的
PDF
文件
提取
文本
我想
提取
文本从一个目录的
pdf
文件到另一个目录的文本文件(转换
PDF
=> .txt)与PyPDF2 我已经阅读了这里的信息:https://automatetheboringstuff.com/chapter13/ 但是我没有找到
批量
转换文件的信息 import PyPDF2pdfReader = PyPDF2.PdfFileR
浏览 15
提问于2019-04-12
得票数 0
3
回答
如何更改亚马逊S3对象的
内容
类型
我的亚马逊S3存储桶中的对象都是application/octet-stream
内容
类型。其中一些对象是
PDF
,有时是JPG、GIF、PNG等图像。如何将这些对象的
内容
类型更改为images/jpeg、application/
pdf
等?我可以使用命令行吗? 或者也许是通过PHP?
浏览 1
提问于2016-12-07
得票数 22
2
回答
如何从不可搜索的
pdf
中检测出可搜索的
pdf
?
我有一堆
pdf
文件,一些是可搜索的常规
pdf
文件,一些是一些不可搜索的文件的扫描版本。我想
提取
每个
pdf
的
内容
。要
提取
常规的
内容
,我使用
pdf
;要从不可搜索的pdfs中
提取
内容
,我使用
pdf
。然而,我需要区分哪个
pdf
是正常的
pdf
,哪个不是。有没有办法做到这一点?
浏览 4
提问于2015-07-09
得票数 2
1
回答
如何从
PDF
中
批量
提取
图像
TL/DR版本:我正在重新设计我公司的在线目录,需要从~2000
PDF
中
提取
设计图像,它们要么是A型(在那里我可以使用Acrobat工具导出图像-文档处理-
提取
所有图像),要么是B型。我不知道这些是如何设计的,也不知道差异的原因(
PDF
创建是在两年前外包给一些现在已经停业的公司)。
浏览 1
提问于2013-08-11
得票数 1
1
回答
用于将通过循环
提取
的文本追加到Python中的列表的多重处理
作为一名Python (和编程)新手,我正在尝试将数千个
PDF
的文本
提取
到一个文件(或列表,如果更好)。这些数据将用于稍后的
内容
分析。我创建了一个工作函数,可以遍历目录中的所有
PDF
,使用pdfplumber
提取
文本并将其附加到列表中。 现在,我想使用多进程来加速一个非常冗长的过程。下面是在我的函数中使用concurrent.futures的一些
教程
中的代码: import pdfplumberimport concurrent.futures def pdfex
浏览 8
提问于2020-10-27
得票数 1
回答已采纳
1
回答
从
pdf
- PyPDF2中
提取
文本
我按照页面上的
教程
从
pdf
中
提取
文本: http://www.blog.pythonlibrary.org/2018/06/07/an-intro-to-pypdf2/ 我可以打印
pdf
信息,但不能打印页面的
内容
它不会抛出任何错误,但我也看不到
pdf
的文本 可能的问题是什么?from PyPDF2 import PdfFileReader with open(path
浏览 10
提问于2019-09-11
得票数 0
1
回答
用Java实现
PDF
内容
验证的自动化解决方案
我正在做
PDF
内容
验证的POC,这将基本上验证
PDF
文件的
内容
。但我没有找到任何解决办法。我正在寻找的解决办法:
提取
PDF
内容
,并可能将其以某种结构化格式放入 根据预期值验证实际
提取
的
内容
浏览 0
修改于2020-02-14
得票数 1
2
回答
使用Adobe API
提取
PDF
内容
我正在尝试读取
PDF
文件的
内容
,该文件由多个表组成。使用Java和Adobe API,如果所有单元格都有一行
内容
,我就能够
提取
表格中的
内容
。当单元格有多行时,问题就出现了,这会导致
提取
的
内容
移动到下一行,从而导致与表头不对齐。 有没有什么方法可以从
PDF
中按原样
提取
内容
,同时保持表格格式与在
PDF
中显示的方式相同?我目前正在使用\t转义字符来
提取
数据。
浏览 56
修改于2015-02-11
得票数 2
6
回答
如何在.
PDF
中索引ElasticSearch文件
我已经完成了关于创建索引的非常基本的
教程
。我确实理解索引的概念。我希望ElasticSearch在.
PDF
文件中搜索。根据我对创建索引的理解,我似乎需要读取.
PDF
文件并
提取
所有用于索引的关键字。如何读取.PFD文件来
提取
关键字。
浏览 2
提问于2016-01-18
得票数 30
回答已采纳
2
回答
如何将.
pdf
文件
内容
放入varbinary(max)列
我尝试将.
pdf
文件的
内容
放入varbinary(max)类型的列中。set @var1 'c:\xxx\inp.
pdf
' ???然后:或者我可以使用insert from from文件,不确定这在没有<e
浏览 12
修改于2017-12-06
得票数 6
1
回答
在
pdf
中自动缩小页边距
他们在所有这些
pdf
中写的
内容
占据了页面中心的一小部分,留下了大量的页边距。这就缩小了角色的大小。我正在试图看看是否有一种方法来扩展书面
内容
,以占用更多的页面(放大页面大小不变)。有什么
pdf
工具可以帮我大
批量
地修剪上/下/右/左边距吗?某种以
pdf
作为输入和页面范围来修改这种方式的东西?谢谢
浏览 14
提问于2022-08-09
得票数 0
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券