腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
pdfplumber extract_text函数也可以从
表格
中
提取
文本。只想
提取
表外的文本
我有一个包含文本和
表格
的
pdf
。我想将它们都
提取
出来,但是当我使用extract_text函数时,它也会
提取
表中的
内容
。我只想
提取
表外的文本,并且可以使用extract_tables函数
提取
该表。我测试了一个只包含
表格
的
pdf
,但仍然使用extract_tables函数
提取
我想要
提取
的
表格
内容
。
浏览 232
提问于2021-10-01
得票数 0
2
回答
使用Adobe API
提取
PDF
内容
我正在尝试读取
PDF
文件的
内容
,该文件由多个表组成。使用Java和Adobe API,如果所有单元格都有一行
内容
,我就能够
提取
表格
中的
内容
。当单元格有多行时,问题就出现了,这会导致
提取
的
内容
移动到下一行,从而导致与表头不对齐。 有没有什么方法可以从
PDF
中按原样
提取
内容
,同时保持
表格
格式与在
PDF
中显示的方式相同?我目前正在使用\t转义字符来
提取
浏览 56
修改于2015-02-11
得票数 2
1
回答
如何在Java中从
PDF
文件中
提取
表格
数据
我对从
PDF
文件中
提取
数据有疑问。我有一个
PDF
文件,其中有多个可用的数据表。我想从require表
内容
中
提取
数据。如何使用iText/PDFBox执行此操作?
浏览 2
修改于2018-02-14
得票数 0
3
回答
是否将
表格
从
pdf
导出到excel?
如何通过C#编程只将
表格
内容
导出到excel文件中?我目前正在使用PDFNET SDK从
PDF
中
提取
所有
内容
,但无法将
表格
作为
表格
结构读取
浏览 3
提问于2011-08-03
得票数 1
2
回答
如何使用pdfplumber将表详细信息
提取
到行和列中
我正在使用pdfplumber从
pdf
中
提取
表格
。但是,正在使用的表没有可见的垂直线分隔
内容
,因此
提取
的数据被分成3行和1列。 ? 我想把上面的
表格
排成13行。import pdfplumberimport numpy as np tabl
浏览 67
提问于2021-08-21
得票数 0
1
回答
如何读取一些
pdf
文件中除
表格
以外的所有
内容
?
我想使用python读取
pdf
文件,但在阅读时,我不想将
表格
包含在
pdf
文件中。我只想要除了那些
表格
之外的所有其他
内容
。我尝试过像PyPDF2和Tabula这样的库,但我只是找到了
提取
表格
或读取包括
表格
在内的
内容
的方法。 我也不想创建一个新文件并在其中添加页面。准确地说,除了表的
内容
之外,所有的
内容
都应该是strings的list格式。
浏览 26
修改于2019-09-02
得票数 0
1
回答
如何使用python从
PDF
中
提取
文本、
表格
和图像
我有一个
PDF
文件,其中包括文本,图像和
表格
。如何
提取
3,使其能够识别要
提取
的
内容
,并自行完成
提取
?
浏览 12
提问于2020-04-03
得票数 0
1
回答
将扫描的
PDF
表格
转换为Excel
我有一个扫描的
PDF
,其中有一些
表格
格式的随机数据,并希望将其复制
到
Excel工作表。 我试过使用数字
PDF
,使用'tabula‘来
提取
表格
,但扫描的
PDF
需要OCR(我在google上看到的)。我知道涉及
到
OCR (Tesseract),但不知道我应该采取什么方法来解决这个问题。
浏览 7
修改于2019-06-20
得票数 0
1
回答
我想阅读带有图像、文本和
表格
的
PDF
内容
我是一个非常新的阅读
PDF
内容
与图像,文本和
表格
。我浏览过许多网站,我使用iTextSharp (TextWithFontExtractionStategy)读取
内容
并将其转换为HTML,我只处理文本。我在许多网站上寻找建议,但我找不到解决方案。现在,我想要实现的是我想从
PDF
中读取包含文本、图像和
表格
的
内容
,并将其转换为HTML。我知道识别图像和
表格
是很困难的。对于图像-我不想从
PDF
中
提取
图像,因为我要为图像保留
浏览 2
提问于2019-01-04
得票数 0
2
回答
用Python
提取
PDF
文件的文本和表
我正在寻找一个从
PDF
文件中
提取
文本和
表格
的解决方案。虽然有些包适合
提取
文本,但它们不足以
提取
表。一种解决方案是使用Azure表单识别器布局模型,但是当我们有文本和表的混合时,它就失败了,特别是当表是某种文本格式并且它们将表和文本的
内容
混合在一起时(请参见Azure Form Recognizer代码文件,pypdf2工作正常,但是它失败了,并且没有为一些pdfs (来自的
pdf
文件)保留单词之间的空格: 第二,如果页面中存在表,我如何
提取
浏览 8
修改于2021-09-21
得票数 1
1
回答
使用
PDF
Clown检测
PDF
表格
中的标题和边框
我正在使用
PDF
Clown的TextInfoExtractionSample将
PDF
表格
提取
到Excel中,除了合并的单元格之外,我可以做到这一点。在下面的代码中,对于object," content“,我看到扫描的
内容
是文本、XObject、ContainerObject,但没有边框。谁知道什么对象代表
PDF
表格
中的边框,或者如何检测文本是否是
表格
的标题?
浏览 6
提问于2015-07-20
得票数 1
2
回答
如何使用pdfbox解析包含
表格
格式数据的
pdf
谁能帮助我如何
提取
表格
数据使用itext或pdfbox,我有一个有1000页的
pdf
,我的工作是解析
pdf
并将数据存储
到
数据库中。
浏览 1
修改于2013-01-15
得票数 5
1
回答
GSON / iText:从
PDF
1.7 byte[]中
提取
文本
我正在使用Rest自动化测试-Assured和GSON -并且需要验证在POST请求的响应中返回的
PDF
文件的
内容
。文件的
内容
各不相同,可以包含任何
内容
,从文本
到
文本和
表格
,或者文本和
表格
和图形。每个页面都可以,而且很可能是不同的字形
内容
。我只关心
pdf
页面上的所有文本--无论是纯文本,还是
表格
中的文本,或者与图像相关(或在图像中)的文本。由于请求返回的所有
pdf
都是不同的,因此我无法定义搜索区域(
浏览 20
提问于2020-09-24
得票数 0
1
回答
提取
跨越多个页面的表
我正在尝试从
pdf
中
提取
表格
。Tabula帮助我从
pdf
中
提取
表格
。from tabula import read_
pdf
df = read_
pdf
("SampleTableFormat2pages.
pdf
", multiple_tabl
浏览 1
提问于2018-09-08
得票数 4
8
回答
PDF
表格
提取
我将(相同的)数据保存为GIF图像文件和
PDF
文件,并希望将其解析为HTML或XML。这些数据实际上是我校食堂的菜单。这意味着有一个新版本的文件,必须分析每周!我阅读了一些关于堆栈溢出的文章,并开始尝试将表数据解析为HTML/XML: 我在用PDFBox解析
PDF
文件时得到了最好的结果,但是(因为菜单每周都有变化),它还不够可靠。
浏览 10
修改于2017-05-19
得票数 12
1
回答
如何在C#中使用
提取
PDF
文本
我想使用谷歌视觉,以
提取
PDF
到
文本/
表格
。我的
PDF
包含一个我想要
提取
的表(BlockType = table)。}.Build(); Image image = Image.FromUri("https://storage.cloud.google.com/pathtomyfile.
pdf
有人能帮我找出如何将
PDF
浏览 2
提问于2021-10-04
得票数 0
2
回答
AttributeError:模块'camelot‘没有属性'read_
pdf
’
尝试从
PDF
中
提取
表格
数据时获得以下
内容
。import camelot file = input_folder+file_name print(tables[0].df) Error: AttributeError: module 'camelot' has no attribute 'read_
浏览 301
提问于2021-01-10
得票数 0
1
回答
如何
提取
pdf
文件中
表格
的
内容
?
我想
提取
pdf
格式的
表格
内容
,如下所示:我用写的这个java程序,它可以逐行读取
PDF
文件的
内容
,但是我不知道如何获取表的
内容
import com.itextpdf.text.
pdf
.parser.PdfTextExtractor;
浏览 3
修改于2015-07-10
得票数 6
2
回答
在C#中从
PDF
中
提取
格式信息
我需要制定一个程序,可以分析和理解在某些
PDF
中的特定结构和格式的
内容
的上下文和语义关系。下面是一个示例,其中显示了这种
PDF
的一段
内容
: 因此,我需要一个
PDF
阅读库,它不仅可以
提取
文本,还可以
提取
PDF
中的流星数据,如字体大小、字体样式(粗体、塔利)、背景色、表及其子元素、
表格
单元格背景颜色
浏览 11
修改于2017-05-23
得票数 4
回答已采纳
2
回答
使用Perl从
PDF
中
提取
图像/文本
我正在尝试使用Perl从
PDF
文件中
提取
文本/图像/
表格
。有没有一种方法可以使用Perl模块从
PDF
中
提取
文本/图像/
表格
?
浏览 0
修改于2016-04-27
得票数 2
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券