首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用Perl从PDF中提取图像/文本

使用Perl从PDF中提取图像/文本
EN

Stack Overflow用户
提问于 2016-04-27 21:26:53
回答 2查看 845关注 0票数 2

我正在尝试使用Perl从PDF文件中提取文本/图像/表格。

我尝试使用CAM::PDF,它不是以文本形式提取的,而是以其他格式提取的。

有没有一种方法可以使用Perl模块从PDF中提取文本/图像/表格?

EN

回答 2

Stack Overflow用户

发布于 2016-05-25 02:22:42

@priya..我尝试了这个模块,它可以很好地提取PDF文本。

代码语言:javascript
复制
use strict;
use warnings;
use PDF::OCR::Thorough;


my $filename = "pdf.pdf";

my $pdf = PDF::OCR::Thorough->new($filename);
my $text = $pdf->get_text();
print "$text";
票数 1
EN

Stack Overflow用户

发布于 2016-04-29 22:16:35

使用CAM::PDF。它有一些方法可以帮助你提取图像或其他元素:

代码语言:javascript
复制
$doc->getProperty($pagenum, $propertyname)
Each PDF page contains a list of resources that it uses (images, fonts, etc). getPropertyNames() returns an array of the names of those resources. getProperty() returns a node representing a named property (most likely a reference node).
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/36891223

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档