#!/perl/bin/perl -w
use CAM::PDF;
use CAM::PDF::PageText;
$filename = "test.pdf";
my $pdf = CAM::PDF->new($filename);
my $pageone_tree = $pdf->getPageContentTree(2);
$text = CAM::PDF::PageText->render($pageone_tree);
#$text =~ s/regex/modify/gi;
print $text;使用上面的代码,我可以将pdf数据提取到一个文本文件中,但我只能得到一个页面。我想在我的pdf中得到每一页。
我知道它在包含以下内容的行中
my $pageone_tree = $pdf->getPageContentTree(2);我不确定如何改变它。我甚至试过(1..200),它只给了我第一页。有人熟悉使用CAM::PDF吗??
发布于 2015-02-20 01:03:36
这就是我所需要的。
use CAM::PDF;
use CAM::PDF::PageText;
$filename = "test.pdf";
my $pdf = CAM::PDF->new($filename);
for my $page (1..$pdf->numPages) {
my $pageone_tree = $pdf->getPageContentTree($page);
$text = CAM::PDF::PageText->render($pageone_tree);
print $text;
}numPages函数从pdf中获取页数。
https://stackoverflow.com/questions/28595599
复制相似问题