首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >XPDF pdftotext和页码处理

XPDF pdftotext和页码处理
EN

Stack Overflow用户
提问于 2012-10-09 22:16:17
回答 1查看 1.6K关注 0票数 0

使用perl利用pdftotext从pdf中提取文本。效果很好。我的问题是,我正在阅读的pdf是多页的,我在每一页的顶部寻找特定行的数据。下面的代码将两个页面的全部内容转储到一个文件中。因为常量数据(在页面顶部)之后的数据长度不同,所以我不能准确地从第2页提取数据。我如何首先使用pdftotext或其他实用程序/模块遍历每个页面,然后在每个页面上分别调用pdftotext?

代码语言:javascript
复制
#!/usr/bin/perl
print "Content-type: text/html\n\n";

print "\n<style>
div.line {width:100%;white-space:nowrap;}
div.line div {width:80px;float:left;}
</style>";

my $i=0;
open FILE, "pdftotext -layout my_multi_page_pdf.pdf - |";

while (<FILE>) {

    $i++;
    my ($line) = $_;
    print "\n<div class=\"line\"><div>$i</div>$line</div>";
}
close FILE;
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-10-12 03:32:16

代码语言:javascript
复制
use strict;
use warnings;

my $i       = 0;
my $pageNum = 1;

open my $fh, "pdftotext -layout multipage.pdf - |" or die $!;
print "---------- Begin Page $pageNum ----------\n";

while ( my $line = <$fh> ) {
    if ( $line =~ /\xC/ ) {
        print "\n---------- End Page $pageNum ----------\n";
        $pageNum++;
        print "---------- Begin Page $pageNum ----------\n";
    }

    $i++;
    print "\n<div class=\"line\"><div>$i</div>$line</div>";
}

close $fh;
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/12802076

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档