首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >获取textcontent pdf.js

获取textcontent pdf.js
EN

Stack Overflow用户
提问于 2013-12-15 18:49:30
回答 3查看 2.5K关注 0票数 0

我试着用JS中的pdf.js从pdf文档中获取文本。但是,pdf.js没有很好的文档,我查看了可用的示例,并得出如下结论:

代码语言:javascript
复制
var pdfUrl = "http://localhost/test.pdf"
var pdf = PDFJS.getDocument(pdfUrl);
pdf.then(function(pdf) {
    var maxPages = pdf.pdfInfo.numPages;
    for (var j = 1; j < maxPages; j++) {
        var page = pdf.getPage(j);

        page.then(function() {
            var textContent = page.getTextContent();

        })
    }
});

页面位正在工作,因为我可以看到它是一个约定。但是,运行此位将提供:

代码语言:javascript
复制
Warning: Unhandled rejection: TypeError: Object #<Object> has no method 'getTextContent'
TypeError: Object #<Object> has no method 'getTextContent'

在我见过的例子中,它是这样工作的。它得到了页面,我可以打印出页数。

有经验的人谁能发光?

*额外的问题:我只对解析pdf感兴趣,而不是在浏览器中呈现它。然而,这必须由客户方来完成。pdf.js是适合这份工作的锤子吗?

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2013-12-15 19:06:58

page.then(function() {应该是page.then(function(page) {

票数 2
EN

Stack Overflow用户

发布于 2014-06-25 07:43:16

PDF.js呈现您的pdf文件并生成单词,然后将它们作为html元素输出。然后,每个元素被放置在您的pdf之上,css属性{位置:绝对;左边:X,top:Y},并在您的pdf上蒙面。

这些div被赋予css属性{color:透明度}。这做了选择高亮显示的诀窍,看起来你是直接从pdf文件中选择,但实际上你选择的是创建的html元素。

这正是它的工作方式,如果您想要呈现pdf文件,请记住,如果您想要更改输出技术(html透明div),您必须带着自己的替代品.

票数 1
EN

Stack Overflow用户

发布于 2015-01-23 13:35:34

您还需要将其更改为

代码语言:javascript
复制
for (var j = 1; j <= maxPages; j++) {

否则你就永远得不到第一页了。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/20598292

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档