我试着用JS中的pdf.js从pdf文档中获取文本。但是,pdf.js没有很好的文档,我查看了可用的示例,并得出如下结论:
var pdfUrl = "http://localhost/test.pdf"
var pdf = PDFJS.getDocument(pdfUrl);
pdf.then(function(pdf) {
var maxPages = pdf.pdfInfo.numPages;
for (var j = 1; j < maxPages; j++) {
var page = pdf.getPage(j);
page.then(function() {
var textContent = page.getTextContent();
})
}
});页面位正在工作,因为我可以看到它是一个约定。但是,运行此位将提供:
Warning: Unhandled rejection: TypeError: Object #<Object> has no method 'getTextContent'
TypeError: Object #<Object> has no method 'getTextContent'在我见过的例子中,它是这样工作的。它得到了页面,我可以打印出页数。
有经验的人谁能发光?
*额外的问题:我只对解析pdf感兴趣,而不是在浏览器中呈现它。然而,这必须由客户方来完成。pdf.js是适合这份工作的锤子吗?
发布于 2013-12-15 19:06:58
page.then(function() {应该是page.then(function(page) {
发布于 2014-06-25 07:43:16
PDF.js呈现您的pdf文件并生成单词,然后将它们作为html元素输出。然后,每个元素被放置在您的pdf之上,css属性{位置:绝对;左边:X,top:Y},并在您的pdf上蒙面。
这些div被赋予css属性{color:透明度}。这做了选择高亮显示的诀窍,看起来你是直接从pdf文件中选择,但实际上你选择的是创建的html元素。
这正是它的工作方式,如果您想要呈现pdf文件,请记住,如果您想要更改输出技术(html透明div),您必须带着自己的替代品.
发布于 2015-01-23 13:35:34
您还需要将其更改为
for (var j = 1; j <= maxPages; j++) {否则你就永远得不到第一页了。
https://stackoverflow.com/questions/20598292
复制相似问题