文章/答案/技术大牛

发布

社区首页 >问答首页 >不放松文本格式的文本提取

问不放松文本格式的文本提取
EN

Stack Overflow用户

提问于 2016-07-15 16:21:23

回答 1查看 65关注 0票数 1

嗨，

我目前正在学习文本抽取软件，如pdftotext、antiword、catdoc等。&我想了解为什么没有软件来保持文本的完美。在不丢失格式的情况下解析文本是否如此困难？

谢谢。

pdftotext

file

text

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-07-18 14:11:44

在不丢失格式的情况下解析文本是否如此困难？

是!

我想知道为什么没有软件来保持文本的完美

如果你真的开始考虑解决这个问题，你会很快理解为什么这是很难做到的。通常情况下，人们只会看到电脑屏幕上画出的一堆文字，却不明白屏幕上的内容和存储在文件中的内容之间的区别。

正如对这个问题的一些评论所表明的，每种文件格式都有其独特的挑战，我比其他文件格式更熟悉PDF格式，所以让我们简化一下。

PDF是一种页面描述语言，参见维基百科，这是一台计算机可以在屏幕上解释和绘制的东西，无论在哪里查看，它看起来都像是作者的意图。

这意味着，PDF中存储的信息是计算机能够再现视觉表示的最小信息量，仅此而已。许多PDF创建工具支持的程度也一样高，其他创建工具提供了更多有关PDF内容的信息，这样以后就可以提取内容，而不需要对PDF进行OCR。

文本可以以多种方式存储在PDF、实际文本、包含文本的图像或路径中。可能还有更多的内容，在我列出的3种文本中，只有1种是我们认为是真正的文本，除了从最终用户的角度来看，它们都是文本，因为这就是他们所看到的，他们看不到文本是如何被绘制到屏幕上的，甚至没有开始谈论不同的语言、编码和字体。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/38400881

复制

相似问题

问不放松文本格式的文本提取
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问不放松文本格式的文本提取EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问不放松文本格式的文本提取
EN