首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >不放松文本格式的文本提取

不放松文本格式的文本提取
EN

Stack Overflow用户
提问于 2016-07-15 16:21:23
回答 1查看 65关注 0票数 1

嗨,

我目前正在学习文本抽取软件,如pdftotextantiwordcatdoc等。&我想了解为什么没有软件来保持文本的完美。在不丢失格式的情况下解析文本是否如此困难?

谢谢。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-07-18 14:11:44

在不丢失格式的情况下解析文本是否如此困难?

是!

我想知道为什么没有软件来保持文本的完美

如果你真的开始考虑解决这个问题,你会很快理解为什么这是很难做到的。通常情况下,人们只会看到电脑屏幕上画出的一堆文字,却不明白屏幕上的内容和存储在文件中的内容之间的区别。

正如对这个问题的一些评论所表明的,每种文件格式都有其独特的挑战,我比其他文件格式更熟悉PDF格式,所以让我们简化一下。

PDF是一种页面描述语言,参见维基百科,这是一台计算机可以在屏幕上解释和绘制的东西,无论在哪里查看,它看起来都像是作者的意图。

这意味着,PDF中存储的信息是计算机能够再现视觉表示的最小信息量,仅此而已。许多PDF创建工具支持的程度也一样高,其他创建工具提供了更多有关PDF内容的信息,这样以后就可以提取内容,而不需要对PDF进行OCR。

文本可以以多种方式存储在PDF、实际文本、包含文本的图像或路径中。可能还有更多的内容,在我列出的3种文本中,只有1种是我们认为是真正的文本,除了从最终用户的角度来看,它们都是文本,因为这就是他们所看到的,他们看不到文本是如何被绘制到屏幕上的,甚至没有开始谈论不同的语言、编码和字体。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/38400881

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档