嗨,
我目前正在学习文本抽取软件,如pdftotext、antiword、catdoc等。&我想了解为什么没有软件来保持文本的完美。在不丢失格式的情况下解析文本是否如此困难?
谢谢。
发布于 2016-07-18 14:11:44
在不丢失格式的情况下解析文本是否如此困难?
是!
我想知道为什么没有软件来保持文本的完美
如果你真的开始考虑解决这个问题,你会很快理解为什么这是很难做到的。通常情况下,人们只会看到电脑屏幕上画出的一堆文字,却不明白屏幕上的内容和存储在文件中的内容之间的区别。
正如对这个问题的一些评论所表明的,每种文件格式都有其独特的挑战,我比其他文件格式更熟悉PDF格式,所以让我们简化一下。
PDF是一种页面描述语言,参见维基百科,这是一台计算机可以在屏幕上解释和绘制的东西,无论在哪里查看,它看起来都像是作者的意图。
这意味着,PDF中存储的信息是计算机能够再现视觉表示的最小信息量,仅此而已。许多PDF创建工具支持的程度也一样高,其他创建工具提供了更多有关PDF内容的信息,这样以后就可以提取内容,而不需要对PDF进行OCR。
文本可以以多种方式存储在PDF、实际文本、包含文本的图像或路径中。可能还有更多的内容,在我列出的3种文本中,只有1种是我们认为是真正的文本,除了从最终用户的角度来看,它们都是文本,因为这就是他们所看到的,他们看不到文本是如何被绘制到屏幕上的,甚至没有开始谈论不同的语言、编码和字体。
https://stackoverflow.com/questions/38400881
复制相似问题