问对tika-python的语言保护无效。
EN

Stack Overflow用户

提问于 2019-11-06 13:52:35

回答 1查看 519关注 0票数 0

对于使用Tika进行语言检测(在python中)，我有一个问题。我第一次提到，当我用解析PDF文件时，语言在大多数情况下都没有包含在“元数据部分”中。

因此，我试图显式地检测语言，在大多数情况下，I got的结果是"th"，而我的文档是法语。然后，我在简单文本文件中复制了PDF文件内容，结果是奇怪的right。这是我使用的代码：

from tika import language 
print(language.from_file(file))

让我注意一下，我只是在没有任何额外配置的情况下使用命令pip install tika安装了tika。我所用的过程有什么问题吗？

发布于 2020-08-04 15:44:41

"HTTP或POST一个UTF-8文本文件到LanguageIdentifier以标识其语言。

注意:此端点不解析文件。它在UTF-8字符串上运行检测。“

您应该首先解析pdf并提取文本，然后运行语言标识符：

pdf = parser.from_file(file_path, localhost_tika)
text = pdf["content"]
detected_lang = language.from_buffer(text)

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/58731730

复制

相似问题

问对tika-python的语言保护无效。EN