对于使用Tika进行语言检测(在python中),我有一个问题。我第一次提到,当我用解析PDF文件时,语言在大多数情况下都没有包含在“元数据部分”中。
因此,我试图显式地检测语言,在大多数情况下,I got的结果是"th",而我的文档是法语。然后,我在简单文本文件中复制了PDF文件内容,结果是奇怪的right。这是我使用的代码:
from tika import language
print(language.from_file(file))让我注意一下,我只是在没有任何额外配置的情况下使用命令pip install tika安装了tika。我所用的过程有什么问题吗?
发布于 2020-08-04 15:44:41
来自文档:https://cwiki.apache.org/confluence/display/TIKA/TikaServer
"HTTP或POST一个UTF-8文本文件到LanguageIdentifier以标识其语言。
注意:此端点不解析文件。它在UTF-8字符串上运行检测。“
您应该首先解析pdf并提取文本,然后运行语言标识符:
pdf = parser.from_file(file_path, localhost_tika)
text = pdf["content"]
detected_lang = language.from_buffer(text)https://stackoverflow.com/questions/58731730
复制相似问题