首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >对tika-python的语言保护无效。

对tika-python的语言保护无效。
EN

Stack Overflow用户
提问于 2019-11-06 13:52:35
回答 1查看 519关注 0票数 0

对于使用Tika进行语言检测(在python中),我有一个问题。我第一次提到,当我用解析PDF文件时,语言在大多数情况下都没有包含在“元数据部分”中。

因此,我试图显式地检测语言,在大多数情况下,I got的结果是"th",而我的文档是法语。然后,我在简单文本文件中复制了PDF文件内容,结果是奇怪的right。这是我使用的代码:

代码语言:javascript
复制
from tika import language 
print(language.from_file(file))

让我注意一下,我只是在没有任何额外配置的情况下使用命令pip install tika安装了tika。我所用的过程有什么问题吗?

EN

回答 1

Stack Overflow用户

发布于 2020-08-04 15:44:41

来自文档:https://cwiki.apache.org/confluence/display/TIKA/TikaServer

"HTTP或POST一个UTF-8文本文件到LanguageIdentifier以标识其语言。

注意:此端点不解析文件。它在UTF-8字符串上运行检测。“

您应该首先解析pdf并提取文本,然后运行语言标识符:

代码语言:javascript
复制
pdf = parser.from_file(file_path, localhost_tika)
text = pdf["content"]
detected_lang = language.from_buffer(text)
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58731730

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档