首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Tika-Python库为大型word文档抛出读取超时错误

Tika-Python库为大型word文档抛出读取超时错误
EN

Stack Overflow用户
提问于 2020-03-30 01:07:32
回答 1查看 1K关注 0票数 1

尝试使用python2.7中的Tika-Python库(https://github.com/chrismattmann/tika-python)通过tika解析word文档(我知道它正在被贬低,但很少有其他依赖项只能在python2中工作)。但是对于少数较大的文档,我无法获得解析后的数据。我使用下面的代码片段来解析文档。

代码语言:javascript
复制
headers = {
                "X-Tika-OCRLanguage": "eng",
                'timeout': 300,
                'pool_timeout':  300,
                "X-Tika-OCRTimeout": 300
            }
text_tika = parser.from_file(doc, xmlContent=False, requestOptions={'headers':headers})

此代码片段抛出以下错误:

代码语言:javascript
复制
ReadTimeout(ReadTimeoutError("HTTPConnectionPool(host='localhost', port=9998): Read timed out. (read timeout=60)",),)

已尝试各种请求选项以增加读取超时,但失败。有人能帮帮忙吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-03-31 19:23:37

我发现了这个问题,多亏了仓库所有者@chrismattmann,他指出timeout参数应该在header参数之外。上面的代码应该看起来像这样工作:

代码语言:javascript
复制
headers = {
            "X-Tika-OCRLanguage": "eng",
            "X-Tika-OCRTimeout": "300"
        }
text_tika = parser.from_file(doc, xmlContent=False, requestOptions={'headers': headers, 'timeout': 300})
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/60917821

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档