问Tika-Python库为大型word文档抛出读取超时错误
EN

Stack Overflow用户

提问于 2020-03-30 01:07:32

回答 1查看 1K关注 0票数 1

尝试使用python2.7中的Tika-Python库(https://github.com/chrismattmann/tika-python)通过tika解析word文档(我知道它正在被贬低，但很少有其他依赖项只能在python2中工作)。但是对于少数较大的文档，我无法获得解析后的数据。我使用下面的代码片段来解析文档。

headers = {
                "X-Tika-OCRLanguage": "eng",
                'timeout': 300,
                'pool_timeout':  300,
                "X-Tika-OCRTimeout": 300
            }
text_tika = parser.from_file(doc, xmlContent=False, requestOptions={'headers':headers})

此代码片段抛出以下错误：

ReadTimeout(ReadTimeoutError("HTTPConnectionPool(host='localhost', port=9998): Read timed out. (read timeout=60)",),)

已尝试各种请求选项以增加读取超时，但失败。有人能帮帮忙吗？

python

apache-tika

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-03-31 19:23:37

我发现了这个问题，多亏了仓库所有者@chrismattmann，他指出timeout参数应该在header参数之外。上面的代码应该看起来像这样工作：

headers = {
            "X-Tika-OCRLanguage": "eng",
            "X-Tika-OCRTimeout": "300"
        }
text_tika = parser.from_file(doc, xmlContent=False, requestOptions={'headers': headers, 'timeout': 300})

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/60917821

复制

相似问题

问Tika-Python库为大型word文档抛出读取超时错误
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Tika-Python库为大型word文档抛出读取超时错误EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Tika-Python库为大型word文档抛出读取超时错误
EN