尝试使用python2.7中的Tika-Python库(https://github.com/chrismattmann/tika-python)通过tika解析word文档(我知道它正在被贬低,但很少有其他依赖项只能在python2中工作)。但是对于少数较大的文档,我无法获得解析后的数据。我使用下面的代码片段来解析文档。
headers = {
"X-Tika-OCRLanguage": "eng",
'timeout': 300,
'pool_timeout': 300,
"X-Tika-OCRTimeout": 300
}
text_tika = parser.from_file(doc, xmlContent=False, requestOptions={'headers':headers})此代码片段抛出以下错误:
ReadTimeout(ReadTimeoutError("HTTPConnectionPool(host='localhost', port=9998): Read timed out. (read timeout=60)",),)已尝试各种请求选项以增加读取超时,但失败。有人能帮帮忙吗?
发布于 2020-03-31 19:23:37
我发现了这个问题,多亏了仓库所有者@chrismattmann,他指出timeout参数应该在header参数之外。上面的代码应该看起来像这样工作:
headers = {
"X-Tika-OCRLanguage": "eng",
"X-Tika-OCRTimeout": "300"
}
text_tika = parser.from_file(doc, xmlContent=False, requestOptions={'headers': headers, 'timeout': 300})https://stackoverflow.com/questions/60917821
复制相似问题