首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >已解决: Python多处理imap BrokenPipeError:[Errno 32]断开管道pdftoppm

已解决: Python多处理imap BrokenPipeError:[Errno 32]断开管道pdftoppm
EN

Stack Overflow用户
提问于 2019-12-06 05:07:59
回答 1查看 555关注 0票数 0

首先,我要说的是,这不是其他类似问题的重复,在其他类似问题中,人们倾向于更密切地管理工人池。

在使用multiprocessing.Pool.imap时,我一直在努力处理代码抛出的以下异常:

代码语言:javascript
复制
  File "/usr/local/bin/homebrew/Cellar/python@2/2.7.17/lib/python2.7/multiprocessing/process.py", line 267, in _bootstrap
    self.run()
  File "/usr/local/bin/homebrew/Cellar/python@2/2.7.17/lib/python2.7/multiprocessing/process.py", line 114, in run
    self._target(*self._args, **self._kwargs)
  File "/usr/local/bin/homebrew/Cellar/python@2/2.7.17/lib/python2.7/multiprocessing/pool.py", line 122, in worker
    put((job, i, (False, wrapped)))
  File "/usr/local/bin/homebrew/Cellar/python@2/2.7.17/lib/python2.7/multiprocessing/queues.py", line 390, in put
    return send(obj)
IOError: [Errno 32] Broken pipe

在执行下面的主程序时,在不同的时间点会出现这种情况:

代码语言:javascript
复制
    pool = mp.Pool(num_workers)
    # Calculate a good chunksize (based on implementation of pool.map)
    chunksize, extra = divmod(lengthData, 4 * num_workers)
    if extra:
        chunksize += 1

    func = partial(pdf_to_txt, input_folder=inputFolder, junk_folder=imageJunkFolder, out_folder=outTextFolder,
                   log_name=log_name, log_folder=None,
                   empty_log=False, input_folder_iterator=None,
                   print_console=True)

    flag_vec = pool.imap(func, (dataFrame['testo accordo'][i] for i in range(lengthData)), chunksize)
    dataFrame['flags_conversion'] = pd.Series(flag_vec)
    dataFrame.to_excel("{0}logs/{1}.xlsx".format(outTextFolder, nameOut))
    pool.close()
    pool.join()

仅供参考,partial函数接受非OCR PDF文件,将它们拆分成每页的图像,并使用pytesseract运行OCR。

我在以下机器上运行代码:

代码语言:javascript
复制
This is a physical machine (PowerEdge R930) running RedHat 7.7 (Linux 3.10.0).

Processor:  Intel(R) Xeon(R) CPU E7-8880 v3 @ 2.30GHz (x144)
Memory:     1.48 TiB
Swap:       7.81 GiB
Uptime:     21 days

也许我应该降低块的大小?这对我来说真的很不清楚。我注意到,当服务器上可用的工作者较少时,代码似乎工作得更好……

EN

回答 1

Stack Overflow用户

发布于 2019-12-09 01:29:57

在经历了许多痛苦之后,我发现问题出在pdftoppm (即使用pdf2image)。似乎pdftoppm有时会卡住而不引发任何异常。

如果有人遇到这个问题,我强烈建议改用PyMuPDF从pdf中提取图像。它更快,更稳定!

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/59203289

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档