首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >将cp1251 pdf解析为python中的文本

将cp1251 pdf解析为python中的文本
EN

Stack Overflow用户
提问于 2015-08-26 13:28:17
回答 1查看 1K关注 0票数 1

有什么方法可以用俄文(cp1251)从pdf文件中提取文本吗?

对于解析pdf文件,我使用pdfminer包。我试图在pdfminer.converter.TextConverter类的参数中指定编码,但没有帮助。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-08-26 14:35:30

如果您想进一步解析文本,一旦从PDF文件中提取文本,您将需要python.因此,只需先提取文本,而不转换文本,并将其保存在txt文件中。

您可以为此目的使用pdf2txt (与unbuntu:http://manpages.ubuntu.com/manpages/precise/man1/pdf2txt.1.html一起使用)

然后用python打开文件,然后将文本表单cp1251转换为utf-8,这里接受的答案将告诉您如何做:

How to convert a string from CP-1251 to UTF-8?

然后解析..。

票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/32228000

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档