文章/答案/技术大牛

发布

社区首页 >问答首页 >将cp1251 pdf解析为python中的文本

问将cp1251 pdf解析为python中的文本
EN

Stack Overflow用户

提问于 2015-08-26 13:28:17

回答 1查看 1K关注 0票数 1

有什么方法可以用俄文(cp1251)从pdf文件中提取文本吗？

对于解析pdf文件，我使用pdfminer包。我试图在pdfminer.converter.TextConverter类的参数中指定编码，但没有帮助。

python

parsing

pdf

cp1251

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-08-26 14:35:30

如果您想进一步解析文本，一旦从PDF文件中提取文本，您将需要python.因此，只需先提取文本，而不转换文本，并将其保存在txt文件中。

您可以为此目的使用pdf2txt (与unbuntu：http://manpages.ubuntu.com/manpages/precise/man1/pdf2txt.1.html一起使用)

然后用python打开文件，然后将文本表单cp1251转换为utf-8，这里接受的答案将告诉您如何做：

How to convert a string from CP-1251 to UTF-8?

然后解析..。

票数 -1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/32228000

复制

相似问题

问将cp1251 pdf解析为python中的文本
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将cp1251 pdf解析为python中的文本EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将cp1251 pdf解析为python中的文本
EN