有什么方法可以用俄文(cp1251)从pdf文件中提取文本吗?
对于解析pdf文件,我使用pdfminer包。我试图在pdfminer.converter.TextConverter类的参数中指定编码,但没有帮助。
发布于 2015-08-26 14:35:30
如果您想进一步解析文本,一旦从PDF文件中提取文本,您将需要python.因此,只需先提取文本,而不转换文本,并将其保存在txt文件中。
您可以为此目的使用pdf2txt (与unbuntu:http://manpages.ubuntu.com/manpages/precise/man1/pdf2txt.1.html一起使用)
然后用python打开文件,然后将文本表单cp1251转换为utf-8,这里接受的答案将告诉您如何做:
How to convert a string from CP-1251 to UTF-8?
然后解析..。
https://stackoverflow.com/questions/32228000
复制相似问题