首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >将JODConverter转换为垃圾数据

将JODConverter转换为垃圾数据
EN

Stack Overflow用户
提问于 2014-10-30 13:21:37
回答 1查看 1.1K关注 0票数 2

嗨,我正在尝试使用use转换器3.0将pdf文件转换成html。生成的html文件包含垃圾字符,这意味着转换不是成功的。有人能帮我知道发生了什么吗。

下面是代码片段:

代码语言:javascript
复制
OfficeManager officeManager = new DefaultOfficeManagerConfiguration().buildOfficeManager();
officeManager.start();
OfficeDocumentConverter converter = new
OfficeDocumentConverter(officeManager);
converter.convert(inputFile, outputFile);
officeManager.stop();

其中inputFile = "test.pdf“和outputFile = "test.html”使用File = new (.)创建;

输出文件中的示例:

代码语言:javascript
复制
%PDF-1.4 %Çì�¢ 5 0 obj <</Length 6 0 R/Filter /FlateDecode>> stream
xœÅ][“#·q.[¢Ì,U’/’,˦sìÄÉ9        ÏxpÇDOVh;NUª,{“<ˆ~X.wIƼ./²þF¬#œ##—Æ
13gIFÒ#8#h4€Æ×#4°O7}Çø¦wÿÇÂéã_þÁlî>;zº‘\�#-ç#Ɇn#ôFIfÇZvsóñÑçG¾ùæ#¿
#ªZ³íó�ì˜Ô½†�#&–#µ½=Rê •ŸîöªS¦g#õ:åÉ•þ6WŒm7éÇŸ¥ÒÏ}        Æ¿ý»ÜàçéçÜÇÇD#3|æ5¡Jï¤G ›dÑQË?ÿ"0e¢pø©ú‡‘Anyñù#Y9H‡#&
…ÿü��½[[ôñÝDáÖ.Šƒ�‘¸•#w3¥##w[\KãwºÛÉ?sÓÀ¬ÑÃöŸÜ#A4´�Ýœ¾###ü<=#`#
À####IÍCùA(#­]Ù×#Ë÷Žþ{óh%#Q¬K#A]°þ        À¶#L*##¥4¬ƒLü}þj�##á{SCê
‡¡Ã/"d½—`(# '`d»‡�0~       
ó3.#ï�ÏnÔ˜=Ì›ƒ(#Õ…)Ú½½ãÆtli##l#…9Úþrq#RöN<ð(®
£ž¯ïöCÇ•„ÙïÓˆ®_A#cî#Ÿ=_ät0®;Äé•d¤Á¶äÌ#p=�Ûҗö#»epe_g,#´-éiP=ìÃb#ð¸òb2î
—Щ«­(#Nõ=Úº—²‚% Ã#Ui×�AËÞ#s¶qý:Ã#xø
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-10-30 14:40:48

您不能通过OpenOffice将PDF转换为HTML或其他格式。您可以转换为pdf,但不能从。你得到的内容和你在记事本中打开PDF的内容是一样的。

相反,您可以使用iText库来解析该PDF文件,并使用解析的文本创建HTML。如果您需要保留原始格式,这可能会有点棘手。

也许也试着看看这个:http://sourceforge.net/projects/pdftohtml/

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/26654144

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档