我正在寻找转换任何格式的HTML或从HTML。
我想支持DOC、DOCX、PDF、ODT、RDF、DocBook和TXT。
我发现了许多格式到格式转换实用程序,但为了实现方便,单个工具是最好的。随着供应商或开源项目对库的扩展,这也将使添加新格式变得更容易。
理想的“集线器”格式是HTML,但我也可以使用其他集线器格式。
要运行服务器端,最好是Java库,或者可选的是C/C++库、COM或命令行工具;但不是打印机驱动程序、在线服务或GUI工具。商业版和开源版都不错。
发布于 2009-01-12 12:24:53
OpenOffice.org
从这个link
OpenOffice.org的一个不太为人所知的特性是其作为服务运行的能力。你可以把这种能力用在一些聪明的地方。例如,您可以将OpenOffice.og转换为转换引擎,并使用它通过基于网络的界面或命令行工具将文档从一种格式转换为另一种格式。JODConverter可以帮助你释放OpenOffice.org的文件转换能力。
这听起来就是你要找的。这也都是用Java实现的。
这个链接告诉你关于上面提到的JODConverter的更多信息。
发布于 2009-01-12 12:24:31
我不相信这样的实用工具/转换器已经存在,因为很难合理地进行某些转换。例如,如何处理HTML-to-TXT-to-HTML转换?你会剥离什么?如何在纯文本中表示不同的HTML元素?此外,如何处理内容中的内容,如TXT中的XML转换为DOCX,然后转换为XHTML?
也就是说,如果我要为这种目的制作一个转换器,我会从Apache POI开始,它是一个用于处理Office文档的库。然后我会使用iText连接,确保Office format <-> PDF转换会像我希望的那样健壮,然后添加JDOM处理,测试Office format <-> XML和PDF <-> XML是否会像我想要的那样工作,以此类推,你就明白了。我会特别避免自己实现文件类型处理程序,因为在这一点上我很可能是在重新发明轮子。
发布于 2009-01-12 12:38:55
这是一个不平凡的问题。例如,上个月我一直在使用looking for a robust HTML+CSS to PDF conversion in PHP,尽管速度非常慢(html2pdf),但我只成功地让它可靠地工作了一次,尽管我(从那个问题中)发现了Prince,我的初步测试表明它是一种sperb产品。然而,它是昂贵的。
https://stackoverflow.com/questions/435238
复制相似问题