技术方案: office文档转换为pdf:使用libreoffice pdf转html,使用pdf2htmlex 测试环境: 操作系统:ubuntu 12.04 1. office文档转pdf 1.1 2.pdf转html pdf转html,使用国人开源的pdf2htmlex,一开始尝试通过源码编译安装,依赖组件太多,安装非常麻烦! 感兴趣的可以执行编译安装,参见(https://github.com/coolwanglu/pdf2htmlEX/wiki/Building) 下面介绍简单安装方式: 2.1 通过apt安装 sudo add-apt-repository ppa:coolwanglu/pdf2htmlex sudo apt-get update sudo apt-get install pdf2htmlex 2.2 测试pdf2htmlex pdf2htmlEX --zoom 1.3 xiaoshujiang.pdf 可以看到,当前目录生成了xiaoshujiang.html 2.3 转换脚本 写一个脚本,将两次转换放到一起
此功能服务的代码在git上的地址为: https://github.com/coolwanglu/pdf2htmlEX/wiki 安装: 在ubuntu上安装: 输入命令 sudo apt install pdf2htmlex 即可安装完成 在mac上面安装: sudo brew install pdf2htmlex 即可 配置: 如果在将一个pdf转为多个html的话,用于项目中可能会出现在入口的那个 html文件中找不到其他的html 在命令行中输入: pdf2htmlEX -v 会出现配置文件的位置,如下图所示 ? 使用open把上面的那个路径打开,在我这里就是 open /usr/local/Cellar/pdf2htmlex/0.14.6_16/share/pdf2htmlEX 就打开了这个配置文件夹 找到manifest
*Ital)" -c "(\(|\||\)|\+|=|\d|[\u0080-\ufaff])" unsetunset2、pdf2htmlEX:PDF 转换为 HTMLunsetunset 简介 项目地址 :https://github.com/pdf2htmlEX/pdf2htmlEX基于 pdf2htmlEX 的分支,将 PDF 转换为 HTML,其转换效果非常好,生成的网页和原始 PDF 几乎完全一致 支持链接、大纲(书签)、打印、SVG 背景、Type 3 字体 安装 安装还是蛮麻烦的,照着文档一步一步操作吧 https://github.com/pdf2htmlEX/pdf2htmlEX/releases 使用 pdf2htmlEX /path/to/foobar.pdf pdf2htmlEX --help pdf2htmlEX --zoom 1.3 pdf/test.pdf unsetunset3
(input_path, output_path): cmd = [ "pdf2htmlEX", input_path, output_path, "--process-outline", "0" # 不处理目录 ] subprocess.run(cmd, check=True)注意事项:需先通过brew install pdf2htmlEX (Mac)或sudo apt install pdf2htmlEX(Linux)安装转换大文件时建议增加--split-pages参数分页处理适用场景:学术文献、设计稿等对排版精度要求极高的场景。 自动化部署方案Docker容器化部署:FROM python:3.9-slimRUN apt-get update && apt-get install -y \ poppler-utils \ pdf2htmlEX 技术选型建议商业项目:优先选择Spire.PDF(支持更精细控制)开源方案:PyMuPDF(性能最佳)+ pdf2htmlEX(质量最优)组合使用云服务:考虑AWS Textract或Google Document
pdf2htmlEX/pdf2htmlEX[5] Stars: 2.3k License: NOASSERTION pdf2htmlEX 是一个将 PDF 文件渲染为 HTML 的开源项目,利用现代
使用 ES 对基础文档进行检索操作,如将传统的 word 文档、PDF 文档、PPT 文档等通过 Openoffice 或者 pdf2htmlEX 工具转换为 HTML,再将 HTML 以JSON 串的形式录入到
查了下相关资料,Python操作PDF的库有(只是应用的话肯定不至于造轮子从二进制数据开始读):pdfminer、pdfminer3k、PyPDF、PyPDF2、pdf2htmlex、pdf2image
使用 ES 对基础文档进行检索操作,如将传统的 word 文档、PDF 文档、PPT 文档等通过 Openoffice 或者 pdf2htmlEX 工具转换为 HTML,再将 HTML 以JSON 串的形式录入到