搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏JadePeng的技术博客
OFFICE 文档转换为html在线预览
技术方案： office文档转换为pdf：使用libreoffice pdf转html，使用pdf2htmlex 测试环境：操作系统：ubuntu 12.04 1. office文档转pdf 1.1 2.pdf转html pdf转html，使用国人开源的pdf2htmlex,一开始尝试通过源码编译安装，依赖组件太多，安装非常麻烦！感兴趣的可以执行编译安装，参见(https://github.com/coolwanglu/pdf2htmlEX/wiki/Building) 下面介绍简单安装方式： 2.1 通过apt安装 sudo add-apt-repository ppa:coolwanglu/pdf2htmlex sudo apt-get update sudo apt-get install pdf2htmlex 2.2 测试pdf2htmlex pdf2htmlEX --zoom 1.3 xiaoshujiang.pdf 可以看到，当前目录生成了xiaoshujiang.html 2.3 转换脚本写一个脚本，将两次转换放到一起
5.9K30编辑于 2022-03-24
来自专栏LIN_ZONE
pdf转html插件~~~pdf2htmlEX安装,配置及使用
此功能服务的代码在git上的地址为： https://github.com/coolwanglu/pdf2htmlEX/wiki 安装：在ubuntu上安装：输入命令 sudo apt install pdf2htmlex 即可安装完成在mac上面安装： sudo brew install pdf2htmlex 即可配置：如果在将一个pdf转为多个html的话，用于项目中可能会出现在入口的那个 html文件中找不到其他的html 在命令行中输入： pdf2htmlEX -v 会出现配置文件的位置，如下图所示 ? 使用open把上面的那个路径打开，在我这里就是 open /usr/local/Cellar/pdf2htmlex/0.14.6_16/share/pdf2htmlEX 就打开了这个配置文件夹找到manifest
3K40发布于 2018-08-15
来自专栏机器学习与统计学
用 Python 把 PDF 玩的明明白白
*Ital)" -c "(\(|\||\)|\+|=|\d|[\u0080-\ufaff])" unsetunset2、pdf2htmlEX：PDF 转换为 HTMLunsetunset 简介项目地址：https://github.com/pdf2htmlEX/pdf2htmlEX基于 pdf2htmlEX 的分支，将 PDF 转换为 HTML，其转换效果非常好，生成的网页和原始 PDF 几乎完全一致支持链接、大纲（书签）、打印、SVG 背景、Type 3 字体安装安装还是蛮麻烦的，照着文档一步一步操作吧 https://github.com/pdf2htmlEX/pdf2htmlEX/releases 使用 pdf2htmlEX /path/to/foobar.pdf pdf2htmlEX --help pdf2htmlEX --zoom 1.3 pdf/test.pdf unsetunset3
1.5K10编辑于 2024-11-22
来自专栏编程教程
Python实现PDF文档高效转换为HTML文件：从基础到进阶的完整指南
(input_path, output_path): cmd = [ "pdf2htmlEX", input_path, output_path, "--process-outline", "0" # 不处理目录 ] subprocess.run(cmd, check=True)注意事项：需先通过brew install pdf2htmlEX （Mac）或sudo apt install pdf2htmlEX（Linux）安装转换大文件时建议增加--split-pages参数分页处理适用场景：学术文献、设计稿等对排版精度要求极高的场景。自动化部署方案Docker容器化部署：FROM python:3.9-slimRUN apt-get update && apt-get install -y \ poppler-utils \ pdf2htmlEX 技术选型建议商业项目：优先选择Spire.PDF（支持更精细控制）开源方案：PyMuPDF（性能最佳）+ pdf2htmlEX（质量最优）组合使用云服务：考虑AWS Textract或Google Document
44210编辑于 2025-11-21
来自专栏开源服务指南
Kong：高性能、插件化的云原生 API 网关 | 开源日报 No.62
pdf2htmlEX/pdf2htmlEX[5] Stars: 2.3k License: NOASSERTION pdf2htmlEX 是一个将 PDF 文件渲染为 HTML 的开源项目，利用现代
80720编辑于 2023-10-24
来自专栏方才编程
ElasticSearch系列01：如何系统学习ES
使用 ES 对基础文档进行检索操作，如将传统的 word 文档、PDF 文档、PPT 文档等通过 Openoffice 或者 pdf2htmlEX 工具转换为 HTML，再将 HTML 以JSON 串的形式录入到
1.2K60发布于 2020-11-12
来自专栏蛰虫始航
用Python处理PDF
查了下相关资料，Python操作PDF的库有（只是应用的话肯定不至于造轮子从二进制数据开始读）：pdfminer、pdfminer3k、PyPDF、PyPDF2、pdf2htmlex、pdf2image
2.3K60发布于 2019-09-29
来自专栏CSDN技术头条
死磕 Elasticsearch 方法论：普通程序员高效精进的 10 大狠招！
使用 ES 对基础文档进行检索操作，如将传统的 word 文档、PDF 文档、PPT 文档等通过 Openoffice 或者 pdf2htmlEX 工具转换为 HTML，再将 HTML 以JSON 串的形式录入到
2.1K40发布于 2018-07-30

OFFICE 文档转换为html在线预览

pdf转html插件~~~pdf2htmlEX安装,配置及使用

用 Python 把 PDF 玩的明明白白

Python实现PDF文档高效转换为HTML文件：从基础到进阶的完整指南

Kong：高性能、插件化的云原生 API 网关 | 开源日报 No.62

ElasticSearch系列01：如何系统学习ES

用Python处理PDF

死磕 Elasticsearch 方法论：普通程序员高效精进的 10 大狠招！

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐