首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏JadePeng的技术博客

    OFFICE 文档转换为html在线预览

    技术方案: office文档转换为pdf:使用libreoffice pdf转html,使用pdf2htmlex 测试环境: 操作系统:ubuntu 12.04 1. office文档转pdf 1.1 2.pdf转html pdf转html,使用国人开源的pdf2htmlex,一开始尝试通过源码编译安装,依赖组件太多,安装非常麻烦! 感兴趣的可以执行编译安装,参见(https://github.com/coolwanglu/pdf2htmlEX/wiki/Building) 下面介绍简单安装方式: 2.1 通过apt安装 sudo add-apt-repository ppa:coolwanglu/pdf2htmlex sudo apt-get update sudo apt-get install pdf2htmlex 2.2 测试pdf2htmlex pdf2htmlEX --zoom 1.3 xiaoshujiang.pdf 可以看到,当前目录生成了xiaoshujiang.html 2.3 转换脚本 写一个脚本,将两次转换放到一起

    5.9K30编辑于 2022-03-24
  • 来自专栏LIN_ZONE

    pdf转html插件~~~pdf2htmlEX安装,配置及使用

    此功能服务的代码在git上的地址为: https://github.com/coolwanglu/pdf2htmlEX/wiki  安装: 在ubuntu上安装: 输入命令 sudo apt install pdf2htmlex 即可安装完成 在mac上面安装: sudo brew install pdf2htmlex  即可 配置: 如果在将一个pdf转为多个html的话,用于项目中可能会出现在入口的那个 html文件中找不到其他的html 在命令行中输入: pdf2htmlEX -v 会出现配置文件的位置,如下图所示 ? 使用open把上面的那个路径打开,在我这里就是 open /usr/local/Cellar/pdf2htmlex/0.14.6_16/share/pdf2htmlEX  就打开了这个配置文件夹 找到manifest

    3K40发布于 2018-08-15
  • 来自专栏机器学习与统计学

    用 Python 把 PDF 玩的明明白白

    *Ital)" -c "(\(|\||\)|\+|=|\d|[\u0080-\ufaff])" unsetunset2、pdf2htmlEX:PDF 转换为 HTMLunsetunset 简介 项目地址 :https://github.com/pdf2htmlEX/pdf2htmlEX基于 pdf2htmlEX 的分支,将 PDF 转换为 HTML,其转换效果非常好,生成的网页和原始 PDF 几乎完全一致 支持链接、大纲(书签)、打印、SVG 背景、Type 3 字体 安装 安装还是蛮麻烦的,照着文档一步一步操作吧 https://github.com/pdf2htmlEX/pdf2htmlEX/releases 使用 pdf2htmlEX /path/to/foobar.pdf pdf2htmlEX --help pdf2htmlEX --zoom 1.3 pdf/test.pdf unsetunset3

    1.5K10编辑于 2024-11-22
  • 来自专栏编程教程

    Python实现PDF文档高效转换为HTML文件:从基础到进阶的完整指南

    (input_path, output_path): cmd = [ "pdf2htmlEX", input_path, output_path, "--process-outline", "0" # 不处理目录 ] subprocess.run(cmd, check=True)注意事项:需先通过brew install pdf2htmlEX (Mac)或sudo apt install pdf2htmlEX(Linux)安装转换大文件时建议增加--split-pages参数分页处理适用场景:学术文献、设计稿等对排版精度要求极高的场景。 自动化部署方案Docker容器化部署:FROM python:3.9-slimRUN apt-get update && apt-get install -y \ poppler-utils \ pdf2htmlEX 技术选型建议商业项目:优先选择Spire.PDF(支持更精细控制)开源方案:PyMuPDF(性能最佳)+ pdf2htmlEX(质量最优)组合使用云服务:考虑AWS Textract或Google Document

    44210编辑于 2025-11-21
  • 来自专栏开源服务指南

    Kong:高性能、插件化的云原生 API 网关 | 开源日报 No.62

    pdf2htmlEX/pdf2htmlEX[5] Stars: 2.3k License: NOASSERTION pdf2htmlEX 是一个将 PDF 文件渲染为 HTML 的开源项目,利用现代

    80720编辑于 2023-10-24
  • 来自专栏方才编程

    ElasticSearch系列01:如何系统学习ES

    使用 ES 对基础文档进行检索操作,如将传统的 word 文档、PDF 文档、PPT 文档等通过 Openoffice 或者 pdf2htmlEX 工具转换为 HTML,再将 HTML 以JSON 串的形式录入到

    1.2K60发布于 2020-11-12
  • 来自专栏蛰虫始航

    用Python处理PDF

    查了下相关资料,Python操作PDF的库有(只是应用的话肯定不至于造轮子从二进制数据开始读):pdfminer、pdfminer3k、PyPDF、PyPDF2、pdf2htmlex、pdf2image

    2.3K60发布于 2019-09-29
  • 来自专栏CSDN技术头条

    死磕 Elasticsearch 方法论:普通程序员高效精进的 10 大狠招!

    使用 ES 对基础文档进行检索操作,如将传统的 word 文档、PDF 文档、PPT 文档等通过 Openoffice 或者 pdf2htmlEX 工具转换为 HTML,再将 HTML 以JSON 串的形式录入到

    2.1K40发布于 2018-07-30
领券