搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏CNN
【Python精彩案例】随拍文档转PDF扫描版
在需要扫描文件时，附近没有打印店怎么办？今天分享如何使用Python实现文档转pdf扫描。老规矩，在进入正文之前，咱们先看看最终效果： [图片转扫描pdf] 1 文档矫正如下图所示，手持相机拍摄出来的图片一般都是不标准的矩形。可以根据实际的文档宽高设置投影变换后的尺寸，这里设置为宽度为515, 高度为663。 =cv2.INTER_CUBIC) cv2.imwrite(dst, img) src, dst, src_pts, dw, dh分别表示输入图路径、矫正后图路径、原始四个点，目标宽高。将各个参数传入如上函数，得到矫正后图如下： [矫正后的图] 2 创建PDF文件并添加图片有了矫正后的图片，接下来任务是创建PDF文件并将图片插入到PDF文件中。
2.1K10编辑于 2022-01-20
来自专栏HarmonyOS知识集合
【HarmonyOS 5】鸿蒙应用实现发票扫描、文档扫描输出PDF图片或者表格的功能
【HarmonyOS 5】鸿蒙应用实现发票扫描、文档扫描输出PDF图片或者表格的功能一、前言图（1-1）HarmonyOS 系统提供的核心场景化视觉服务，旨在帮助开发者快速实现移动端文档数字化功能。其核心能力包括：扫描合同、票据、会议记录并保存为 PDF 分享。拍摄课堂 PPT、书籍章节生成图片存档。快速识别表格数据，减少手动录入成本。二、鸿蒙中的文档扫描都具备什么功能？图（1-2）文档扫描控件（DocumentScanner）是 AI Vision Kit。文档扫描控件提供拍摄文档并转换为高清扫描件的服务。使用手机拍摄文档，即可自动裁剪和优化，并支持jpeg图片、PDF格式保存和分享。如图（1-1）所示。支持拍摄拍照或图片识别表格，生成表格文档。如图（1-2）所示。三、鸿蒙中的文档扫描怎么用？1. Demo').fontSize(24).fontWeight(500); // 扫描入口按钮 Button('开始扫描文档', { type: ButtonType.Capsule
92510编辑于 2025-06-07
来自专栏MasiMaro 的技术博文
PDF标准详解（一）——PDF文档结构
，它是整个文档的根节点对象 Pages对象，它包含了PDF文档的页面信息，一般通过它来定义整个PDF文档有多少页 Page 页面对象，它用来描述每个具体的页 Page Content 对象，它来描述每个具体页中都有哪些对象这个对象中定义了他的类型是 Pages表示它是一个pages对象，/Count表示整个PDF文档只有一页，Kids是一个数组，表示每一页的页面对象，这里它只有一个页面对象，就是对象2 接着我们定义页面对象 0 最后我们以 %%EOF 结尾来表示整个PDF文档结束到这里我们已经得到了一个PDF阅读器可以打开的PDF文档。我们使用PDF阅读器可以得到如下的页面 PDF文档一般的读取过程不知道各位小伙伴们是否能看懂上面 Hello World 文档的定义。 /Kids [2 0 R] /Count 1 /Type /Pages >> endobj 2 0 obj << /Resources 3 0 R /MediaBox [0 0 612 792] /
2.8K11编辑于 2024-01-29
来自专栏python3
python读取pdf文档
# -*- coding: utf-8 -*- #读取pdf文档 from pdfminer.pdfparser import PDFParser,PDFDocument from pdfminer.pdfinterp fp = open("naacl06-shinyama.pdf","rb") #创建一个与文档关联的解释器 parser=PDFParser(fp) #PDF文档对象 doc = PDFDocument () #链接解释器和文档对象 parser.set_document(doc) doc.set_parser(parser) #初始化文档 doc.initialize("") #创建pdf资源管理器 () #参数分析器 laparam = LAParams() #创建一个聚合器 device = PDFPageAggregator(resource,laparams=laparam) #创建PDF 页面解释器 interpreter=PDFPageInterpreter(device,device) #使用文档对象得到页面的集合 for page in doc.get_pages():
1.1K10发布于 2020-01-08
来自专栏翩翩白衣少年
PDF2Audio：PDF一键转播客！让文档开口说话！
项目介绍 PDF2Audio 是一款出色的开源工具，旨在将 PDF 文档转换为音频内容，适合制作播客、讲座、讨论和摘要等。工作原理 ① PDF 转文本 PDF2Audio 的第一步是将 PDF 文档转换为可处理的文本。这一过程确保了后续步骤能够基于真实内容进行处理。具体步骤包括： • 提取中心思想：确定 PDF 文档的核心内容，找出可以进行深入讨论的主题。 • 头脑风暴：围绕提取的主题列出可能的讨论要点，构建一个清晰的提纲。安装与使用本地/云服务部署 ① 克隆PDF2Audio仓库 git clone https://github.com/lamm-mit/PDF2Audio.git cd PDF2Audio ② 安装Python3.9 结语 PDF2Audio 为用户提供了一个强大且灵活的工具，能够轻松将 PDF 文档转化为引人入胜的音频内容。
1.4K10编辑于 2024-09-25
来自专栏R语言交流中心
R语言操作pdf文档
text <-pdf_text(pdf_file) ? data <-pdf_data(pdf_file)##读取pdf中每个文本的坐标及对应的文本 ? fonts <-pdf_fonts(pdf_file)##字体 files <-pdf_attachments(pdf_file)##附件 toc <-pdf_toc(pdf_file)##获取目录中的标题 pagesize <-pdf_pagesize(pdf_file)##每个页面的大小尺寸 pdfpage= pdf_length(pdf_file)##获取文档的页数 spilt=pdf_split( ##pdf图像中文字的提取 library(tesseract) pdf_ocr_text(pdf_file)##提取pdf图像文档，并把每一页的图像单独存储 ? pdf_ocr_data(pdf_file)#获取pdf图像中各坐标的文本信息 ? 至此对pdf文档进行文本的提取过程基本完成。
2.4K10发布于 2021-07-05
来自专栏java后端
pdf文档怎么拆分呢？
今日主题:java拆分pdf文档今天为什么讲这个呢？因为上次我朋友问我，一个pdf有多页怎么拆分呢？ pdf。包 2、将lib目录的jar包安装到本地仓库中 mvn install:install-file -DgroupId=e-iceblue -DartifactId=spire.pdf.free -Dversion pdf1(String pdfPath){ //加载pdf文档 PdfDocument document=new PdfDocument(); document.loadFromFile (pdfPath); //拆分为多个pdf文档 document.split("C:/Users/KING/Desktop/全部图片/splitDocument-{0}.
1.3K40编辑于 2021-12-24
来自专栏python3
python读取pdf文档-实战
# -*- coding: utf-8 -*- #读取pdf文档 from pdfminer.converter import PDFPageAggregator from pdfminer.layout fp = open("naacl06-shinyama.pdf","rb") #创建一个与文档关联的解释器 parser=PDFParser(fp) #PDF文档对象 doc = PDFDocument () #链接解释器和文档对象 parser.set_document(doc) doc.set_parser(parser) #初始化文档 doc.initialize("") #创建pdf资源管理器 () #参数分析器 laparam = LAParams() #创建一个聚合器 device = PDFPageAggregator(resource,laparams=laparam) #创建PDF 页面解释器 interpreter=PDFPageInterpreter(resource,device) #使用文档对象得到页面的集合 for page in doc.get_pages():
1.2K20发布于 2020-01-06
来自专栏算法channel
Python巧妙操作PDF文档
PDF文档的特点 PDF（Portable Document Format）是一个通用文件格式，几乎可以在所有操作系统和设备上阅读。 PDF 文件可以包含包括文本、图片、图形、表格、链接、多媒体等各种内容，具有高度的可读性和可编辑性，适用于各种文档形式的存储和传输。PDF 文件支持加密和数字签名保护机制，确保了文件的安全性。 PDF 文件可以被搜索、复制、打印，方便办公和学习使用。 Python库操作PDF PDF文件是一种常用的文件格式，用于共享和存储文档和图像。首先我们需要安装 PyPDF2 库，可以使用以下命令： pip install PyPDF2 这样我们就完成了Python操作PDF的准备工作合并PDF文件许多情况下，我们需要将多个 PDF 文件合并成一个文件明显的体验是加快了PDF文档的合并，以及文本转换的速率，同时也更为便捷可控的进行拆分和加密等操作，使PDF文档操作更为灵活果断。
74510编辑于 2024-01-23
来自专栏跟Qt君学编程
将文档导出为pdf
使用QTextDocument与QPrinter实现文档导出为PDF的小示例。 (QPrinter::PdfFormat); printer.setPaperSize(QPrinter::A4); printer.setOutputFileName("hello.pdf ; /* 可替换为文档内容 */ doc.setPageSize(printer.pageRect().size()); doc.print(&printer); }
2.3K30发布于 2019-11-24
来自专栏分享学习
SpringBoot项目中基于PDF模板生成PDF文档
SpringBoot项目中基于PDF模板生成PDF文档常见的使用方法有POI，ITEXT等模块的使用，本次基于ITEXT模块来实现基于PDF模板生成PDF新文件。引入依赖 <! ; import com.itextpdf.text.pdf.BaseFont; import com.itextpdf.text.pdf.PdfReader; import com.itextpdf.text.pdf.PdfStamper BeanUtil.beanToMap(object); //把对象转为Map Map<String,String> map = new HashMap<>(stringObjectMap.size()*2) fields.setSubstitutionFonts(fontList); PdfUtil.fillData(fields,PdfUtil.turnMap(object)); //必须要调用这个，否则文档不会生成的 ",a,"测试"); } 然后就生成了一个替换之后的文档。
1.6K00编辑于 2024-05-25
来自专栏全栈程序员必看
pdf转word文档总结
文档，这个转换原理比较简单，实现的途径相对也比较多一点～ http://www.pdfdo.com/pdf-split.aspx 该网址对pdf可以多种处理，格式转换，合并或者分割，加密等等，，，上传需要处理的文档后，设定分割方式，或者需要进行格式转换的页面范围，就可以在线处理，之后等待片刻把处理后的文档download就可以了~ https://www.pdftoword.com/ 这个网址也可以进行如图1 ，点击购买注册，会弹出如图2 的对话框，会看到需要填写注册码，这时候注册机就可以用上了~ 打开注册机，如图3，它可以根据机器码计算出注册码。先从图2窗口复制机器码到图3所示窗口，点击计算注册码，复制注册码，然后拷贝到图2所示的注册码位置，点击激活就OK啦~ 现在就可以点击读取，打开你想要转换的PDF，点击识别，识别完毕后点击word就自动可以保存到一个 word文档中，大功告成~ 图 1 图 2 发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn
3.7K20编辑于 2022-09-06
来自专栏物流IT圈
Java 合并、拆分PDF文档
处理PDF文档时，我们可以通过合并的方式，来任意组几个不同的PDF文件或者通过拆分将一个文件分解成多个子文件，这样的好处是对文档的存储、管理很方便。下面将通过Java程序代码介绍具体的PDF合并、拆分的方法。工具 Free Spire.PDF for Java 2.0.0 （免费版）注：2.0.0版本的比之前的1.1.0版本在功能上做了很大提升，支持所有收费版的功能，对于通过Java编程来处理PDF文档非常实用步骤2：建好文件夹后，引用两个文件：选中这两个jar文件，点击鼠标右键，选择“Build Path” – “Add to Build Path”。 ? 【示例1】合并PDF文档 ? 【示例2】拆分PDF文档这里分2种情况来进行。测试文档： ? 1. 按每一页单独拆分 ? 拆分结果： ? 2. 按指定页数范围拆分 ? 拆分结果： ?
2.2K40发布于 2019-07-16
来自专栏一番码客
python实现pdf文档合并
目录：使用PyPDF2库获取要合并的pdf文件的文件列表使用PyPDF2合并pdf文档一番今日之前一番在免费知识星球给大家开发过一个在windows下使用的简单的pdf合并工具。其实用python去实现真的很简单，用了tkinter + PyPDF2 + pyinstaller。今天一番来解读下这个小工具怎么用python实现pdf文档合并的，而且合并完后还自带目录。 ? 使用PyPDF2库 python里最大的好处就是封装了各种强大的轮子。同样，操作pdf也有强大的库，就是PyPDF2库。这里我们就是用的PyPDF2来实现读取pdf，然后合并pdf的。使用PyPDF2合并pdf文档 def MergePDF(filepath, fileNameList, outfile): mergedDir = filepath + '/merged/' 用PyPDF2库里的PdfFileWriter函数创建一个文件写入流。用PyPDF2库里的PdfFileReader函数逐一读取pdf文件，并添加到上一步创建的文件写入流，并添加书签。
1.5K20发布于 2019-10-08
来自专栏生信修炼手册
使用python将word文档转换为PDF文档
对于win32模块，将word文档另存为pdf的代码如下 >>> import win32com >>> from win32com.client import Dispatch >>> word = 为了更加方便的完成word转换pdf的任务，还有一个简历在pywin32基础上的模块-docx2pdf, 该模块支持windows和macOS两个平台，可以方便的批量完成word文档转pdf的任务，基本用法如下 >>> from docx2pdf import convert >>> convert("C:/Users/Test/Desktop/out.docx", "C:/Users/Test/Desktop 当有批量的word需要转换时，用docx2pdf模块，更加的方便。该模块提供了一个转换脚本，这样通过命令行就可以批量处理了，基本用法如下 # 转换单个文件 docx2pdf myfile.docx # 将一个目录下的word文档都转换成pdf文件 docx2pdf myfolder
8.6K50发布于 2020-12-11
来自专栏Python爬虫与数据分析
爬虫爬取英文文档存为PDF，在读取PDF自动翻译文档
这个简单，直接可以使用requests或者urllib抓取，然后转换成pdf。我的是在框架里面，有点麻烦，如果你觉得麻烦可以直接请求。我是直接将一个div里面的这个内容全部拿下来，然后拼接一个新的html,将这个新的HTML转换成PDF。第二阶段就是打开这个pdf,读取该文档，将其发送到百度翻译的框框，获取翻译的结果，重新保存 -----------读取文档-------- def read_pdf_to_text(self (url)#网址 # 创建与文档关联的解释器 parser = PDFParser(fp) # 创建一个pdf文档对象 doc = PDFDocument() # 连接解释器和文档对象 parser.set_document(doc) doc.set_parser(parser) # 对文档进行初始化 doc.initialize
1.7K20发布于 2019-07-30
来自专栏小特工作室
基于iTextSharp的PDF文档操作
，DHL公司将物流面单以pdf文件流的形式返回，就是我们可以保存成Pdf文件，这样就容易处理的多，我们自己的拣货面单，如果也可以保存至Pdf文件，这样就可以将这2个Pdf文件一块打印出来，这算是一个折中的解决方案首先，要将拣货数据（含图片）保存至Pdf文档。技术点如下　　　　1，将DataTable导出至Pdf 　　　　2， DataTable中包含图片，也要能导出　　　　3， Pdf类库，字体的引入（居然需要引用字体的绝对路径，想不通）　　下面分别讲解 pdtTable.WidthPercentage = 95; //占宽度百分比:95%（这句很关键，作用是撑满整个面单） int[] colWidth = { 2, 4, 2, 2, 前2联是DHL返回的Pdf文件，第3联是我本地生成的Pdf文件，合并成一个完整的发货面单 ?
2.4K100发布于 2018-02-01
来自专栏johnhuster
spring-boot pdf文档下载
进入spring网站很容易找到spring-boot的在线文档，但是在线文档终有使用不方便的地方，他们也提供pdf文档下载，只是不容易找到： http://docs.spring.io/spring-boot
1.2K20编辑于 2022-03-28
来自专栏全栈程序员必看
#Photoshop#_pdf文档解析失败
Adobe Photoshop档案格式规格：https://www.adobe.com/devnet-apps/photoshop/fileformatashtml/#50577409_89817
71220编辑于 2022-08-18
来自专栏蜉蝣禅修之道
获取pdf文档属性的方法
当我们想在打开pdf文件之前对pdf状态进行判断时，我们可以在pdf文档属性里添加自己需要的信息，例如把pdf的有效时间和开始时间以json格式保存在作者信息里，这样就方便得多了。因此我们需要这样的第三方的类库，对pdf文档信息进行读写，在这里我推荐pdfbox和pdfclown，这两个都是java处理pdf的类库，而且开源。
2.6K40发布于 2018-05-23

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

【Python精彩案例】随拍文档转PDF扫描版

【HarmonyOS 5】鸿蒙应用实现发票扫描、文档扫描输出PDF图片或者表格的功能

PDF标准详解（一）——PDF文档结构

python读取pdf文档

PDF2Audio：PDF一键转播客！让文档开口说话！

R语言操作pdf文档

pdf文档怎么拆分呢？

python读取pdf文档-实战

Python巧妙操作PDF文档

将文档导出为pdf

SpringBoot项目中基于PDF模板生成PDF文档

pdf转word文档总结

Java 合并、拆分PDF文档

python实现pdf文档合并

使用python将word文档转换为PDF文档

爬虫爬取英文文档存为PDF，在读取PDF自动翻译文档

基于iTextSharp的PDF文档操作

spring-boot pdf文档下载

#Photoshop#_pdf文档解析失败

获取pdf文档属性的方法

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐