首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏HarmonyOS知识集合

    【HarmonyOS 5】鸿蒙应用实现发票扫描文档扫描输出PDF图片或者表格的功能

    【HarmonyOS 5】鸿蒙应用实现发票扫描文档扫描输出PDF图片或者表格的功能一、前言图(1-1)HarmonyOS 系统提供的核心场景化视觉服务,旨在帮助开发者快速实现移动端文档数字化功能。 其核心能力包括:扫描合同、票据、会议记录并保存为 PDF 分享。拍摄课堂 PPT、书籍章节生成图片存档。快速识别表格数据,减少手动录入成本。 二、鸿蒙中的文档扫描都具备什么功能?图(1-2) 文档扫描控件(DocumentScanner) 是 AI Vision Kit。文档扫描控件提供拍摄文档并转换为高清扫描件的服务。 使用手机拍摄文档,即可自动裁剪和优化,并支持jpeg图片、PDF格式保存和分享。如图(1-1)所示。支持拍摄拍照或图片识别表格,生成表格文档。如图(1-2)所示。三、鸿蒙中的文档扫描怎么用?1. Demo').fontSize(24).fontWeight(500); // 扫描入口按钮 Button('开始扫描文档', { type: ButtonType.Capsule

    92510编辑于 2025-06-07
  • 来自专栏CNN

    【Python精彩案例】随拍文档PDF扫描

    在需要扫描文件时,附近没有打印店怎么办?今天分享如何使用Python实现文档pdf扫描。 老规矩,在进入正文之前,咱们先看看最终效果: [图片转扫描pdf] 1 文档矫正 如下图所示,手持相机拍摄出来的图片一般都是不标准的矩形。 可以根据实际的文档宽高设置投影变换后的尺寸,这里设置为宽度为515, 高度为663。 将各个参数传入如上函数,得到矫正后图如下: [矫正后的图] 2 创建PDF文件并添加图片 有了矫正后的图片,接下来任务是创建PDF文件并将图片插入到PDF文件中。 文件,将PDF看成是一个画板Canvas。

    2.1K10编辑于 2022-01-20
  • 来自专栏MasiMaro 的技术博文

    PDF标准详解(一)——PDF文档结构

    6,具体的地址我们先不给出,这样PDF解析器也能解析出各个对象 之前我们给出了5个对象的定义,但是交叉引用表的条目却是6,这是因为交叉引用表的第一条一般是一个没有什么用处的,有效的对象从第二条定义开始。 下面给出 Trailer 字典的定义 trailer << /Size 6 %交叉引用表的行数 /Root 5 0 R % 参考文档目录 >> Trailer 字典以 trailer关键字开始。 0 最后我们以 %%EOF 结尾来表示整个PDF文档结束 到这里我们已经得到了一个PDF阅读器可以打开的PDF文档。 我们使用PDF阅读器可以得到如下的页面 PDF文档一般的读取过程 不知道各位小伙伴们是否能看懂上面 Hello World 文档的定义。 根据交叉引用表可以很块定位到Root 节点对象,也就是对象5 根据Root 对象中的 Pages属性可以找到Pages对象,也就是PDF页面信息对象 根据Pages对象中的Kids 数组,可以找到PDF

    2.9K11编辑于 2024-01-29
  • 来自专栏python3

    python读取pdf文档

    # -*- coding: utf-8 -*- #读取pdf文档 from pdfminer.pdfparser import PDFParser,PDFDocument from pdfminer.pdfinterp fp = open("naacl06-shinyama.pdf","rb") #创建一个与文档关联的解释器 parser=PDFParser(fp) #PDF文档对象 doc = PDFDocument () #链接解释器和文档对象 parser.set_document(doc) doc.set_parser(parser) #初始化文档 doc.initialize("") #创建pdf资源管理器 () #参数分析器 laparam = LAParams() #创建一个聚合器 device = PDFPageAggregator(resource,laparams=laparam) #创建PDF 页面解释器 interpreter=PDFPageInterpreter(device,device) #使用文档对象得到页面的集合 for page in doc.get_pages():

    1.1K10发布于 2020-01-08
  • 来自专栏前端技术江湖

    H5基于Canvas实现电子签名并生成PDF文档

    PDF文档; 对于文件内容较多的情况,需要合理选择分页位置; 生成签名 1. 生成PDF文档 html2canvas是一款将HTML代码转换成Canvas的插件,因此需要用一个div包裹住需要打印的内容区域,获得这个dom节点。 (); } } } PDF.save('test.pdf'); }); }; 选择分页位置 按照上述步骤生成了一份PDF文档,但是当 PDF页数有很多的时候,会有这样的问题⏬ ? PDF文档页数较少的情况 可以在开发测试的时候预先在将要分页的地方插入一个padding,就是提前预留分页位置 PDF文档页数较多 对于这种情况,笔者尝试遍历要打印的dom节点的子节点,将每一页所能打印的

    4.5K10发布于 2021-01-06
  • 来自专栏java后端

    pdf文档怎么拆分呢?

    今日主题:java拆分pdf文档 今天为什么讲这个呢?因为上次我朋友问我,一个pdf有多页怎么拆分呢? pdf。 准备 Free Spire.PDF for Java 开始 1、首先去https://www.e-iceblue.cn/Downloads/Free-Spire-PDF-JAVA.html这里下载jar pdf1(String pdfPath){ //加载pdf文档 PdfDocument document=new PdfDocument(); document.loadFromFile (pdfPath); //拆分为多个pdf文档 document.split("C:/Users/KING/Desktop/全部图片/splitDocument-{0}.

    1.3K40编辑于 2021-12-24
  • 来自专栏R语言交流中心

    R语言操作pdf文档

    text <-pdf_text(pdf_file) ? data <-pdf_data(pdf_file)##读取pdf中每个文本的坐标及对应的文本 ? fonts <-pdf_fonts(pdf_file)##字体 files <-pdf_attachments(pdf_file)##附件 toc <-pdf_toc(pdf_file)##获取目录中的标题 pagesize <-pdf_pagesize(pdf_file)##每个页面的大小尺寸 pdfpage= pdf_length(pdf_file)##获取文档的页数 spilt=pdf_split( ##pdf图像中文字的提取 library(tesseract) pdf_ocr_text(pdf_file)##提取pdf图像文档,并把每一页的图像单独存储 ? pdf_ocr_data(pdf_file)#获取pdf图像中各坐标的文本信息 ? 至此对pdf文档进行文本的提取过程基本完成。

    2.4K10发布于 2021-07-05
  • 来自专栏python3

    python读取pdf文档-实战

    # -*- coding: utf-8 -*- #读取pdf文档 from pdfminer.converter import PDFPageAggregator from pdfminer.layout fp = open("naacl06-shinyama.pdf","rb") #创建一个与文档关联的解释器 parser=PDFParser(fp) #PDF文档对象 doc = PDFDocument () #链接解释器和文档对象 parser.set_document(doc) doc.set_parser(parser) #初始化文档 doc.initialize("") #创建pdf资源管理器 () #参数分析器 laparam = LAParams() #创建一个聚合器 device = PDFPageAggregator(resource,laparams=laparam) #创建PDF 页面解释器 interpreter=PDFPageInterpreter(resource,device) #使用文档对象得到页面的集合 for page in doc.get_pages():

    1.2K20发布于 2020-01-06
  • 来自专栏算法channel

    Python巧妙操作PDF文档

    PDF文档的特点 PDF(Portable Document Format)是一个通用文件格式,几乎可以在所有操作系统和设备上阅读。 PDF 文件可以包含包括文本、图片、图形、表格、链接、多媒体等各种内容,具有高度的可读性和可编辑性,适用于各种文档形式的存储和传输。PDF 文件支持加密和数字签名保护机制,确保了文件的安全性。 PDF 文件可以被搜索、复制、打印,方便办公和学习使用。 Python库操作PDF PDF文件是一种常用的文件格式,用于共享和存储文档和图像。 output_pdf), 'wb') as pdf_output: pdf_writer.write(pdf_output) 解密PDF文件 当我们需要编辑或复制加密的 PDF 文件时,我们需要先对其进行解密 明显的体验是加快了PDF文档的合并,以及文本转换的速率,同时也更为便捷可控的进行拆分和加密等操作,使PDF文档操作更为灵活果断。

    74510编辑于 2024-01-23
  • 来自专栏跟Qt君学编程

    文档导出为pdf

    使用QTextDocument与QPrinter实现文档导出为PDF的小示例。 (QPrinter::PdfFormat); printer.setPaperSize(QPrinter::A4); printer.setOutputFileName("hello.pdf ; /* 可替换为文档内容 */ doc.setPageSize(printer.pageRect().size()); doc.print(&printer); }

    2.3K30发布于 2019-11-24
  • 来自专栏分享学习

    SpringBoot项目中基于PDF模板生成PDF文档

    SpringBoot项目中基于PDF模板生成PDF文档 常见的使用方法有POI,ITEXT等模块的使用,本次基于ITEXT模块来实现基于PDF模板生成PDF新文件。 引入依赖 <! ; import com.itextpdf.text.pdf.BaseFont; import com.itextpdf.text.pdf.PdfReader; import com.itextpdf.text.pdf.PdfStamper java.net.URLEncoder; import java.util.*; /** * @Author: 知识浅谈 * @Package: org.dromara.docMake.util * @Date: 2024-5- fields.setSubstitutionFonts(fontList); PdfUtil.fillData(fields,PdfUtil.turnMap(object)); //必须要调用这个,否则文档不会生成的 ",a,"测试"); } 然后就生成了一个替换之后的文档

    1.6K00编辑于 2024-05-25
  • 来自专栏全栈程序员必看

    pdf转word文档总结

    文档,这个转换原理比较简单,实现的途径相对也比较多一点~ http://www.pdfdo.com/pdf-split.aspx 该网址对pdf可以多种处理,格式转换,合并或者分割,加密等等,,, 上传需要处理的文档后,设定分割方式,或者需要进行格式转换的页面范围,就可以在线处理,之后等待片刻把处理后的文档download就可以了~ https://www.pdftoword.com/ 这个网址也可以进行 /sdk/pdf-to-word/sample_code.htm提供了面向各种语言的PDF-to-Word 的API,其中有给示例的可执行文件,操作比较方便。 有兴趣也可以看看源代码~ 可编辑的word文档的转换。这个找了很久才找到可用的。可以下载此处给出的软件,里边有注册机,可以用于破解软件。 下载地址:http://pan.baidu.com/s/1i5wi6TR。下载安装完成后,直接安装打开。

    3.7K20编辑于 2022-09-06
  • 来自专栏物流IT圈

    Java 合并、拆分PDF文档

    处理PDF文档时,我们可以通过合并的方式,来任意组几个不同的PDF文件或者通过拆分将一个文件分解成多个子文件,这样的好处是对文档的存储、管理很方便。 下面将通过Java程序代码介绍具体的PDF合并、拆分的方法。 工具 Free Spire.PDF for Java 2.0.0 (免费版) 注:2.0.0版本的比之前的1.1.0版本在功能上做了很大提升,支持所有收费版的功能,对于通过Java编程来处理PDF文档非常实用 下载安装包后,解压,将解压后的文件夹下的子文件夹lib中的Spire.Pdf.jar和Spire.Common.jar两个文件复制到新建的文件夹下,如下图: ? 【示例1】合并PDF文档 ? 合并前: ? 合并后: ? 【示例2】拆分PDF文档 这里分2种情况来进行。 测试文档: ? 1. 按每一页单独拆分 ? 拆分结果: ? 2.

    2.2K40发布于 2019-07-16
  • 来自专栏一番码客

    python实现pdf文档合并

    目录: 使用PyPDF2库 获取要合并的pdf文件的文件列表 使用PyPDF2合并pdf文档 一番今日 之前一番在免费知识星球给大家开发过一个在windows下使用的简单的pdf合并工具。 今天一番来解读下这个小工具怎么用python实现pdf文档合并的,而且合并完后还自带目录。 ? 使用PyPDF2库 python里最大的好处就是封装了各种强大的轮子。 同样,操作pdf也有强大的库,就是PyPDF2库。这里我们就是用的PyPDF2来实现读取pdf,然后合并pdf的。 使用PyPDF2合并pdf文档 def MergePDF(filepath, fileNameList, outfile): mergedDir = filepath + '/merged/' outfile, "wb") output.write(outputStream) outputStream.close() print("finished") 这里先建一个存放合并后文档的目录

    1.5K20发布于 2019-10-08
  • 来自专栏信数据得永生

    django 1.8 官方文档翻译: 3-5-2 使用Django输出PDF

    使用Django输出PDF 这篇文档阐述了如何通过使用Django视图动态输出PDF。这可以通过一个出色的、开源的Python PDF库ReportLab来实现。 这会告诉浏览器,文档是个PDF文件而不是HTML文件。 如果你把它去掉,浏览器可能会把输出解释为HTML,会在浏览器窗口中显示一篇丑陋的、可怕的官样文章。 这样就强制让浏览器弹出对话框来提示或者确认,如果机器上设置了默认值要如何处理文档。如果你去掉了'attachment;',无论什么程序或控件被设置为用于处理PDF,浏览器都会使用它。 复杂的PDF 如果你使用ReportLab创建复杂的PDF文档,考虑使用io库作为你PDF文件的临时保存地点。这个库提供了一个类似于文件的对象接口,非常实用。 译者:Django 文档协作翻译小组,原文:Generating PDF。 本文以 CC BY-NC-SA 3.0 协议发布,转载请保留作者署名和文章出处。

    1.6K40编辑于 2022-11-27
  • 来自专栏生信修炼手册

    使用python将word文档转换为PDF文档

    其功能涵盖了windows平台的方方面面,对于处理word文档这样的任务,自然是远远胜任的。 对于win32模块,将word文档另存为pdf的代码如下 >>> import win32com >>> from win32com.client import Dispatch >>> word = 为了更加方便的完成word转换pdf的任务,还有一个简历在pywin32基础上的模块-docx2pdf, 该模块支持windows和macOS两个平台,可以方便的批量完成word文档pdf的任务,基本用法如下 该模块提供了一个转换脚本,这样通过命令行就可以批量处理了,基本用法如下 # 转换单个文件 docx2pdf myfile.docx # 将一个目录下的word文档都转换成pdf文件 docx2pdf myfolder / 通过上述方法,可以轻松完成word文档的转换任务,虽然效率上没有那么高,但是胜在免费,而且操作也比较简便。

    8.6K50发布于 2020-12-11
  • 来自专栏Python爬虫与数据分析

    爬虫爬取英文文档存为PDF,在读取PDF自动翻译文档

    第二阶段就是打开这个pdf,读取该文档,将其发送到百度翻译的框框,获取翻译的结果,重新保存 -----------读取文档-------- def read_pdf_to_text(self (url)#网址 # 创建与文档关联的解释器 parser = PDFParser(fp) # 创建一个pdf文档对象 doc = PDFDocument() # 翻译模块(复制到微信里,格式有点问题,大家自己修正) def baidu_fanyi(self, content): time.sleep(5) # 找到输入框的位置,并将内容发送到该位置 self.browser.find_element_by_id('baidu_translate_input').send_keys(content) time.sleep(5) 将输入框清空,等待下一次输入 self.browser.find_element_by_id('baidu_translate_input').clear() time.sleep(5)

    1.7K20发布于 2019-07-30
  • 来自专栏小特工作室

    基于iTextSharp的PDF文档操作

    文件流的形式返回,就是我们可以保存成Pdf文件,这样就容易处理的多,我们自己的拣货面单,如果也可以保存至Pdf文件,这样就可以将这2个Pdf文件一块打印出来,这算是一个折中的解决方案。    首先,要将拣货数据(含图片)保存至Pdf文档。 , iTextSharp.text.Font font) { pdfText.pdf.PdfPTable pdtTable = new pdfText.pdf.PdfPTable(5); pdfText.Rectangle(0f, 0f, 1000f, 1000f); pdfText.Document document = new pdfText.Document(rect, 5f , 5f, 5f, 5f); //创建字体 iTextSharp.text.Font font = PdfUtil.CreatePdfFont(34F); pdfText.pdf.PdfWriter

    2.4K100发布于 2018-02-01
  • 来自专栏johnhuster

    spring-boot pdf文档下载

    进入spring网站很容易找到spring-boot的在线文档,但是在线文档终有使用不方便的地方,他们也提供pdf文档下载,只是不容易找到: http://docs.spring.io/spring-boot

    1.2K20编辑于 2022-03-28
  • 来自专栏全栈程序员必看

    #Photoshop#_pdf文档解析失败

    Adobe Photoshop档案格式规格:https://www.adobe.com/devnet-apps/photoshop/fileformatashtml/#50577409_89817

    71220编辑于 2022-08-18
领券