首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏林德熙的博客

    Office 文档解析 文档格式和协议

    本文讨论的 Office 文档指的是 Office 2007 及以后的 PPTX 和 xlsx 等格式的文件。在 Office 2007 之前使用的不公开标准的二进制格式定义。 在 Office 2007 之后的文档格式使用 OOXML 国际标准定义,本文将告诉大家这个标准的协议和格式 在 Office 2007 之后的 Office 文档格式采用的是 OOXML 标准格式。 这是放在zip压缩包的根目录下的 [Content_Types].xml 文件,这是基本上每个 NuGet 包都会带的内容(不认识NuGet的小伙伴请点击右上角关闭按钮,因为你不要妄想玩转Office解析了 表示的是各个标记语言,如 PML(Presentation Markup Language PPT 中各种数据的描述)等,这部分定义可以在 ECMA-376,Fifth Edition,Part 1 找到 解析 Conventions Open XML SDK ECMA-376 ISO/IEC 29500 更多请看 Office 使用 OpenXML SDK 解析文档博客目录 ---- 本文会经常更新

    3.6K10发布于 2020-07-28
  • 来自专栏VBA 学习

    VBA解析复合文档02——复合文档结构

    尽量用一些通俗的语言来讲一下复合文档的结构,如果要真正掌握每一个细节,还是要看官方的文档,所以这里讲的可能不会完全正确,只是大概了解一下复合文档的结构逻辑。 复合文档结构 一个文件在被创建的时候,文档的结构也同时生成,这里不讲生成的过程如何去创建这个结构,只拿生成后的文件来讲。 假如一个10KB文件,每个扇区大小是512Byte,举例如下: ? 01 扇区 复合文档把保存文件的磁盘空间划分了扇区(Sector),在扇区里存放数据信息。文件的开头一个扇区固定是Header结构,这个结构的信息非常重要,是解析整个文件的基础。 03 MiniFAT MiniFAT其实完全可以理解为它是一个单独的复合文档结构,只是没有目录结构。 只要理解了Header结构、目录结构、DIFAT数组、FAT数组、MiniFAT数组,解析复合文档就没什么难度了。 通过这些信息,构建出来扇区链表,就可以到分布的扇区中,读取或者改写数据。

    1.4K10发布于 2020-08-03
  • 来自专栏XLJ的技术专栏

    解析 Json 文档 PHP

    简述 解析 Json 文件 代码 使用函数 json_decode() , file_get_contents() 首先 json_decode() 这个函数需要传递至少一个参数 需要用 file_get_contents

    2.4K20编辑于 2022-03-30
  • 【合合TextIn】智能文档处理系列—电子文档解析技术全格式解析

    电子文档解析技术的核心目的是从各种格式的电子文档中提取结构化数据和有意义的信息。这一过程涉及到理解文档的格式、内容、结构和语义,是连接文档内容与应用程序、数据库和其他信息系统的桥梁。 通过有效的文档解析,可以将原本静态、封闭的文档数据转换为可搜索、可分析、可再利用的信息资源,极大地拓展了电子文档的应用范围和价值。 3.2 解析关键点3.2.1 文档结构理解PDF文件的复杂性在于其内容和结构的密切结合。正确解析PDF文件首先需要理解其内部的对象结构和页面组织方式,这是获取文档内容的前提。 解析器必须能够解读这些指令的含义,并据此处理文本样式和文档格式。 8.2.3 字体和颜色表处理RTF文档中可能包含字体表和颜色表,用于定义文档中使用的字体和颜色。解析器需正确解析这些表格,并将对应的字体和颜色应用于文本。

    4.4K12编辑于 2024-04-15
  • 来自专栏VBA 学习

    VBA解析复合文档00

    1、什么是复合文档? 可能这个名字没有听说过,但是只要使用过Windows电脑的,其实都接触过这种结构的文件,只是没有注意到而已。 2007版本以上的Office文件,如果设置了打开密码,仍然是使用复合文档结构来存储的。 2、解析复合文档有什么用 01 深入了解Excel的文件结构 解析复合文档,能够更加深入理解Excel的文件结构,虽然2007版本以上的Excel已经 换成了xml标记语言存储,但是VBA代码相关的vbaProject.bin 文件还是使用了复合文档结构。 但是如果想要直接获取VBA代码,就只能通过解析文件结构获取,通过解析复合文档解析出模块的数据流,再进一步进行解析就可以。

    1.6K10发布于 2020-08-04
  • 来自专栏java后端

    java解析word文档内容

    今日主题:java解析word文档内容 1依赖 <dependency> <groupId>org.apache.poi</groupId> WordAction { @Autowired private WordContextReadService wordContextReadService; /** * word文档上传解析

    2.8K30发布于 2021-07-20
  • 来自专栏VBA 学习

    VBA解析复合文档03——解析扇区链表

    通过前面对复合文档结构的分析,解析起来问题就不大了。 01 解析Header结构 Header结构一定是在文件的最开始处,所以直接一个一个字段的读取就行了: Private Type CFHeader Signature(7) As Byte '文档标识id CLSID(15) As Byte '文件唯一标识 MinorVersion As Integer '文件格式修订号 FAT数组 通过DIFAT来解析FAT数组,FAT数组是构建扇区链表的重要数据信息: '读取扇区配置表(Used to locate FAT sectors in the compound file) ,就可以去解析目录信息和MiniSAT了,因为目录信息和MiniSAT的数据是很有可能需要多个扇区储存的,必然需要扇区链接的信息,所以FAT数组必须要先进行解析

    1K30发布于 2020-08-05
  • 来自专栏VBA 学习

    VBA解析复合文档04——解析目录信息

    有了FAT数组的信息,就可以继续解析目录信息和MiniFAT。 01 解析目录 目录信息存放的才是复合文档中的真正数据的一些信息,也只有通过目录信息才能正确读取到数据流: Private Type CFDir EntryName(63) As Byte '这个不是结构体的字段 StrDirName As String '在文件中的偏移位置 lOffset As Long End Type '解析目录 Private Function 02 解析MiniFAT MiniFAT是不一定会存在的,这个主要是看目录信息中的文件StreamSize有没有小于Header结构中的MiniStreamSize,有的情况下才会出现MiniFAT。 cf.MiniFAT) Then Exit For Next l_SID = cf.FAT(l_SID) Next End Function 到此复合文档的结构就解析完成了

    74910发布于 2020-08-10
  • 来自专栏全栈程序员必看

    c语言解析xml文档

    DOM= Document Object Model,文档对象模型,DOM可以以一种独立于平台和语言的方式访问和修改一个文档的内容和结构。换句话说,这是表示和处理一个HTML或XML文档的常用方法。 DOM实际上是以面向对象方式描述的文档模型。DOM定义了表示和修改文档所需的对象、这些对象的行为和属性以及这些对象之间的关系。 ————————————————————————————————– l xmlChar 替代char,使用UTF-8编码的一字节字符串 l xmlDoc包含由解析文档建立的树结构 /以version = 1.0建立文档 l doc= xmlParseFile(docname); //解析文档,给文档指针赋值 l doc= xmlReadFile(docname ,”GB2312″,XML_PARSE_RECOVER);//以GB2312编码解析文档 l xmlFreeDoc(doc); //释放解析文档时获取到的内存 l intnRel

    3.5K20编辑于 2022-09-14
  • 来自专栏用户3030674的专栏

    java 解析xml文档---通过XmlPullParser解析方式

    FileInputStream("person.xml"); 30 //设置流和字符集 31 parser.setInput(fis,"utf-8"); 32 //开始解析 }           break; 66 }         event=parser.next(); 67 } 68 //解析结束

    1.5K20发布于 2018-09-14
  • 来自专栏腾讯云智能·AI公有云

    文档解析之困 | 大模型时代,复杂文档解析如何更精准?

    02、多模态文档解析大模型:破局与超越 传统OCR与大模型文档解析,谁更胜一筹,不同场景应该是各有千秋。 为了便于大家清晰理解,我们将腾讯云大模型知识引擎文档解析的核心要点进行了提炼: 1)独创多模态文档解析大模型:在算法上,基于腾讯优图实验室自研新一代多模态文档解析大模型,通过粗粒度生成元素的位置及顺序, 2)智能版面分析:与传统的OCR文字识别不同,文档解析产品能够快速抽取文档的关键属性,支持对多栏、内容混排等复杂版式的文档进行精准解析,如论文、报告、书籍等文档中的标题、段落、图片、表格、公式、页眉、页脚等多种版面元素 而在需要处理非结构化、多样化表格或图文混排等复杂文档情况下,多模态文档解析大模型则具有更大的优势。 腾讯云大模型知识引擎文档解析产品基于腾讯优图实验室自研新一代多模态文档解析大模型,在算法能力、模型准确率、适应性、应用场景、灵活接入等方面都具备行业领先优势。

    3.1K11编辑于 2024-10-18
  • 来自专栏开源心路

    Apache-Tika解析JPEG文档

    FileInputStream(new File("D:/无标题.jpg")); ParseContext pcontext = new ParseContext(); // 解析

    52110编辑于 2023-06-29
  • 来自专栏腾讯IMWeb前端团队

    文档解析和DOMContentLoaded触发时机

    | 导语 大家都知道 HTML 文档完全加载和解析完成之后,会触发 DOMContentLoaded 事件,那么 HTML 里面的内容会如何影响文档解析呢? ,如果此时文档还没解析完成,就会阻塞解析。 只有在脚本请求耗时比文档解析时间长的情况下,才不会影响 defer:推迟脚本执行,保证不阻塞文档解析,意味着即使脚本从网络请求完成也不会立刻执行,只有等到文档解析完成后执行 它们属性值都是 boolean 文档解析。 这种情况下是影响了文档解析。 2.

    1.1K20编辑于 2022-06-29
  • 来自专栏AI SPPECH

    4:Youtu-Parsing 文档解析模型:2B参数的文档智能解析技术深度解析

    背景动机与当前热点 1.1 核心价值 在文档智能处理领域,传统的OCR和文档解析技术长期面临着处理复杂版面、结构化信息提取困难、推理速度慢等挑战。 框架是其核心创新之一: 指令驱动解析:通过自然语言指令控制解析行为 任务自适应:根据不同的解析任务自动调整处理策略 上下文感知:利用文档上下文信息提升解析准确性 少样本学习:通过少量示例快速适应新的文档类型 : 指令解析:将自然语言指令解析为具体的解析任务 任务规划:根据指令和文档内容规划解析步骤 上下文管理:维护和利用文档上下文信息 执行控制:控制解析过程的执行和调整 # prompt-guided框架核心代码示例 行业生态影响 Youtu-Parsing的成功将对行业生态产生以下影响: 技术标准化:推动文档解析技术的标准化 开源协作:促进文档智能处理领域的开源协作 创业机会:催生基于文档解析技术的新创业方向 跨领域融合 如何实现真正的零样本跨语言文档解析? 如何平衡解析速度和准确率? 如何构建更全面的文档解析评测基准?

    25810编辑于 2026-02-04
  • 来自专栏开源心路

    Apache-Tika解析pdf文档

            Metadata metadata = new Metadata();         ParseContext pcontext = new ParseContext();        // 解析 PDF文档时应由超类AbstractParser的派生类PDFParser实现         PDFParser pdfparser = new PDFParser();         try {

    76810编辑于 2023-06-29
  • 来自专栏杨丝儿的小站

    【Python】解析 Xml 格式的文档

    xml 文档,无非就是一个树状的数据仓库,最基础的部分也就四个:增删改查。 解析树状结构 从硬盘读取 从字符串读取 注意:xml.etree.ElementTree模块在应对恶意结构数据时显得并不安全。 类的内置属性 dict : 类的属性(包含一个字典,由类的数据属性组成) doc :类的文档字符串 name: 类名 module: 类定义所在的模块(类的全名是’main.className’,如果类位于一个导入模块

    2.7K10编辑于 2022-02-25
  • 来自专栏全栈程序员必看

    #Photoshop#_pdf文档解析失败

    Adobe Photoshop档案格式规格:https://www.adobe.com/devnet-apps/photoshop/fileformatashtml/#50577409_89817

    71120编辑于 2022-08-18
  • 来自专栏机器学习与统计学

    文档解析测试PDF,欢迎挑战

    大家好,我是 Ai 学习的老章 最近在看文档处理方面的模型和工具,准备写个新系列,聚焦大模型文档处理,记录模型特性与功能,本地部署,实际测试。 ,准备写个新系列,聚焦大模型文档处理,记录模型特性与功能,本地部署,实际测试。 水印提取: 检测并从文档中提取水印文本,并将其放在 <watermark> 标签中。 文档信息提取:无需 OCR 技术即可从发票、护照等各类文档中提取结构化信息(字段、表格等),并提供置信度评分。 智能文档处理排行榜:一个综合性基准测试平台,用于追踪和评估视觉语言模型在 OCR、关键信息提取 (KIE)、文档分类、表格提取等智能文档处理任务中的性能表现。

    52700编辑于 2025-06-23
  • 来自专栏VBA 学习

    VBA解析复合文档08——应用-解析Thumbs.db

    在前面提到过,Thumbs.db文件也是一个复合文档,里面存储的数据流就是图片的缩略图。

    85030发布于 2020-08-13
  • 来自专栏sktj

    python 3种模块解析html文档

    from html.parser import HTMLParser from io import StringIO from urllib.request import urlopen,Request from urllib.parse import urljoin from time import sleep from bs4 import BeautifulSoup,SoupStrainer

    1K00编辑于 2022-05-14
领券