搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏Python小屋
Python+pymupdf处理PDF文档案例6则
任务描述：提取PDF文件中的文本，保存为文本文件合并PDF文档把PDF文档按页转换、拆分成独立图片，每页一个图片文件合并多个图片为PDF文件，每个图片占一页提取PDF中的所有图片，保存为独立的图片文件
4.5K20发布于 2020-07-21
来自专栏我的机器学习之路
Python处理Excel文档
这里用到一个名为xlrd的库，我用来筛选教师编制考试的信息，表格实在太大了，用Excel标注完了删除都要删半天，为此特地学了一下午：
67410发布于 2020-10-23
来自专栏码生
图片处理（收集文档）
通过Core Library的文档，我们知道创建颜色有这么几个方法： CGColorCreate CGColorCreateCopy CGColorCreateGenericGray CGColorCreateGenericRGB
1.7K30发布于 2018-11-21
来自专栏Android开发指南
6：异常处理
以前正常流程代码和问题处理代码相结合，现在将正常流程代码和问题处理代码分离。提高阅读性. 其实异常就是java通过面向对象的思想将问题封装成了对象.用异常类对其进行描述。 |--1，一般不可处理的。Error 特点：是由jvm抛出的严重性的问题。这种问题发生一般不针对性处理。直接修改程序 |--2，可以处理的。：这是可以对异常进行针对性处理的方式。异常处理机制： ? ? 异常处理的标准结构： class Exception { public static int div(int x, int y) {// 异常由被调用者处理 int result = 0; System.out.println
81180发布于 2018-05-14
来自专栏海天一树
LDA处理文档主题分布
这篇文章主要是讲述如何通过LDA处理文本内容TXT，并计算其文档主题分布。在了解本篇内容之前，推荐先阅读相关的基础知识： LDA文档主题生成模型入门结巴中文分词介绍爬取百度百科5A景点摘要并实现分词使用scikit-learn计算文本TF-IDF值一、完整程序 from 1 (5, 7) 1 (5, 5) 1 (5, 3) 1 (5, 6) 1 (6, 1) 1 (6, 11) 1 (6, 0) 1 (7, 13) 1 (7, 4) 1 (7, 11) 1 (8, 8) 哪个概率大说明这个文档的主题是哪个。最终10篇文章分别对应于主题1, 1, 0, 0, 1, 1, 0, 0, 1, 0。 ? doc_topic.png 这里列出了其中6个文档的主题分布图。
1.8K30发布于 2018-07-25
来自专栏九陌斋
文档处理与查询设计
即首先将文档提取到一个文件内，然后遍历处理即可。 'bfpv': 1, 'cgjkqsxz': 2, 'dt': 3, 'l': 4, 'mn': 5, 'r': 6} 框架图功能说明文档预处理（语言及其他处理）包括文档格式处理、文档语言识别、文档编码识别，即在文本分类索引之前，先对文档进行预处理。如果结果 < k 篇文档，那么从下一层继续处理，直至索引用完或者返回至少k 个结果为止。查询处理给定查询 Q, 找离它最近的先导者L，从L及其追随者集合中找到前K个与Q最接近的文档返回。
99950编辑于 2022-12-26
来自专栏逻辑熊猫带你玩Python
使用Python处理Word文档
使用Python处理Word文档 1. 前言2. 使用Document对象创建文档3. 在word文档中使用标题4. 在word文档中使用段落5. 在word文档中使用列表6. , level=4) document.add_heading(text=u'这是五级标题', level=5) document.add_heading(text=u'这是六级标题', level=6) 6. 在word文档中使用表格在Word中使用表格是一个比较复杂的内容。 for j in range(colc): table.cell(i, j).text = str((i+1)*(j+1)) # content # 1 2 3 # 2 4 6 # 3 6 9 # ------- table.add_row() # 在最下方添加行 table.add_column(10) # 在最右边添加列
8.1K43发布于 2019-09-03
来自专栏Linux技术资源分享
Python处理Excel文档之openpyxl
****openpyxl简介**** 还是简单一句：顾名思义，openpyxl就是一个处理excel文档的一个python库。 path) # 也可以将文件作为模板保存 as_template默认为False wb.save('document_template.xltx', as_template=True) 简单的样式处理
1.4K40发布于 2018-06-08
来自专栏机器学习AI算法工程
图像处理：文档矫正DocTr++
、介绍 Doctr++除了提出一种新的architecture外，most importantly，提出了一种新的数据处理方式，解决了以前文档矫正只能处理带有边界信息的完整文档，文章通过数据处理定义了三种类型的训练数据图1展示了三类常见的形变文档图像：(a) 包含完整文档边界，(b) 包含部分文档边界，(c ) 不包含文档边界。 **实验发现，每一个矫正提示向量会关注输入形变文档图像中的某一特定区域，这些区域组合起来便覆盖整张输入图像。三、评价指标论文提出了两种新的评价指标 MSSIM-M 和 LD-M，用于通用形变文档图像矫正质量的评估。为了实现优秀的矫正效果，DocTr++采用了一种多尺度编解码器结构，构建各类形变文档图像与无形变文档图像之间的逐像素映射关系。
98210编辑于 2024-06-08
来自专栏毛利学Python
图像和办公文档处理
图像和办公文档处理用程序来处理图像和办公文档经常出现在实际开发中，Python的标准库中虽然没有直接支持这些操作的模块，但我们可以通过Python生态圈中的第三方模块来完成这些操作。用Pillow操作图像 Pillow是由从著名的Python图像处理库PIL发展出来的一个分支，通过Pillow可以实现图像压缩和图像处理等各种操作。可以使用下面的命令来安装Pillow。 pip install pillow Pillow中最为重要的是Image类，读取和处理图像都要通过这个类来完成。 Word文档利用python-docx模块，Python可以创建和修改Word文档，当然这里的Word文档不仅仅是指通过微软的Office软件创建的扩展名为docx的文档，LibreOffice Writer 和OpenOffice Writer都是免费的字处理软件。
69030编辑于 2022-08-18
来自专栏信数据得永生
django 1.8 官方文档翻译： 6-6-1 部署 Django
译者：Django 文档协作翻译小组，原文：Overview。本文以 CC BY-NC-SA 3.0 协议发布，转载请保留作者署名和文章出处。 Django 文档协作翻译小组人手紧缺，有兴趣的朋友可以加入我们，完全公益性质。
36120编辑于 2022-11-27
来自专栏thinkphp+vue
thinkphp6 常用方法文档
; /index/index Request::host(true); 域名:www.baidu.com,默认无参数包含端口:80 Request::url(1); 完整域名和地址 http://tp6. api.shanliwawa.top:80/index/index Request::domain(1) http://tp6.api.shanliwawa.top Request::time() 判断是否某种类型 Request::has('id','get'); 检测变量id是否存在 url('index/hello', ['id'=>5,'name'=>'李白'],'do'); http://tp6. ',1)->paginate(10); 分页每页10条模型定义全局常量 define('__URL__',\think\facade\Request::domain(1)); http://tp6. \app::getAppPath() 应用路径 C:\www\tp6\app\index\ \think\facade\app::getConfigPath() 配置路径C:\www\tp6\config
2K20发布于 2021-04-26
来自专栏自然语言处理
6 大 RAG 知识库PDF文档处理神器对比，谁才是你的最佳选择？
今天，我们精挑细选 6 款最具代表性的 RAG 知识库文档处理工具，从技术架构、功能特性、适用场景、优劣势等多个维度对比，帮你找到最适合的解决方案！多语言文档处理，但表格转换易错位，复杂公式识别精度一般。适用场景：科研文献、书籍等基础 PDF 转换需求，适合技术背景用户快速部署。适用场景：多格式混合内容创作，如 PPT 图表转文档、音视频转录。适用场景：法律文档分析、技术手册问答等需结合 LLM 的智能应用。适用场景：学术文献数字化、企业级文档库转换、AI 训练数据集构建、历史文档内容恢复等场景。
3.9K00编辑于 2025-03-02
来自专栏站长的编程笔记
rust语言处理含有中文内容文档的处理方法
在Rust中处理包含中文内容的文本文件时，确保正确处理文件的编码非常重要。通常情况下，中文文本文件使用UTF-8编码，但有时也可能使用其他编码，比如GBK。在Rust中，你可以使用第三方库encoding来处理不同的文本编码。以下是一个简单的例子，展示了如何读取包含中文内容的文本文件并处理不同的编码：首先，将 encoding 添加到你的 Cargo.toml 文件中： [dependencies] encoding = ("Failed to decode the file content"); } } Ok(()) } 实际上你可能需要根据具体情况进行更复杂的处理。
1.1K10编辑于 2023-12-23
来自专栏网络收集
ES6语法处理
ES6语法处理如果你仔细阅读webpack打包的js文件，发现写的ES6语法并没有转成ES5，那么就意味着可能一些对ES6还不支持的浏览器没有办法很好的运行我们的代码。在前面我们说过，如果希望将ES6的语法转成ES5，那么就需要使用babel。而在webpack中，我们直接使用babel对应的loader就可以了。 Vue实例之后可以管理它其中的内容这里，我们可以将div元素中的{{message}}内容删掉，只保留一个基本的id为div的元素但是如果我依然希望在其中显示{{message}}的内容，应该怎么处理呢
64210编辑于 2022-05-29
来自专栏信数据得永生
django 1.8 官方文档翻译： 6-6-4 部署静态文件
Fabric 脚本的语法相当简单，但这里不会讲述；参见Fabric 的文档以获得其语法的完整解释。一些常见的选择有： Nginx 裁剪版的Apache 配置这些服务器在这篇文档范围之外；查看每种服务器各自的文档以获得说明。 local_dir = env.local_static_root, delete = True ) 静态文件位于一个云服务或CDN 上两位一个常见的策略是放置静态文档到一个云存储提供商比如亚马逊的译者：Django 文档协作翻译小组，原文：Deploying static files。本文以 CC BY-NC-SA 3.0 协议发布，转载请保留作者署名和文章出处。 Django 文档协作翻译小组人手紧缺，有兴趣的朋友可以加入我们，完全公益性质。
65240编辑于 2022-11-27
来自专栏全栈程序员必看
webpack（6）webpack处理图片
图片处理url-loader(webpack5之前的处理方式) 在项目开发中，我们时长会需要使用到图片，比如在img文件夹中有图片test1.png，然后在normal.css中会引用到图片 body{ 打包出来的图片名字是随机的哈希值字符串，例如1b959a13f661bd214696460400b8c8d0.png，如果我们想自定义名字，则需要进行配置option选项，具体参数可以参考官网资源模块 webpack5之前我们处理静态资源比如
1.2K10编辑于 2022-09-19
来自专栏ComPDFKit tutorials
ComPDFKit - 专业的PDF文档处理SDK
标记密文对图像、文本和矢量图形中的敏感信息或隐私数据进行不可逆的密文处理，阻止了他人访问敏感信息。同时支持多种方式标记密文。 PDF文档对比提供文档对比功能，对比相似的或不同版本的PDF文档。支持对比文档中的文字、图片、线条等内容。以不同颜色展示PDF文档的编辑、删除、增加等变动。 PDF文档拆分提供API接口，指定页面分割或分割特定的页面集，并将其保存为单独的PDF文件。 PDF文档合并支持调用API接口，将两个文档或文档列表合并为一个PDF文档。 图像预处理 Document AI通过边缘检测、增强局部对比度、自动图像去偏、失真校正、模糊校正等操作对模糊、倾斜、褶皱的图片进行处理，得到清晰的图片。 PDF文档对比提供文档对比功能，对比相似的或不同版本的PDF文档。支持对比文档中的文字、图片、线条等内容。以不同颜色展示PDF文档的编辑、删除、增加等变动。
12.8K60编辑于 2023-03-07
智能文档处理(IDP)技术深度解析
预处理：去歪斜、二值化等技术清理模糊图像。结构检测：精确分割文档，识别不同的区域（如表格、手写签名、印章），允许专门的模型处理每个区域。 IDP与其他方法的边界智能文档处理（IDP）不是OCR、RPA或自动文档处理（ADP）的替代品。相反，它充当使它们变得智能的协调者，通过做它们不能做的事情来补充它们：学习、泛化和解释超出模板的文档。最务实的路径通常是：从购买开始 → 利用供应商加速器处理常见文档。在4–6周内证明价值，使用发票、采购订单或KYC包。仅在有特定领域提升价值的地方扩展内部模型。运行4–6周的试点。跟踪四个指标：准确度（F1分数）、首次通过率、异常率和周期时间。有意识地扩展。扩展到相邻的文档类型。为合规性叠加ADP，为可变性叠加IDP，仅在API不可用时使用RPA。运行4–6周的试点来建立这些指标的基线，然后每月监控。成功意味着更高的F1/首次通过率、更低的异常率和单文档成本，以及稳定的可审计性。5. IDP能可靠地处理手写内容吗？我们应该有什么期望？
35110编辑于 2026-01-19
来自专栏老雷PHP全栈开发
jQuery基础教程之文档处理
jQuery基础教程之文档处理一、append appendTo append(content|fn) 向每个匹配的元素内部追加内容。
57410发布于 2020-07-02

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

Python+pymupdf处理PDF文档案例6则

Python处理Excel文档

图片处理（收集文档）

6：异常处理

LDA处理文档主题分布

文档处理与查询设计

使用Python处理Word文档

Python处理Excel文档之openpyxl

图像处理：文档矫正DocTr++

图像和办公文档处理

django 1.8 官方文档翻译： 6-6-1 部署 Django

thinkphp6 常用方法文档

6 大 RAG 知识库PDF文档处理神器对比，谁才是你的最佳选择？

rust语言处理含有中文内容文档的处理方法

ES6语法处理

django 1.8 官方文档翻译： 6-6-4 部署静态文件

webpack（6）webpack处理图片

ComPDFKit - 专业的PDF文档处理SDK

智能文档处理(IDP)技术深度解析

jQuery基础教程之文档处理

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐