搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏大模型应用
大模型应用：批量文档摘要与分类实践：本地合同、报告数据处理与导出.70
依托模型强大的文本理解能力与Schema引导输出机制，可快速生成标准化摘要与多标签分类，配合TextSplitter完美适配长文档处理需求，最终以CSV格式输出结构化结果。批量文档摘要与分类：针对本地存储的数百份合同、报告等文档，无需手动逐个阅读，通过AI自动提取每份文档的核心信息（摘要），并按照预设规则标注对应的业务标签（分类），最终输出结构化结果（如CSV）供后续使用整体流程批量文档摘要与分类的核心逻辑是"批量读取→文本预处理→分块→AI处理→结果整合→CSV导出"，每一步的作用如下：流程说明：1. AI处理：将每个文本块输入Qwen 1.5 7B，通过预设的Schema提示词引导模型生成该块的摘要与分类，再将所有块的结果整合为完整文档的摘要与分类。5. batch_process_documents(): """ 批量处理指定文件夹中的所有文档，生成摘要与分类，最终导出CSV """ # 步骤7.1：加载Qwen 1.5 7B
27753编辑于 2026-04-08
来自专栏TopFE
使用mongoose批量添加文档
使用insertMany()方法进行文档的批量操作,避免了循环多次插入数据库. 第一个参数可以使一个数组也可以是一个对象. 可以设置mongodb 驱动的参数, 是否排序,以及回调函数, 返回的是一个promise 文档链接注意如果Modal中的一个String类型在实际插入中是Array类型那么便会报错报错新如下
2.7K20编辑于 2022-01-24
来自专栏用户3103921的专栏
ElasticSearch批量更新文档
/** * 批量更新文档 * * @param index ES索引 * @param documents 待提交的批量文档 * @param uuidKey 文档中ID字段对应的key值 */ public BulkResponse updateDocumentsAsBatch(String index, List<Map
2.8K10发布于 2020-06-12
来自专栏python3
python批量爬取文档
　　最近项目需要将批量链接中的pdf文档爬下来处理，根据以下步骤完成了任务：将批量下载链接copy到text中，每行1个链接；再读txt文档构造url_list列表，利用readlines返回以行为单位的列表；利用str的rstrip方法，删除 string 字符串末尾的指定字符（默认为空格）；调用getFile函数：通过指定分隔符‘/’对字符串进行切片，取list的最后一列即链接文档名作为下载文件名
1.4K50发布于 2020-01-17
来自专栏爬虫逆向案例
NLTK-007：分类文本（文档情感分类）
之前我们看了几个例子，那里文档已经按类别标记。使用这些语料库，我们可以建立分类器。自动给新文档添加适当的类别标签。首先我们构造一个标记了相应类别的文档清单，对于这个例子，我选择了nltk中的电影评论语料库，将每个评论分为正面或者负面。对于文档主题识别，我们可以为每个词定义一个特征表示该文档是否包含这个词。为了限制分类器需要处理的特征的数目，我们一开始构建一个整个语料中前2000个最频繁词的链表，然后定义一个特征提取器。简单的检查这些词是否在一个给定的文档中。训练和测试一个分类器进行文档分类： featuresets = [(document_features(d),c) for (d,c) in documents] train_set,test_set
62510发布于 2021-11-22
来自专栏cjz的专栏
JavaRestClient操作Elasticsearch批量新增文档
导包导包可以根据文档里导入依赖这里就不写依赖了批量新增文档 import com.google.gson.Gson; import com.leyou.pojo.Item; import HttpHost.create("http://127.0.0.1:9203") ) ); } /** * 批量新增 */ @Test public void testBulkIndex() throws IOException { //准备新增的文档 List list.add(new Item(5L, "荣耀V10", "手机", "华为", 2799.00, "http://image.csdn.com/13123.jpg")); // 创建批量新增请求
72630编辑于 2022-12-21
来自专栏蛋蛋之家
在 Windows 下批量将 Markdown 文档转为 Word 文档
而后，可以下面的做法，批量转换。收获一堆 Word 文档。
2.4K20编辑于 2023-03-14
来自专栏木宛城主
迁移TFS，批量将文档导入SharePoint 2013 文档库
一、需求分析公司需要将存在于旧系统（TFS）所有的文档迁移至新系统（SharePoint 2013）。现已经将50G以上的文档拷贝到SharePoint 2013 Server上。除此之外，这些存在于TFS中的文档，名称也是"不规则"，即包含了SharePoint 2013文档命名不支持的字符如"&", "\"", "?" 了解了文档内容和命名规则后，接下来就是分析怎样导入至SharePoint文档库中：首先，每一个二级文件夹的命名是有规则的，正好是项目编号（Project Number），如GCP-xxxx-xxx-xxx 文档目录结构图根据上图文档目录结构图，分割字符串（E:\TFS\GCP0401-S\4.Project Management\3 Document Management\TMF），获取文件夹的名称，查看文件夹和文档是否成功创建和上传 ?
2.2K100发布于 2018-01-11
来自专栏码匠的流水账
使用opennlp进行文档分类
序本文主要研究下如何使用opennlp进行文档分类 DoccatModel 要对文档进行分类，需要一个最大熵模型(Maximum Entropy Model)，在opennlp中对应DoccatModel cat.size()); } 这里为了方便测试，先手工编写DocumentSample来做训练文本 categorize方法返回的是一个概率，getBestCategory可以根据概率来返回最为匹配的分类本文仅仅是使用官方的测试源码来做介绍，读者可以下载个中文分类文本训练集来训练，然后对中文文本进行分类。 doc Document Categorizer API
96810发布于 2018-09-17
来自专栏疯狂学习GIS
Python基于Excel中的分类规则批量重分类遥感影像
其中，.csv文件的VALUE列表示遥感影像原本的像素值；而我们希望，将每一个像素，由原本的值（VALUE列）重分类为上图中mvalue列表示的值——例如，如果原本像素为1，那么将其重分类为123000 此外，还需要注意，对于mvalue列，如果其原本的数字位数不够6位，则在其右侧补0直至满6位——例如，如果mvalue列原本的值为23，那么需要在重分类时，重分类为230000。则是用于保存处理后的重分类结果（也是.tif文件）的路径。随后，使用arcpy.sa.RemapValue()创建一个映射规则对象，并调用arcpy.sa.Reclassify()进行重分类——输入栅格为tif_path，按照像素值Value进行重分类（应用myRemapValue 最后，构建输出路径，并保存重分类后的栅格图像到指定位置。处理完所有文件后打印完成信息。执行上述代码，即可对每一个遥感影像，按照每一个Excel文件内的规则，加以重分类。至此，大功告成。
39010编辑于 2025-06-17
来自专栏大数据文摘
科普｜文本分析浅析——文档分类
在做文档分类时，预先定义好文档类别，再人工为训练数据集中每个文档打上类别标记。建立了训练数据集之后，接着是用这个人工标记的数据集训练一个分类器。非监督学习方式（如聚合和话题建模），可以在一批文档中自动发现相似文档并进行分组。本文将聚焦监督分类方式的机器学习。 ? 1 什么是分类器？分类器的工作是生成“预测”。简明地说，当分类器对一个新文档进行分类时，它预先判定这个文档属于某个特定类别；并且，分类器通常为这个文档指定一个类别“标签”。 3 文档分类简易例证以此类推，将这种预测方法应用于文档的分类，其中的单词将被视为“特征”来预测该文档的类别。还是使用一个简单例子来说明。假设，我们的训练集中有如下三个非常简短的文档： ? 3.分类算法及策略在上面的例子中，我们用来分类分档的算法非常简单：通过比较文档向量中匹配项的数量，来看它与哪一个类别最为相似，并以此对文档进行分类。
1.5K40发布于 2018-05-23
文档图像方向分类模块使用教程
[paddleocr]文档图像方向分类模块使用教程文档图像方向分类模块使用教程 ¶ 一、概述 ¶ 文档图像方向分类模块主要是将文档图像的方向区分出来，并使用后处理将其矫正。利用图像分类技术，可以预先判断含文字区域的文档或证件的方向，并将其进行方向调整，从而提高OCR处理的准确性。 :— | PP-LCNet_x1_0_doc_ori | 推理模型 / 训练模型 | 99.06 | 2.31 / 0.43 | 3.37 / 1.27 | 7 | 基于PP-LCNet_x1_0的文档图像分类模型调用文档图像方向分类模型的 predict() 方法进行推理预测，该方法会返回一个结果列表。另外，本模块还提供了 predict_iter() 方法。，因此，如果需要训练文档图像方向分类模型，可以参考 PaddleX 文档图像方向分类二次开发部分进行训练。
48310编辑于 2025-12-17
来自专栏开源部署
WordPress 批量更改文章分类插件：batch cat
如果想批量更改文章分类，可以参考之前介绍的《小技巧：批量转换WordPress文章分类》，但该方法比较适合删除合并分类的操作，而使用batch cat插件操作更加灵活方便。启用插件后，进入WP后台 → 工具 → 更改文章分类（batch cat），操作界面如下图：在上面文章选择区，选择准备更改分类的文章，下面分类区域选择准备更改到的分类，点击“更改文章分类”按钮即可。如果想调整每页的文章显示数量，可以到WP后台 → 设置→ 更改文章分类设置（Batch Cat Settings），修改显示数量。通过插件可以给文章添加多个分类，也可以从某个分类中删除等操作下载信息资源名称： WordPress 批量更改文章分类插件：batch cat 应用平台：WordPress 资源版本： 0.3
1.2K60编辑于 2022-06-11
来自专栏小徐学爬虫
海量文档分类算法选择与实现
处理海量文档的分类是一个复杂而又重要的问题，因为在我实际编程应用中，文档可能包含大量的文本和信息。具体怎么操作，可以看下我们这样做。以下是选择和实现海量文档分类算法的一般步骤和建议：1、问题背景问题描述：给定一个包含 300,000 篇文档的 Postgres 数据库，每个文档都标记了主题类别（总共约有 150 个类别）。另有 150,000 篇文档尚未分类。目标是找到一种最佳的编程方法来对这些文档进行分类。训练逻辑回归模型，并将训练好的模型用于对新文档进行分类。方案三：使用多分类 SVM 进行分类选择多分类 SVM 作为分类器。方案四：使用 "无类别" 选项进行分类在训练分类器时，添加一个 "无类别" 选项。如果新文档与任何类别都不匹配，则将新文档分配给 "无类别" 选项。
36910编辑于 2024-04-01
来自专栏简书专栏
基于jieba、TfidfVectorizer、LogisticRegression的文档分类
jieba中文叫做结巴，是一款中文分词工具，官方文档链接：https://github.com/fxsjy/jieba TfidfVectorizer中文叫做词袋向量化模型，是用来文章内容向量化的工具 0.打开jupyter 在桌面新建文件夹命名为基于TfidfVectorizer的文档分类，如下图所示: ? image.png 打开基于TfidfVectorizer的文档分类文件夹，在按住Shift键的情况下，点击鼠标右键，出现如下图所示。 image.png 1.数据准备训练集共有24000条样本，12个分类，每个分类2000条样本。测试集共有12000条样本，12个分类，每个分类1000条样本。数据集下载链接: https://pan.baidu.com/s/1PY3u-WtfBdZQ8FsKgWo_KA 密码: hq5v 下载完成后，将压缩文件包放到基于TfidfVectorizer的文档分类文件夹中
4.7K60发布于 2018-09-10
来自专栏Dance with GenAI
AI批量处理TXT文档换行符
有很多个TXT文档，里面有很多换行，要全部去掉：在deepseek中输入提示词：写一个Python脚本，完成任务如下：读取文件："F:\OneDrive\桌面\新建文本文档 (3).txt" 识别所有的换行符 outfile.write(processed_content) print(f"处理后的内容已写回文件: {input_file}") # 示例用法 input_file = r"F:\OneDrive\桌面\新建文本文档使用方法：将你的文本内容保存到 F:\OneDrive\桌面\新建文本文档 (3).txt 文件中。运行上述代码，脚本会读取文件内容，处理换行符，并将处理后的内容写回文件。运行程序，txt文档处理好了：
77110编辑于 2025-01-22
来自专栏Ken的杂谈
语雀文档批量导出为Markdown文件
一、前言语雀的定位由之前的社区转向工具，也不提供批量导出Markdown的功能，有开发者提供了导出脚本可以通过语雀官方API帮我们把文档批量导出为Markdown，方便我们把文档导入notion等其他平台或者备份在本地创建Token 登录语雀后在账户设置中可以创建Token，供访问API使用：https://www.yuque.com/settings/tokens/new 根据最小授权原则，这里只授予读取知识库以及文档的权限即可 } 配置项说明 TOKEN 替换为前面创建的Token USER_AGENT 保持默认即可，无需调整 BASE_URL 语雀官方API地址，无误调整 DATA_PATH 文档导出目录 yq.main() 6、执行导出 python yuque.py #输出内容示例 =========== 用户信息初始化成功 ========== [2022-12-06 22:56:55] 语雀批量导出
4.5K21编辑于 2023-04-07
来自专栏IT派
用Python实现markdown批量转word文档
Python将md批量转为docx 这两天发现了一个可以将markdown快速转为word格式的小工具pandoc, 非常好用, 比如我有一个名为Python资料.md的文件, 我只需在命令行运行 pandoc 使用技巧: 由于word确实很难用, 我们可以用md格式书写, 然后转换成docx 懒是第一生产力, pandoc可以在命令行运行, 所以, 我们可以配合python脚本将md格式批量转换为docx 这是我写的一个简易脚本 = ".md": all_md_files.append(file_name) except Exception as e: print(e) # 将md文件批量装换为
4.7K30发布于 2018-07-30
来自专栏深度学习和计算机视觉
使用深度学习阅读和分类扫描文档
，将它们全部写入一个大文件夹会使它们难以分类，并且我们可能已经在文档中进行了某种隐式分组。然后主题模型将读入这些 txt 文件，将它们分类到我们指定的任意多个主题中，并将它们放入适当的文件夹中。 transformed_tfidf, num_topics=num_topics, id2word=dictionary) return(lda, dictionary) 使用模型对文档进行分类一旦我们训练了我们的 LDA 模型，我们就可以使用它来将我们的训练文档集（以及可能出现的未来文档）分类为主题，然后将它们放入适当的文件夹中。该脚本将读取输入文件夹中所有扫描的文档图像，将它们写入txt 文件，构建LDA 模型以查找文档中的高级主题，并根据文档主题将输出的txt 文件归类到文件夹中。
1.1K40编辑于 2022-02-10
Python 爬虫实战：批量抓取应用商店分类应用
无论是分析某一赛道的应用分布，还是监控同类 APP 的核心指标，通过 Python 爬虫批量抓取应用商店分类应用数据，都是高效且低成本的解决方案。本文将以主流安卓应用商店为例，从环境搭建、爬虫设计、数据解析到存储落地，完整讲解如何实现应用商店分类应用的批量爬取，帮助你快速掌握实战爬虫开发的核心逻辑。 1.2 目标分析与反爬注意事项本文以某公开安卓应用商店的「工具类」分类为例（实际可替换为任意分类），核心抓取字段包括：APP 名称、下载量、评分、简介、所属分类。，实现多页数据批量爬取，并将结果存储为 Excel 文件：python运行def batch_crawl(category_url, start_page=1, end_page=5): """ 批量爬取指定分类的多页应用数据 :param category_url: 分类页基础URL（需包含{p}占位符） :param start_page: 起始页码 :param end_page
20710编辑于 2026-03-18

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

大模型应用：批量文档摘要与分类实践：本地合同、报告数据处理与导出.70

使用mongoose批量添加文档

ElasticSearch批量更新文档

python批量爬取文档

NLTK-007：分类文本（文档情感分类）

JavaRestClient操作Elasticsearch批量新增文档

在 Windows 下批量将 Markdown 文档转为 Word 文档

迁移TFS，批量将文档导入SharePoint 2013 文档库

使用opennlp进行文档分类

Python基于Excel中的分类规则批量重分类遥感影像

科普｜文本分析浅析——文档分类

文档图像方向分类模块使用教程

WordPress 批量更改文章分类插件：batch cat

海量文档分类算法选择与实现

基于jieba、TfidfVectorizer、LogisticRegression的文档分类

AI批量处理TXT文档换行符

语雀文档批量导出为Markdown文件

用Python实现markdown批量转word文档

使用深度学习阅读和分类扫描文档

Python 爬虫实战：批量抓取应用商店分类应用

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐