搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏阿炬.NET
CSS内嵌样式自动提取器
逐行分析，将内联样式提取出来，并自动编号代替的一个小工具软件注：style=""(此处必须是标准的双引号！)
1.6K70发布于 2018-05-11
来自专栏深度学习之tensorflow实战篇
textrank算法原理与提取关键词、自动提取摘要PYTHON
其基本思想来源于谷歌的 PageRank算法（其原理在本文在下面）, 通过把文本分割成若干组成单元(单词、句子)并建立图模型, 利用投票机制对文本中的重要成分进行排序, 仅利用单篇文档本身的信息即可实现关键词提取基于TextRank的关键词提取　　关键词抽取的任务就是从一段给定的文本中自动抽取出若干有意义的词语或词组。基于TextRank的自动文摘　　基于TextRank的自动文摘属于自动摘录，通过选取文本中重要度较高的句子形成文摘，其主要步骤如下：　　（1）预处理：将输入的文本或文本集的内容分割成句子得 ?
3.2K20发布于 2019-02-14
来自专栏深度学习之tensorflow实战篇
textrank算法原理与提取关键词、自动提取摘要PYTHON
其基本思想来源于谷歌的 PageRank算法（其原理在本文在下面）, 通过把文本分割成若干组成单元(单词、句子)并建立图模型, 利用投票机制对文本中的重要成分进行排序, 仅利用单篇文档本身的信息即可实现关键词提取基于TextRank的关键词提取　　关键词抽取的任务就是从一段给定的文本中自动抽取出若干有意义的词语或词组。基于TextRank的自动文摘　　基于TextRank的自动文摘属于自动摘录，通过选取文本中重要度较高的句子形成文摘，其主要步骤如下：　　（1）预处理：将输入的文本或文本集的内容分割成句子得 ?
5.9K60发布于 2018-03-19
来自专栏生信菜鸟团
Python 自动化提取基因 CDS
self.feature.qualifiers key = object else: obj = object # 为字符，提取 records: print(f"{record.id}") for feature in record.features: # 提取 2 提取单个基因CDS main.py from BaimoTools import BaimoTools gb_file = f"res/genbank/SARS-CoV-2.gb" fasta_file 3 提取多个基因CDS main.py from BaimoTools import BaimoTools gb_file = f"res/genbank/SARS-CoV-2.gb" fasta_file 下一步更新其他基因特征提取，及格式转换功能。
1.2K10发布于 2021-03-23
来自专栏生信情报站
Python 自动化提取基因的 CDS
文章目录一、环境准备及背景介绍二、Python 实现三、使用示例数据介绍 1、提取单个基因CDS 2、提取多个基因CDS 2、提取全部基因CDS 一、环境准备及背景介绍 Python 开发环境序列处理：生物信息中的 Python 02 | 用biopython解析序列示例 Genbank 数据：下载链接 Genbank 数据介绍：生物信息中的Python 05 | 从 Genbank 文件中提取 self.feature.qualifiers key = object else: obj = object # 为字符，提取 1、提取单个基因CDS main.py from BaimoTools import BaimoTools gb_file = f"res/genbank/SARS-CoV-2.gb" fasta_file 下一步更新其他基因特征提取，及格式转换功能我的博客即将同步至腾讯云+社区，邀请大家一同入驻：https://cloud.tencent.com/developer/support-plan?
1.9K20发布于 2021-01-12
来自专栏山河已无恙
数据采集:selenium 提取 Cookie 自动登陆
写在前面工作需要，简单整理博文内容涉及通过 selenium 实现自动登陆理解不足小伙伴帮忙指正「对每个人而言，真正的职责只有一个：找到自我。然后在心中坚守其一生，全心全意，永不停息。是随波逐流，是对内心的恐惧 ——赫尔曼·黑塞《德米安》」 ---- 未登陆用户保存 cookie 假设登陆用户名为 : chinaz_735287 我们需要获取一些 CDN 的数据，代码很简单，不做说明，自动登陆 json.dump(browser.get_cookies(), f) browser.close() print("cookie保存完成，游览器已自动退出 "sameSite": "Lax", "secure": false, "value": "1692588387" } ] 使用 cookie 自动登陆 from seleniumwire import webdriver import json import time # 自动登陆 browser = webdriver.Chrome() with
71220编辑于 2023-09-11
来自专栏红队蓝军
恶意样本自动化配置提取初探
](CAPEv2/Emotet.py at f2ab891a278b2875c79b4f2916d086f870b54ed5 · kevoreilly/CAPEv2 (github.com)) 沙箱的提取代码，在前面奇安信攻防社区-APT 恶意 DLL 分析及 C2 配置提取（子 DLL 篇）分析的基础上尝试编写自动化配置提取，如有错误还请指正。编写环境：语言：python 外部库： yara——匹配规则，锁定 C2 配置及密钥配置位置，pip install yara-python Cryptodome——提取整合加密密钥并导出 pip install + 4])[0] - image_base #struct.unpack(format, buffer)，根据格式字符串 format 从缓冲区 buffer 解包，返回元祖，所以这里用[0]来提取和前面一样，我们使用 xor 函数解密，不同的是这里提取的是 IP ，所以我们需要引用 IP 相关的标准库 socket。
64620编辑于 2023-09-22
来自专栏wujunmin
Excel自动提取文本的特征关键字
使用Excel Power Query的两个函数，可以做个全自动模板，实现此功能，实现步骤如下： 1.将文本和特征量均导入Power Query Excel 2016及以上在数据选项卡下，Excel2013
2.8K30发布于 2021-09-07
来自专栏深度学习思考者
机器学习特征提取 | 自动特征工程featuretools
本文介绍了Featuretools的基本概念、安装、快速入门以及五分钟快速开始。通过本文，读者可以快速掌握Featuretools，了解其基本概念和使用方式，从而在数据分析和机器学习项目中更高效地使用Featuretools。
1.9K50发布于 2018-01-02
来自专栏机器学习AI算法工程
TF-IDF应用：自动提取关键词、找相似文章、自动摘要
有一篇很长的文章，我要用计算机提取它的关键词（Automatic Keyphrase extraction），完全不加以人工干预，请问怎样才能正确做到？假定现在有一篇长文《中国的蜜蜂养殖》，我们准备用计算机提取它的关键词。一个容易想到的思路，就是找到出现次数最多的词。如果某个词很重要，它应该在这篇文章中多次出现。所以，自动提取关键词的算法就很清楚了，就是计算出文档的每个词的TF-IDF值，然后按降序排列，取排在最前面的几个词。除了自动提取关键词，TF-IDF算法还可以用于许多别的地方。然后，找出包含分值最高的簇的句子（比如5句），把它们合在一起，就构成了这篇文章的自动摘要。
4.6K171发布于 2018-03-13
来自专栏进击的Coder
OpenTag模型：减少人工标注，自动提取产品属性值
AI 前线导读：提取缺失属性值是指从自由文本输入中找到描述兴趣属性的值。过去大多数关于提取缺失属性值的工作都是在封闭的假设下进行，即事先已知一组可能的属性值，或者使用属性值字典和手工提取的特征。 OpenTag 是目前第一个端到端的开放式属性值提取框架，在这项工作中，作者利用产品配置文件信息，如标题和描述，来提取缺失的产品属性值。正式问题定义：开放式属性值提取。联合提取多属性值： OpenTag 能够通过改变标注策略联合提取多属性值。在实验中，我们从狗粮产品标题中联合提取了品牌、味道和容量这三个属性值。表 6 由于联合提取多属性值能够利用他们的分布式语义信息，因此比单独提取的效果要好，如表 6 所示。尽管品牌和容量这两个属性值的联合提取分数提高了，但是味道属性的提取分数略有下降。
1.9K20发布于 2019-09-04
来自专栏小狼的世界
Python自动提取生成博客园年度报告
上面这些内容，是通过 Python 脚本自动生成的。代码在后面可以看到，也可以参考我的 GitHub。当然现在统计的内容还不太完善，毕竟是用一天时间撸出来的，如果大家有更好的想法，欢迎提交代码。
73710发布于 2021-01-05
来自专栏hadoop学习笔记
hanlp中文智能分词自动识别文字提取实例
需求：客户给销售员自己的个人信息，销售帮助客户下单，此过程需要销售人员手动复制粘贴收获地址，电话，姓名等等，一个智能的分词系统可以让销售人员一键识别以上各种信息
3.5K00发布于 2018-11-30
来自专栏早起Python
Python办公自动化｜批量提取Excel数据
大家好，又到了Python办公自动化系列。今天我们来讲解一个比较简单的案例，使用openpyxl从Excel中提取指定的数据并生成新的文件，之后进一步批量自动化实现这个功能，通过本例可以学到的知识点: openpyxl模块的运用 glob模块建立批处理数据源：阿里云天池的电商婴儿数据（可自行搜索并下载，如果要完成进阶难度可直接将该数据Excel拷贝999次即可，当然这个拷贝可以交给代码来实现）需求说明初级难度：提取电商婴儿数据.xlsx中购买数其实如果你仔细思考会发现这个需求使用pandas会以更简洁的代码实现，但是由于我们之后的Python办公自动化案例中会频繁使用openpyxl，并且在操作Excel时有更多的功能，因此在之后我们将主要讲解如何使用这个最后还是希望大家能够理解Python办公自动化的一个核心就是批量操作-解放双手，让复杂的工作自动化！
4.1K20发布于 2020-07-22
来自专栏Dance with GenAI
AI网络爬虫：用kimichat自动批量提取网页内容
lobehub.com/zh/assistants 定位class="layoutkit-flexbox css-15l7r2q acss-vjqh32"的div标签；定位div标签里面所有的a标签，提取 a标签的href属性值，前面加上”https://lobehub.com/zh”,构造成一个URL；解析这个URL的源代码；在源代码中定位class="acss-1ce01rv"的h1标签，提取其文本内容作为提示词标题，写入”提示词.xlsx”这个Excel文件的第2列，列的标头为：提示词简介；在源代码中定位class="acss-7ksih7"的div标签，提取其全部文本内容作为提示词内容，写入”提示词.xlsx =headers) response.raise_for_status() # 解析网页内容 soup = BeautifulSoup(response.text, 'html.parser') # 提取 = soup.find('h1', class_='acss-1ce01rv') title = h1_tag.get_text(strip=True) if h1_tag else '无标题' # 提取
90411编辑于 2024-06-24
来自专栏生信技能树
神技能-自动化批量从PDF里面提取表格
Predictors of Response to Checkpoint Blockade 表现优异的学徒但是拿到学徒提交的代码才眼前一亮，她居然是从上面文章的PDF附件里面，使用R语言的pdftools包进行自动化读取读取PDF并且提取信息的代码如下： rm(list=ls()) library(pdftools) options(stringsAsFactors = F) b <- pdf_text('SupplementaryTables.pdf
1.7K50发布于 2019-07-05
来自专栏爬虫资料
用深度学习提升DOM解析——自动提取页面关键区块
我们初步使用传统XPath方案，试图提取车型、年限、里程、价格等数据。2025/03/18 10:00 初版脚本运行失败，返回的数据全是空值，XPath定位的路径在页面中根本不存在。 2025/03/19 10:00 启动深度学习方案：利用预训练模型BERT对HTML做块级语义识别，自动提取“车卡片”结构与核心字段。二、方案分析：XPath失效 vs 语义块提取1. 三、架构改进方案：深度语义解析 + 隐身身份访问以下是优化后的爬虫架构，融合了：Playwright动态渲染页面；代理IP隐藏身份（爬虫代理）；设置cookie与user-agent；调用深度学习模块提取语义块 ] ──> [Playwright+DOM语义BERT] ❌失效 ⚠️结构脆弱 ✅语义提取，稳定高效附加建议如需更高精度，可构建100~300条有标注数据微调BERT；可加入图神经网络（如DOM-GCN）提升DOM上下文理解；建议结合VisualDOM信息（元素位置+截图）形成多模态提取模型
39210编辑于 2025-05-26
来自专栏网络安全技术点滴分享
APKURLGrep自动化提取安卓apk URL工具分析
一、系统概述 APKURLGrep是一个专门用于从安卓APK安装包中提URL的自动化工具。 APKURLGrep通过反编译APK文件并分析其内容，能够有效识别应用中的API接口地址，同时自动过滤图片、字体等无关文件。工具采用Go语言开发，具有轻量高效的特点。 ) 临时管理：自动创建和清理工作目录三、技术架构 1. 主控制模块(main.go) apktool.RunApktool(baseApk, tempDir) //反编译 extractor.Extract(tempDir) //url提取 2. 操作简便：单命令即可完成提取跨平台：支持所有apktool兼容平台六、安装与使用安装 go get -u github.com/ndelphit/apkurlgrep 使用 apkurlgrep
64810编辑于 2025-06-16
基于Python实现Word文档中图片的自动提取处理
本文将深入探讨如何使用Python实现Word文档中图片的自动提取与加载功能，从理论基础到实际应用，提供全面的技术指南。欢迎大家共同学习探讨！图片提取核心技术在了解了Word文档的结构后，我们可以开始实现图片提取的核心功能。基本提取方法最直接的图片提取方法是从Word文档的ZIP结构中提取media文件夹中的所有图片：import osimport zipfilefrom pathlib import Pathdef extract_all_images 按文档顺序提取图片为了按照文档中的顺序提取图片，我们需要结合前面分析的文档结构：import osimport zipfileimport xml.etree.ElementTree as ETfrom 按序提取图片的实现现在，我们将前面的技术整合成一个完整的、可用的图片提取类。这个类将提供更多功能和更好的错误处理。
72510编辑于 2025-07-27
来自专栏IT派
一个Python自动提取内容摘要的实践
但人工摘要耗时又耗力，已不能满足日益增长的信息需求，因此借助计算机进行文本处理的自动文摘应运而生。近年来，自动摘要、信息检索、信息过滤、机器识别、等研究已成为了人们关注的热点。其中 Extraction 是抽取式自动文摘方法，通过提取文档中已存在的关键词，句子形成摘要；Abstraction 是生成式自动文摘方法，通过建立抽象的语意表示，使用自然语言生成技术，形成摘要。其基本思想来源于谷歌的 PageRank 算法, 通过把文本分割成若干组成单元(单词、句子) 并建立图模型, 利用投票机制对文本中的重要成分进行排序, 仅利用单篇文档本身的信息即可实现关键词提取、文摘。基于 TextRank 的关键词提取关键词抽取的任务就是从一段给定的文本中自动抽取出若干有意义的词语或词组。基于 TextRank 的自动文摘基于 TextRank 的自动文摘属于自动摘录，通过选取文本中重要度较高的句子形成文摘，其主要步骤如下：预处理：将输入的文本或文本集的内容分割成句子得，构建图 G
2.2K00发布于 2018-07-30

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

CSS内嵌样式自动提取器

textrank算法原理与提取关键词、自动提取摘要PYTHON

textrank算法原理与提取关键词、自动提取摘要PYTHON

Python 自动化提取基因 CDS

Python 自动化提取基因的 CDS

数据采集:selenium 提取 Cookie 自动登陆

恶意样本自动化配置提取初探

Excel自动提取文本的特征关键字

机器学习特征提取 | 自动特征工程featuretools

TF-IDF应用：自动提取关键词、找相似文章、自动摘要

OpenTag模型：减少人工标注，自动提取产品属性值

Python自动提取生成博客园年度报告

hanlp中文智能分词自动识别文字提取实例

Python办公自动化｜批量提取Excel数据

AI网络爬虫：用kimichat自动批量提取网页内容

神技能-自动化批量从PDF里面提取表格

用深度学习提升DOM解析——自动提取页面关键区块

APKURLGrep自动化提取安卓apk URL工具分析

基于Python实现Word文档中图片的自动提取处理

一个Python自动提取内容摘要的实践

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐