首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Python与算法之美

    6,特征的提取

    我们将简要介绍一些常用的特征提取方法: 字典加载特征:DictVectorizer 文本特征提取: 词频向量(CountVectorizer) TF-IDF向量(TfidfVectorizer,TfidfTransformer ) 特征哈希向量(HashingVectorizer) 图像特征提取: 提取像素矩阵 一,字典加载特征 用python中的字典存储特征是一种常用的做法,其优点是容易理解。 二,文本特征提取 1,字频向量(CountVectorizer) 词库模型(Bag-of-words model)是文字模型化最常用方法,它为每个单词设值一个特征值。 对于对中文文本进行词频特征提取,可以先用jieba进行分词。 ? ? ? 2,Tf–idf权重向量 单词频率对文档意思有重要作用,但是在对比长度不同的文档时,长度较长的文档的单词频率将明显倾向于更大。 三,图片特征提取 图片特征提取的最常用方法是获取图片的像素矩阵,并将其拼接成一个向量。 ? ? ? ?

    1.3K31发布于 2020-07-17
  • 来自专栏阿炬.NET

    CSS内嵌样式自动提取

    逐行分析,将内联样式提取出来,并自动编号代替的一个小工具软件 注:style=""(此处必须是标准的双引号!) 

    1.6K70发布于 2018-05-11
  • 来自专栏脑机接口

    eeglab教程系列(6)-提取数据epoch

    为了研究连续记录数据的事件相关脑电图动力学,可以通过选择Tools > Extract Epochs来提取与感兴趣事件锁定的数据时间段(例如,数据时间段锁定为一类实验刺激的集合)。

    1.5K50编辑于 2022-08-17
  • 来自专栏深度学习之tensorflow实战篇

    textrank算法原理与提取关键词、自动提取摘要PYTHON

    其基本思想来源于谷歌的 PageRank算法(其原理在本文在下面), 通过把文本分割成若干组成单元(单词、句子)并建立图模型, 利用投票机制对文本中的重要成分进行排序, 仅利用单篇文档本身的信息即可实现关键词提取 基于TextRank的关键词提取   关键词抽取的任务就是从一段给定的文本中自动抽取出若干有意义的词语或词组。 (6)由(5)得到最重要的T个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词关键词。 基于TextRank的自动文摘   基于TextRank的自动文摘属于自动摘录,通过选取文本中重要度较高的句子形成文摘,其主要步骤如下:   (1)预处理:将输入的文本或文本集的内容分割成句子得 ?

    3.2K20发布于 2019-02-14
  • 来自专栏深度学习之tensorflow实战篇

    textrank算法原理与提取关键词、自动提取摘要PYTHON

    其基本思想来源于谷歌的 PageRank算法(其原理在本文在下面), 通过把文本分割成若干组成单元(单词、句子)并建立图模型, 利用投票机制对文本中的重要成分进行排序, 仅利用单篇文档本身的信息即可实现关键词提取 基于TextRank的关键词提取   关键词抽取的任务就是从一段给定的文本中自动抽取出若干有意义的词语或词组。 (6)由(5)得到最重要的T个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词关键词。 基于TextRank的自动文摘   基于TextRank的自动文摘属于自动摘录,通过选取文本中重要度较高的句子形成文摘,其主要步骤如下:   (1)预处理:将输入的文本或文本集的内容分割成句子得 ?

    5.9K60发布于 2018-03-19
  • 来自专栏生信菜鸟团

    Python 自动提取基因 CDS

    self.feature.qualifiers key = object else: obj = object # 为字符,提取 records: print(f"{record.id}") for feature in record.features: # 提取 2 提取单个基因CDS main.py from BaimoTools import BaimoTools gb_file = f"res/genbank/SARS-CoV-2.gb" fasta_file 3 提取多个基因CDS main.py from BaimoTools import BaimoTools gb_file = f"res/genbank/SARS-CoV-2.gb" fasta_file 下一步更新其他基因特征提取,及格式转换功能。

    1.2K10发布于 2021-03-23
  • 来自专栏生信情报站

    Python 自动提取基因的 CDS

    文章目录 一、环境准备及背景介绍 二、Python 实现 三、使用示例 数据介绍 1、提取单个基因CDS 2、提取多个基因CDS 2、提取全部基因CDS 一、环境准备及背景介绍 Python 开发环境 序列处理:生物信息中的 Python 02 | 用biopython解析序列 示例 Genbank 数据:下载链接 Genbank 数据介绍:生物信息中的Python 05 | 从 Genbank 文件中提取 self.feature.qualifiers key = object else: obj = object # 为字符,提取 下一步更新其他基因特征提取,及格式转换功能 我的博客即将同步至腾讯云+社区,邀请大家一同入驻:https://cloud.tencent.com/developer/support-plan? invite_code=1cy01nvbylvi6

    1.9K20发布于 2021-01-12
  • 来自专栏iSharkFly

    Confluence 6 附件存储提取文本文件

    当基于文本的文件上传到 Confluence(例如,Word,PowerPoint 等),这些文件中的文本是可以提取并且添加到索引中的,用户可以通过索引来搜索这些文件中的文本内容,不仅仅是搜索文件名。 当文件需要被重新索引的时候,我们存储提取后的文本,我们不需要对文本中的内容重新进行索引。 提取后的文本文件,通常是以版本号进行命名的,例如 2.extracted_text, 同时还会存储文件自己的版本(如上面第八级目录中描述的)。 我们只保存提取后文件的最新的版本,而不是和文件一样同时还保存了早期的版本。 https://www.cwiki.us/display/CONF6ZH/Hierarchical+File+System+Attachment+Storage

    52930发布于 2019-01-31
  • 来自专栏山河已无恙

    数据采集:selenium 提取 Cookie 自动登陆

    写在前面 工作需要,简单整理 博文内容涉及 通过 selenium 实现自动登陆 理解不足小伙伴帮忙指正 「 对每个人而言,真正的职责只有一个:找到自我。然后在心中坚守其一生,全心全意,永不停息。 是随波逐流,是对内心的恐惧 ——赫尔曼·黑塞《德米安》」 ---- 未登陆用户 保存 cookie 假设登陆用户名为 : chinaz_735287 我们需要获取一些 CDN 的数据,代码很简单,不做说明,自动登陆 json.dump(browser.get_cookies(), f) browser.close() print("cookie保存完成,游览器已自动退出 "sameSite": "Lax", "secure": false, "value": "1692588387" } ] 使用 cookie 自动登陆 from seleniumwire import webdriver import json import time # 自动登陆 browser = webdriver.Chrome() with

    71820编辑于 2023-09-11
  • 来自专栏红队蓝军

    恶意样本自动化配置提取初探

    ,在前面奇安信攻防社区-APT 恶意 DLL 分析及 C2 配置提取(子 DLL 篇) 分析的基础上尝试编写自动化配置提取,如有错误还请指正。 vscode 样本IOC: HASH 值 MD5 4e22717b48f2f75fcfd47531c780b218 SHA1 60b637e95b1f2d14faaa71085b7e26321bfeeb6d SHA256 7f94107c9becbcc6ca42070fca7e1e63f29cdd85cbbd8953bbca32a1b4f91219 ECC 密钥提取: 首先在 IDA 或 XDBG 中定位到解密的代码的特征数据区 ) as f: file_data = f.read() print(yara_scan(file_data)) #返回的结果为 {'$ref_ecc': '0xee6d 和前面一样,我们使用 xor 函数解密,不同的是这里提取的是 IP ,所以我们需要引用 IP 相关的标准库 socket。

    66120编辑于 2023-09-22
  • 来自专栏wujunmin

    Excel自动提取文本的特征关键字

    使用Excel Power Query的两个函数,可以做个全自动模板,实现此功能,实现步骤如下: 1.将文本和特征量均导入Power Query Excel 2016及以上在数据选项卡下,Excel2013

    2.8K30发布于 2021-09-07
  • 来自专栏技术探究

    爬虫系列(6)数据提取--正则表达式。

    提取数据 在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式! 正则表达式是用来匹配字符串非常强大的工具,在其他编程语言中同样有正则表达式的概念,Python同样不例外,利用了正则表达式,我们想要从返回的页面内容提取出我们想要的内容就易如反掌了 规则: 模式 描述

    1.5K30发布于 2019-07-10
  • 来自专栏深度学习思考者

    机器学习特征提取 | 自动特征工程featuretools

    本文介绍了Featuretools的基本概念、安装、快速入门以及五分钟快速开始。通过本文,读者可以快速掌握Featuretools,了解其基本概念和使用方式,从而在数据分析和机器学习项目中更高效地使用Featuretools。

    1.9K50发布于 2018-01-02
  • 来自专栏医学和生信笔记

    1行代码提取6种TCGA表达矩阵2.0版

    之前写了一个脚本,可以让大家1行代码提取6种类型的表达矩阵以及对应的临床信息。但是很多人完全看不见注意事项或者根本看不懂,所以我决定改动一下。 所以我改了一下脚本,1行代码下载并整理6种类型的TCGA表达矩阵和临床信息!! 主要是以下改进: 在任何位置都可以运行,不需要构建路径! 会自动下载数据,不需要手动下载 2.0版本的脚本我也放在了QQ群里,需要的加群下载即可。 使用方法和之前一模一样!! 但我还是建议你先看一下使用注意!! getTCGAexpr(project = "TCGA-LUSC") 这个脚本会自动从GDC官网下载最新的数据,所以需要联网,如果你的网络不好,可以手动下载,按照这篇推文自己构建合适的路径:手动下载的 完成后会在当前目录多出一个output_expr文件夹,里面就是6个表达矩阵和临床信息 提取好的表达矩阵和临床信息 TCGA-LUSC_expr.rdata:原始的se对象,所有信息都是从这里面提取

    1.1K21编辑于 2022-11-15
  • 来自专栏机器学习AI算法工程

    TF-IDF应用:自动提取关键词、找相似文章、自动摘要

    有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到? 假定现在有一篇长文《中国的蜜蜂养殖》,我们准备用计算机提取它的关键词。 一个容易想到的思路,就是找到出现次数最多的词。如果某个词很重要,它应该在这篇文章中多次出现。 所以,自动提取关键词的算法就很清楚了,就是计算出文档的每个词的TF-IDF值,然后按降序排列,取排在最前面的几个词。 除了自动提取关键词,TF-IDF算法还可以用于许多别的地方。 然后,找出包含分值最高的簇的句子(比如5句),把它们合在一起,就构成了这篇文章的自动摘要。

    4.6K171发布于 2018-03-13
  • 来自专栏小狼的世界

    Python自动提取生成博客园年度报告

    上面这些内容,是通过 Python 脚本自动生成的。代码在后面可以看到,也可以参考我的 GitHub。当然现在统计的内容还不太完善,毕竟是用一天时间撸出来的,如果大家有更好的想法,欢迎提交代码。

    74210发布于 2021-01-05
  • 来自专栏hadoop学习笔记

    hanlp中文智能分词自动识别文字提取实例

    一个智能的分词系统可以让销售人员一键识别以上各种信息 经过调研,找到了一下开源项目 1、word 分词器 2、ansj 分词器 3、mmseg4j 分词器 4、ik-analyzer 分词器 5、jcseg 分词器 6、      String phone = ""; 4     String name = ""; 5     List<Term> terms = NLPTokenizer.segment(str); 6     

    3.5K00发布于 2018-11-30
  • 来自专栏进击的Coder

    OpenTag模型:减少人工标注,自动提取产品属性值

    例如输入为:目标属性:品牌、口味和尺寸产品标题:“5 包装塞萨尔犬类美食多样包菲力牛柳和 T 骨牛排狗粮(12 小包)”产品描述:“多样包装包括:6 盘菲力牛排味”我们想提取的是“塞萨尔”(品牌),“菲力牛柳 ”和“T 骨牛排”(口味)以及“6 盘”(尺寸)作为对应的模型输出。 表 6 由于联合提取多属性值能够利用他们的分布式语义信息,因此比单独提取的效果要好,如表 6 所示。尽管品牌和容量这两个属性值的联合提取分数提高了,但是味道属性的提取分数略有下降。 图 6 下面我们探索主动学习在多大程度上可以减轻人为标注的负担。我们用很少的标注实例(50 个)作为初始训练集 L。 如图 6 所示,我们仅用了大概 150 个训练实例就达到了类似的表现水平。这一结果表明,OpenTag 结合采用 TF 策略的主动学习可以大量减少对标注数据的需求。

    1.9K20发布于 2019-09-04
  • 来自专栏Dance with GenAI

    AI网络爬虫:用kimichat自动批量提取网页内容

    lobehub.com/zh/assistants 定位class="layoutkit-flexbox css-15l7r2q acss-vjqh32"的div标签; 定位div标签里面所有的a标签, 提取 ,写入”提示词.xlsx”这个Excel文件的第1列,列的标头为:提示词标题; 在源代码中定位class="layoutkit-flexbox css-o3n4io acss-pl6lf1"的h2标签, 提取其文本内容作为提示词简介,写入”提示词.xlsx”这个Excel文件的第2列,列的标头为:提示词简介; 在源代码中定位class="acss-7ksih7"的div标签,提取其全部文本内容作为提示词内容 h2标签文本内容 h2_tag = soup.find('h2', class_='layoutkit-flexbox css-o3n4io acss-pl6lf1') introduction = h2 _tag.get_text(strip=True) if h2_tag else '无简介' # 提取div标签文本内容 div_tag = soup.find('div', class_='acss-

    91811编辑于 2024-06-24
  • 来自专栏早起Python

    Python办公自动化|批量提取Excel数据

    大家好,又到了Python办公自动化系列。 今天我们来讲解一个比较简单的案例,使用openpyxl从Excel中提取指定的数据并生成新的文件,之后进一步批量自动化实现这个功能,通过本例可以学到的知识点: openpyxl模块的运用 glob模块建立批处理 数据源:阿里云天池的电商婴儿数据(可自行搜索并下载,如果要完成进阶难度可直接将该数据Excel拷贝999次即可,当然这个拷贝可以交给代码来实现) 需求说明 初级难度:提取电商婴儿数据.xlsx中购买数 其实如果你仔细思考会发现这个需求使用pandas会以更简洁的代码实现,但是由于我们之后的Python办公自动化案例中会频繁使用openpyxl,并且在操作Excel时有更多的功能,因此在之后我们将主要讲解如何使用这个 最后还是希望大家能够理解Python办公自动化的一个核心就是批量操作-解放双手,让复杂的工作自动化!

    4.1K20发布于 2020-07-22
领券