搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏机器学习之旅
GolVe向量化做文本分类向量化文本分类
向量化在之前，我对向量化的方法一直局限在两个点，第一种是常规方法的one-hot-encoding的方法，常见的比如tf-idf生成的0-1的稀疏矩阵来代表原文本： ? 这种方法（这边以CBOW为例子）都是初始一个固定长度的随机向量作为每个单词的向量，制定一个目标词的向量，以上下文词向量的sum结果作为input进行前向传递，使得传递的结果和目标词向量尽可能一致，以修正初始的随机向量文本分类刚才开门见山的聊了蛮久向量化，看起来和文本分类没什么关系，确实在通常意义上来讲，我们的最简单最常用的方法并不是向量化的方法，比如通过朴素贝叶斯，N-Grams这些方法来做分类识别。 -e text8 ]; then # if hash wget 2>/dev/null; then # wget http://mattmahoney.net/dc/text8.zip # else # curl -O http://mattmahoney.net/dc/text8.zip # fi # unzip text8.zip # rm text8.zip #
2K40发布于 2018-10-08
来自专栏GiantPandaCV
INT8量化训练
【GiantPandaCV导读】本文聊了两篇做INT8量化训练的文章，量化训练说的与quantization-aware Training有区别，量化训练指的是在模型训练的前向传播和后向传播都有INT8 ，QAT)，QAT只在前向传播中，加入模拟量化，这个模型量化指的是把模型参数进行线性量化，然后在做矩阵运算之前，把之前量化的模型参数反量化回去浮点数。而量化训练则是在前向传播和后向传播都加入量化，而且做完矩阵运算再把运算的结果反量化回去浮点数。 Unified INT8也是类似minimize量化后梯度与原来梯度的量化误差Error的思想，与Distribution Adaptive INT8不同的是通过收敛性分析方程，发现可以通过降低学习率和减少梯度量化误差 Unified INT8也是类似minimize量化后梯度与原来梯度的量化误差Error的思想，Unified INT8是通过收敛性分析方程，发现了可以通过降低学习率和减少梯度量化误差。
1.4K30发布于 2021-04-30
来自专栏模型压缩
INT8量化训练
【导读】本文聊了两篇做INT8量化训练的文章，量化训练说的与quantization-aware Training有区别，量化训练指的是在模型训练的前向传播和后向传播都有INT8量化。，QAT)，QAT只在前向传播中，加入模拟量化，这个模型量化指的是把模型参数进行线性量化，然后在做矩阵运算之前，把之前量化的模型参数反量化回去浮点数。而量化训练则是在前向传播和后向传播都加入量化，而且做完矩阵运算再把运算的结果反量化回去浮点数。 Unified INT8也是类似minimize量化后梯度与原来梯度的量化误差Error的思想，与Distribution Adaptive INT8不同的是通过收敛性分析方程，发现可以通过降低学习率和减少梯度量化误差 Unified INT8也是类似minimize量化后梯度与原来梯度的量化误差Error的思想，Unified INT8是通过收敛性分析方程，发现了可以通过降低学习率和减少梯度量化误差。
1.6K00发布于 2021-06-06
来自专栏人工智能LeadAI
GolVe向量化做文本分类
向量化在之前，我对向量化的方法一直局限在两个点，第一种是常规方法的one-hot-encoding的方法，常见的比如tf-idf生成的0-1的稀疏矩阵来代表原文本： ? 这种方法（这边以CBOW为例子）都是初始一个固定长度的随机向量作为每个单词的向量，制定一个目标词的向量，以上下文词向量的sum结果作为input进行前向传递，使得传递的结果和目标词向量尽可能一致，以修正初始的随机向量文本分类刚才开门见山的聊了蛮久向量化，看起来和文本分类没什么关系，确实在通常意义上来讲，我们的最简单最常用的方法并不是向量化的方法，比如通过朴素贝叶斯，N-Grams这些方法来做分类识别。 -e text8 ]; then 10# if hash wget 2>/dev/null; then 11# wget http://mattmahoney.net/dc/text8.zip 12# else 13# curl -O http://mattmahoney.net/dc/text8.zip 14# fi 15# unzip text8.zip 16#
1.2K30发布于 2018-10-24
来自专栏R语言数据分析指南
如何向图形添加曲形文本
欢迎关注R语言数据分析指南 ❝本节来介绍如何在绘制图形中添加曲形文本，以往都是通过调整文本角度来展示看起来非常别扭但是使用「geomtextpath」包就显得丝滑了很多。手动设置填充颜色的比例尺，值分别为"#E6956F"和"#709AE1FF" annotate(geom='richtext', x = 1.5, y = 0, size = 4, # 添加富文本注释层填充为透明，标签颜色为透明 theme_void() + # 使用空白主题 theme(text = element_text(size = 9, color = "black"), # 设置文本大小为 legend.spacing.x = unit(0.05, "cm"), # 图例水平间距为0.05厘米 legend.text = element_text(color = "black", size = 8) , # 图例文本颜色为黑色，大小为8 plot.margin = unit(c(2, 2, 2, 2), "cm"), # 绘图区域的边距为2厘米 plot.background
4.6K20编辑于 2023-08-18
来自专栏量子化学
利用MOKIT从PySCF向其他量化程序传轨道
近期笔者和另一开发者wsr在MOKIT程序中加入了fchk(),py2molpro,py2molcas,py2qchem等模块，可用于从PySCF程序向其他量子化学程序传递分子轨道。（为什么不用Gaussian算完了传轨道给其他程序：因为Gaussian是商业收费程序，有的课题组/机构没买）（3）自己基于PySCF开发新方法，无现有程序对应，但希望正确地传轨道至下一个量化程序进行后续计算 8. .run() #CAS(6o,8e) fchk(mc, 'O2_cas6o8e.fch') 注意这里我们其实提前看过O2的ROHF轨道，或对O2的分子轨道十分熟悉才能直接写(6e,8o)，实际上是经过了观看注意Windows预编译版不支持本文功能，内含的是Gaussian与其他量化程序传轨道的小程序。
1.9K20编辑于 2022-12-07
来自专栏机器学习AI算法工程
PyTorch模型静态量化、保存、加载int8量化模型
所以，模型量化就是将训练好的深度神经网络的权值，激活值等从高精度转化成低精度的操作过程，例如将32位浮点数转化成8位整型数int8，同时我们期望转换后的模型准确率与转化前相近。大体可分为几类： 16位 8位最常见也相对成熟。各种主流框架和硬件都支持。 8位以下目前而言学界相对玩得多些，工业界有少量支持，但还没有太成熟。一般来说，对于8位量化，全局量化参数影响不明显，但到更低精度，就会对准确率有较大影响。 8、量化的挑战有哪些？ 1、多后端难点不同芯片后端的量化算法实现具有不同的特点。 PyTorch模型训练完毕后静态量化、保存、加载int8量化模型 1. pth_to_int.py是对Pytorch的float32模型转成int8模型。 evaluate_model.py里加载int8模型进行推理。 3.
8.5K42编辑于 2023-02-28
来自专栏量子化学
利用MOKIT从ORCA向其他量化程序传轨道
本文介绍如何使用MOKIT从ORCA向其他量化程序传轨道，有以下可能的用途：（1）在ORCA中进行了RIJK或RIJCOSX加速的大体系HF/DFT计算，想传轨道给其他程序进行后续计算，或想产生fch 为了让AMESP读入轨道，需要运行 a2m h2o.amo 即将h2o.amo文本文件转化为二进制文件h2o.mo，其中a2m是AMESP自带的小程序。 2. 8. ORCA传轨道给PSI4 mkl2psi h2o.mkl 会产生h2o.A和h2o.inp文件。前者含Alpha轨道，后者含坐标，基组和关键词。若读者在计算中使用全电子基组，自然无此问题；若用了赝势，按上文操作产生其他量化程序的文件不会含赝势信息，即使轨道系数正确，SCF也会剧烈振荡。这里笔者推荐一种解决办法： Step 1. 以防覆盖 mkl2fch ZnMe2_o.mkl # 将轨道传回ZnMe2_o.fch 后续可以使用fch2inp，fch2inporb，fch2com，bas_fch2py等小程序传给其他量化程序做计算
1.6K20编辑于 2023-09-03
来自专栏成长道路
文本型数据的向量化:TF-IDF
1.对于文本型数据的分类处理（或者其他的处理），根据ik和jcseg等分词器先对它们进行分词处理之后，大家都知道，计算机是处理不了汉字的，对于文本型的词我们如何才能让计算机处理呢？我们可以通过TF-IDF将文本型的数据向量化。对于TF-IDF的概念我就不再阐述，网上的资源非常多，这里我主要来看看是如何实现的。
2.1K00发布于 2017-12-28
来自专栏数据派THU
文本向量化的六种常见模式
来源：机器学习AI算法工程本文约1000字，建议阅读5分钟本文介绍了文本向量化的6种常见模式。一、文本向量化文本向量化：将文本信息表示成能够表达文本语义的向量，是用数值向量来表示文本的语义。词嵌入(Word Embedding)：一种将文本中的词转换成数字向量的方法，属于文本向量化处理的范畴。向量嵌入操作面临的挑战包括：（1）信息丢失：向量表达需要保留信息结构和节点间的联系。（2）可扩展性：嵌入方法应具有可扩展性，能够处理可变长文本信息。（3）维数优化：高维数会提高精度，但时间和空间复杂性也被放大。首先根据提供的文本构建词典，其中的数字可以视作对应词语的标签信息或者事物的分类信息。先将句子向量化，句子维度和字典维度一致，第 i 维上的数字代表 ID 为 i 的词语在该句子里出现的频率。
8.1K41编辑于 2023-03-29
来自专栏计算机视觉工坊
向文本到图像扩散模型添加条件控制
Disco Diffusion 是 [9] 的剪辑引导实现，用于处理文本提示。稳定扩散是潜在扩散[44]的大规模实施，以实现文本到图像的生成。考虑一个 1×1 的卷积层，权重为 W，偏差为 B，在任意空间位置 p 和通道索引 i，给定输入映射 I ∈ Rh×w×c，前向传递可以写为并且由于零卷积具有 W = 0 和 B = 0（优化前），这 12 个块有 4 种分辨率（64×64、32×32、16×16、8×8），每种分辨率有 3 个块。输出被添加到 U-net 的 12 个跳过连接和 1 个中间块。在这种情况下，术语“图像”、“像素”和“去噪”都指的是“感知潜在空间”中的相应概念[44] 给定图像 z0，扩散算法逐渐向图像添加噪声并产生噪声图像 zt，其中 t 是添加噪声的次数。该模型使用与 Stability 的 Depth-to-Image 模型完全相同的方法进行训练（向 SD 添加通道并继续训练）图 21 显示了训练过程。
4K41编辑于 2023-02-24
来自专栏深度学习那些事儿
一起实践量化番外篇——TensorRT-8的量化细节
一起实践量化番外篇——TensorRT-8的量化细节好久不见各位~ 这篇文章很久之前写完一直没有整理，最近终于是整理差不多了，赶紧发出来。本文接着《必看部署系列-神经网络量化教程：第一讲！》而后者显式量化是在8版本后才完全支持，具体就是可以加载带有QDQ信息的模型然后生成对应量化版本的engine。两种量化模型的一些支持情况：与隐式量化相关性较强的是训练后量化。 QDQ模块会参与训练，负责将输入的FP32张量量化为INT8，随后再进行反量化将INT8的张量在变为FP32。，然后在输入A这个op时会经过Q（即量化）操作，这个时候操作A我们会默认是INT8类型的操作，A操作之后会经过DQ（即反量化）操作将A输出的INT8类型的结果转化为FP32类型的结果并传给下一个FP32 Q算子负责FP32->INT8，而DQ算子负责INT8->FP32，被QDQ包起来的算子理所应当就是量化算子（或者说准备被量化、可以被量化的算子，这句话有待揣摩...）。
4.4K51编辑于 2023-10-19
来自专栏机器学习算法原理与实践
文本挖掘预处理之向量化与Hash Trick
　　　　在文本挖掘的分词原理中，我们讲到了文本挖掘的预处理的关键一步：“分词”，而在做了分词后，如果我们是做文本分类聚类，则后面关键的特征预处理步骤有向量化或向量化的特例Hash Trick，本文我们就对向量化和特例词袋模型首先会进行分词，在分词之后，通过统计每个词在文本中出现的次数，我们就可以得到该文本基于词的特征，如果将各个文本样本的这些词与对应的词频放在一起，就是我们常说的向量化。词袋模型之向量化　　　　在词袋模型的统计词频这一步，我们会得到该文本中所有词的词频，有了词频，我们就可以用词向量表示这个文本。 1 (1, 6) 1 (1, 14) 1 (1, 3) 1 (2, 1) 1 (2, 0) 1 (2, 12) 1 (2, 7) 1 (3, 10) 1 (3, 8) Hash Trick 　　　　在大规模的文本处理中，由于特征的维度对应分词词汇表的大小，所以维度可能非常恐怖，此时需要进行降维，不能直接用我们上一节的向量化方法。
89520发布于 2018-08-14
来自专栏数据森麟
Panda处理文本和时序数据？首选向量化
更重要的是，这种向量化操作不仅适用于数值计算，对于文本和时间格式也有着良好的支持，而这就不得不从Pandas的属性接口谈起。 ? Pandas中的向量化，就像6个Pandas一样说起Pandas中的属性接口，首先要从数据类型谈起。数值型操作是所有数据处理的主体，支持程度自不必说，布尔型数据在Pandas中其实也有较好的体现，即通过&、|、~三种位运算符也相当于是实现了向量化的并行操作，那么对于字符串和时间格式呢？属性可调用一系列的字符串方法函数，其中这里的字符串方法不仅涵盖了Python中内置的字符串通用方法，比如split、strim等，还实现了正则表达式的绝大部分功能，包括查找、匹配和替换等、这对于Pandas处理文本数据来说简直是开挂一般的存在 03 小结一门编程语言中的基本数据类型无非就是数值型、字符串型、时间型以及布尔型，Pandas为了应对各种数据格式的向量化操作，针对字符串和时间格式数据专门提供了str和dt两个属性接口（数值型数据天然支持向量化操作
1.2K20发布于 2021-03-09
来自专栏小数志
Panda处理文本和时序数据？首选向量化
导读 Pandas作为Python数据分析的首选框架，不仅功能强大接口丰富，而且执行效率也相比原生Python要快的多，这是得益于Pandas底层由C实现，同时其向量化执行方式也非常利于并行计算。更重要的是，这种向量化操作不仅适用于数值计算，对于文本和时间格式也有着良好的支持，而这就不得不从Pandas的属性接口谈起。 ? Pandas中的向量化，就像6个Pandas一样说起Pandas中的属性接口，首先要从数据类型谈起。属性可调用一系列的字符串方法函数，其中这里的字符串方法不仅涵盖了Python中内置的字符串通用方法，比如split、strim等，还实现了正则表达式的绝大部分功能，包括查找、匹配和替换等、这对于Pandas处理文本数据来说简直是开挂一般的存在 03 小结一门编程语言中的基本数据类型无非就是数值型、字符串型、时间型以及布尔型，Pandas为了应对各种数据格式的向量化操作，针对字符串和时间格式数据专门提供了str和dt两个属性接口（数值型数据天然支持向量化操作
1.5K10发布于 2021-02-03
来自专栏智慧协同
CSS实现文本向两端对齐的方法
实现方法如下： .test1 { text-align:justify; text-justify:distribute-all-lines;/*ie6-8*/ text-align-last
1.8K10发布于 2019-06-13
来自专栏数据指象
向智而行：浅谈文本相似度的计算
文本是由多种词性的字词通过系统的语法规则组成而成的具有上下文语义的字词串。根据文本的定义，我们可以将文本的相似度分为两种：一，是文本包含字词的相似度；二，是文本内含语义的相似度。比如：文本1：我很喜欢这些小动物。（主+谓+宾）文本2：这些小动物，我很喜欢。（倒装句）我们可以轻松的看出这两个文本中所有的字词是一样的（也就是说字词的相似度是100%），同时在忽略上下文来看两个文本的语义也是极度相似。 2，将文本1、文本1 进行分词拆解，并找到对应的字词位置编码，这个过程叫做编码，编码的过程是将文本数字化，方便计算机的计算。比如：常有的余弦相似度计算公式可以计算得到两个文本的相似度为：1 ，文本的字词相似度是100%。计算机的算法擅长度量文本的字词相似度，却很难度量文本之间的语义相似度。
35710编辑于 2024-05-22
来自专栏机器学习AI算法工程
用Python开始机器学习：文本特征抽取与向量化
这类问题处理的第一步，就是将文本转换为特征。因此，这章我们只学习第一步，如何从文本中抽取特征，并将其向量化。比如本文使用的数据集共有2个标签，一个为“net”，一个为“pos”，每个目录下面有6个文本文件。这样，求出每个文档中，每个单词的TF-IDF，就是我们提取得到的文本特征值。 3、向量化有了上述基础，就能够将文档向量化了。我们先看代码，再来分析向量化的意义： [python] view plaincopy # -*- coding: utf-8 -*- import scipy as sp import numpy 上表的结果，就是训练8个样本的8个特征的一个结果。这个结果就可以使用各种分类算法进行分类了。
3.2K140发布于 2018-03-13
来自专栏机器学习、深度学习
CNN模型 int8量化实现方式（二）
那下面简单的命令就可以完成卸载了 sudo pip uninstall tensorflow_gpu sudo pip3 uninstall tensorflow_gpu 这里介绍一个完全基于 Tensorflow 的模型量化方法 /convert_weights_pb.py 2）完全基于 Tensorflow 的量化 https://blog.csdn.net/u011961856/article/details/76736103 1.源码编译安装tensorflow 可参考 https://blog.csdn.net/u011961856/article/details/76725411 2 编译量化工具 sudo bazel build tensorflow/tools/quantization:quantize_graph 3.模型量化: sudo bazel-bin/tensorflow/tools/quantization ，处于开发阶段，tensorflow lite 是应该已经支持量化模型的运行，而 tensorflow 本身的支持很有限，貌似正在集成
1.9K40发布于 2019-05-26
来自专栏机器学习、深度学习
CNN模型 INT8 量化实现方式（一）
当前CNN模型基本都是 float32，将其转换为 INT8 可以降低模型大小，提升速度，精度降低的也不太多。那么在实际中如何实现这个量化了？这里主要涉及两个问题：1）就是 int8量化；2）就是 int8 模型的使用基于Caffe-Int8-Convert-Tools进行caffe模型转int8量化在 NCNN 框架上运行 https ://blog.csdn.net/u014644466/article/details/83278954 首先是基于 Caffe-Int8-Convert-Tools 这个工具进行 int8量化 https://github.com/BUG1989/caffe-int8-convert-tools int8 模型的使用 How to use Int8 inference https://github.com /Tencent/ncnn/pull/487 https://github.com/Tencent/ncnn/wiki/quantized-int8-inference#caffe-int8-convert-tools
5.2K20发布于 2019-05-26

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

GolVe向量化做文本分类向量化文本分类

INT8量化训练

INT8量化训练

GolVe向量化做文本分类

如何向图形添加曲形文本

利用MOKIT从PySCF向其他量化程序传轨道

PyTorch模型静态量化、保存、加载int8量化模型

利用MOKIT从ORCA向其他量化程序传轨道

文本型数据的向量化:TF-IDF

文本向量化的六种常见模式

向文本到图像扩散模型添加条件控制

一起实践量化番外篇——TensorRT-8的量化细节

文本挖掘预处理之向量化与Hash Trick

Panda处理文本和时序数据？首选向量化

Panda处理文本和时序数据？首选向量化

CSS实现文本向两端对齐的方法

向智而行：浅谈文本相似度的计算

用Python开始机器学习：文本特征抽取与向量化

CNN模型 int8量化实现方式（二）

CNN模型 INT8 量化实现方式（一）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐