首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏机器学习之旅

    GolVe向量化做文本分类向量文本分类

    向量化 在之前,我对向量化的方法一直局限在两个点, 第一种是常规方法的one-hot-encoding的方法,常见的比如tf-idf生成的0-1的稀疏矩阵来代表原文本: ? 这种方法简单暴力,直接根据文本中的单词进行one-hot-encoding,但是数据量一但大了,这个单句话的one-hot-encoding结果会异常的长,而且没办法得到词与词之间的关系。 这种方法(这边以CBOW为例子)都是初始一个固定长度的随机向量作为每个单词的向量,制定一个目标词的向量,以上下文词向量的sum结果作为input进行前向传递,使得传递的结果和目标词向量尽可能一致,以修正初始的随机向量 文本分类 刚才开门见山的聊了蛮久向量化,看起来和文本分类没什么关系,确实在通常意义上来讲,我们的最简单最常用的方法并不是向量化的方法,比如通过朴素贝叶斯,N-Grams这些方法来做分类识别。 举个例子:存在一句话"我爱中国",“我”的向量是[0.3,0.2,0.3],"爱"的向量是[0.1,0.2,0.3],“中国”的向量是[0.6,0.6,0.4],那么average后就是[0.5,0.5,0.5

    2K40发布于 2018-10-08
  • 来自专栏AI技术探索和应用

    AIGC之文本和图片生成向量

    文本和图片生成向量的方式一般是通过已有的模型进行生成,在流行的模型托管平台上已有大量开源的Embedding模型,如国外的HuggingFace平台和国内的ModelScope平台。 接下来将对文本生成向量和图片生成向量在不同平台SDK下使用方式进行简单介绍。 文本生成向量 OpenAI(官方收费) 安装依赖。 pip install -U openai 文本生成向量示例如下。 pip install -U transformers 文本生成向量示例如下。若本地缓存不存在该模型,默认会从HuggingFace上下载该模型到本地。 ModelScope封装了统一的接口对外提供单句向量表示、双句文本相似度、多候选相似度计算功能。 安装依赖。 pip install -U modelscope 文本生成向量示例如下。 pip install -U towhee 文本生成向量示例如下。

    2.9K31编辑于 2024-03-13
  • 来自专栏深度学习|机器学习|歌声合成|语音合成

    基于词向量文本查重

    基于词向量文本查重 import gensim import numpy as np import jieba from gensim.models.doc2vec import Doc2Vec, LabeledSentence model_dm = Doc2Vec(x_train, min_count=1, window=3, size=size, sample=1e-3, negative=5, workers=4)

    1.3K10发布于 2021-01-14
  • 来自专栏人工智能LeadAI

    GolVe向量化做文本分类

    向量化 在之前,我对向量化的方法一直局限在两个点, 第一种是常规方法的one-hot-encoding的方法,常见的比如tf-idf生成的0-1的稀疏矩阵来代表原文本: ? 这种方法简单暴力,直接根据文本中的单词进行one-hot-encoding,但是数据量一但大了,这个单句话的one-hot-encoding结果会异常的长,而且没办法得到词与词之间的关系。 这种方法(这边以CBOW为例子)都是初始一个固定长度的随机向量作为每个单词的向量,制定一个目标词的向量,以上下文词向量的sum结果作为input进行前向传递,使得传递的结果和目标词向量尽可能一致,以修正初始的随机向量 文本分类 刚才开门见山的聊了蛮久向量化,看起来和文本分类没什么关系,确实在通常意义上来讲,我们的最简单最常用的方法并不是向量化的方法,比如通过朴素贝叶斯,N-Grams这些方法来做分类识别。 u)\b\w+\b是为了匹配出长度为1及以上的词,默认的至少需要词长度为2 4# ngram_range:这边我做了3-grams处理,如果只想朴素计算的话(1,1)即可 5# max_features

    1.2K30发布于 2018-10-24
  • 来自专栏机器学习算法与Python学习

    支持向量机(SVM)--(4)

    回忆:在上一篇文章中我们谈到为了使支持向量机能够处理非线性问题,进而引进核函数,将输入空间的输入数据集通过一个满足Mercer核条件的核函数映射到更高维或者无线维的希尔伯特再生核空间,将线性不可分转化成 对于这种偏离正常位置很远的数据点,我们称之为离群点Outlier ,在我们原来的支持向量机模型里,离群点的存在有可能造成很大的影响,因为超平面本身就是只有少数几个支持向量组成的,如果这些支持向量里又存在离群点的话 换言之,在有松弛的情况下,离群点也属于支持向量,同时,对于不同的支持向量,Lagrange 参数的值也不同,如此篇论文“Large Scale Machine Learning”中图所示(图下图),对于远离分类平面的点值为 这样一来,一个完整的,可以处理线性和非线性并能容忍噪音和离群点的支持向量机才终于介绍完毕了。 到这儿未知,支持向量机的基本理论已经基本说完了,但是学习svm也是为了应用,所以建议大家去斯坦福大学的UCI数据库下载一些分类数据做一些尝试。

    1.1K60发布于 2018-04-04
  • 来自专栏韩曙亮的移动开发专栏

    【AI 大模型】RAG 检索增强生成 ② ( 关键字检索 | 向量检索 | 向量简介 | 二维空间向量计算示例 | 文本向量 - 重点 ★★ | 文本向量示例 )

    3、文本向量 ( 重点 ★★ ) 文本向量 一般是 通过 Word2Vec / GloVe 词嵌入模型 表示 , 嵌入 英文为 Embedding , 因此 文本向量 又称为 " Embeddings " ; 文本向量 是 将 每个汉子 或 单词 映射到一个低维的连续向量空间中 , 捕捉词之间的语义关系 , 每个 汉子 或 单词 转为一组浮点数 , 每个浮点数都有一个下标 i , 有多少个维度 , 就有多少个浮点数 ; 在 n 维向量空间中 , 每个 文本向量 之间 , 都可以计算出一个距离 , 这个距离的远近就是 语义的相似度 ; 文本向量 常见方法 : Word2Vec : 通过 " 连续词袋 " 或 " 跳字模型 " 训练 词向量 ; GloVe : 通过 词汇共现矩阵 生成词向量 ; FastText : 考虑词的子词信息 , 改进了词向量的表现 ; 文本向量表示方式 : 每个 汉字 或 单词 都有一个 固定维度 的向量 , 如 : " 猫 " 可能表示为 [0.25, -0.58, 0.37, ...] , 有多少维度 , 就有几个数字 ; 4文本向量示例 ( 重点 ★ ) 下图中

    90711编辑于 2024-08-29
  • Doris 4.x AI:一站式搞定文本向量搜索+智能分析!

    ★注意:组件越多,复杂度就会越高~ Apache Doris 4.x 的 AI 能力,从底层把全文检索、向量搜索和 AI 函数原生集成到同一个实时分析引擎中,让你在一个系统里完成“结构化分析 + 文本搜索 在 Doris 4.x 之前,企业处理“结构化 + 非结构化数据”的 AI 需求时,普遍面临三大痛点: 架构复杂 典型方案往往是:数仓(如 Doris/Hive)+ 向量库 + 搜索引擎 + AI 引擎 二、核心 AI 能力:文本搜索、向量搜索、AI 函数 Doris 4.x 的 AI 能力主要围绕三大模块展开:文本搜索、向量搜索、AI 函数,全部通过 SQL 原生调用。 1. 数据同源,降低同步与延迟成本 结构化数据、文本数据、向量数据都存储在 Doris 中,避免跨系统同步; 查询可以在同一执行计划中完成“结构化过滤 + 文本检索 + 向量匹配 + AI 分析”,减少网络与序列化开销 简化架构 在一个 Doris 集群中完成结构化分析、文本搜索、向量检索和 AI 调用,减少对独立搜索/向量引擎的依赖,降低系统数量和运维复杂度。

    49810编辑于 2026-01-27
  • 来自专栏自动化测试实战

    深度学习NLP - 优化器、文本向量

    更新的步长能够被限制在大致的范围内(初始学习率) 能够表现出自动调整学习率 很适合应用于大规模的数据及参数的场景 适用于不稳定的目标函数 适用于梯度稀疏或梯度存在很大噪声的问题 SGD 将字符转换为向量 requires_grad=True) ################ # 这里是根据字符表,把abcd转换成了对应的字符表里的数字 [0, 1, 2, 3] [3, 3, 2, 1] torch.Size([2, 4] 0.0910, 0.0198, -0.0213, -0.0097, -1.9152]]], grad_fn=<EmbeddingBackward0>) torch.Size([2, 4, 因为我们在进行文本处理时或者叫输入时,很难确定输入文本的长度,所以我们根据一般情况,取大部分文本长度作为标准处理,当然,你肯定不能取少了,基本都在90%或者95%以上,比如有三句话: 我今天写代码 我今天做功能测试 但一般文本量都是巨大的,比如一共有20万句话,如果有5%的句子丢失了一部分语义信息,那这个模型仍然是可以训练的。

    25410编辑于 2024-04-25
  • 来自专栏黯羽轻扬

    文本_bash笔记4

    grep 用于文本搜索,匹配文件内容,语法格式为:grep pattern filename,例如: # 找出所有含有for的行 grep 'for' test.sh # 对多个文件进行搜索 grep "想做个好人" | cut -b 2-4 # -n选项不分割多字节字符,得到`想` echo "想做个好人" | cut -n -b 2-4 sed stream editor,非交互式的编辑器,常用的文本处理工具 ,最常用的功能是文本替换: # 删除行开头的空白字符 echo $' \t 我想左对齐' | sed $'s/^[[:space:]]*\t*//g' 另一个常用功能是文件原地替换(替换并把结果写入原文件 '{print 1"-"2"-"3}' 内置变量 awk里有一些特殊的内置变量: NR:number of records,当前行号 NF:number of fields,当前行字段数 $0:当前行文本内容 $123…:当前行第n个字段的文本内容 所以有更简单的统计行数的方式: echo $'1 2\n3 4' | awk 'END{print NR}' 每读一行更新NR,执行到END块时就是总行数 注意

    1.1K30发布于 2019-06-12
  • 来自专栏数据派THU

    文本向量化的六种常见模式

    来源:机器学习AI算法工程 本文约1000字,建议阅读5分钟 本文介绍了文本向量化的6种常见模式。 一、文本向量文本向量化:将文本信息表示成能够表达文本语义的向量,是用数值向量来表示文本的语义。 词嵌入(Word Embedding):一种将文本中的词转换成数字向量的方法,属于文本向量化处理的范畴。向量嵌入操作面临的挑战包括: (1)信息丢失:向量表达需要保留信息结构和节点间的联系。 常见的文本向量和词嵌入方法包括独热模型(One Hot Model),词袋模型(Bag of Words Model)、词频-逆文档频率(TF-IDF)、N元模型(N-Gram)、单词-向量模型(Word2vec 首先根据提供的文本构建词典,其中的数字可以视作对应词语的标签信息或者事物的分类信息。 然后基于独热编码表达法,构造一个N维向量,该向量的维度与词典的长度一直,对于给定词语进行向量表达时,其在词典中出现的响应位置的寄存器赋值为1,其余为0示例如下: 三、词袋模型  词袋模型(Bag-of-words

    8.1K41编辑于 2023-03-29
  • 来自专栏云云众生s

    增强文本搜索的SQL向量数据库

    性能测试表明,将 Tantivy 的全文搜索引擎库集成到向量搜索中可以显著提高速度和性能。 为了增强文本搜索功能,MyScaleDB,一个针对向量搜索进行了 优化 的 ClickHouse 开源分支,集成了 Tantivy,一个全文搜索引擎库。 它还使在检索增强生成 (RAG) 中 利用 MyScaleDB 的用户受益,其中使用了大语言模型 ( LLM ),结合向量文本搜索以提高准确性。 它专为速度和效率而设计,尤其是在处理大量文本数据时。 Tantivy 的核心原则 构建索引:Tantivy 对输入文本进行标记化,将其拆分为独立的标记。 执行文本搜索:当用户发起文本搜索查询时,Tantivy 解析查询语句,提取标记,并在每个段上根据查询条件和 BM25 相关性算法对文档进行排序和评分。

    1.2K10编辑于 2024-05-28
  • 来自专栏成长道路

    文本型数据的向量化:TF-IDF

    1.对于文本型数据的分类处理(或者其他的处理),根据ik和jcseg等分词器先对它们进行分词处理之后,大家都知道,计算机是处理不了汉字的,对于文本型的词我们如何才能让计算机处理呢? 我们可以通过TF-IDF将文本型的数据向量化。对于TF-IDF的概念我就不再阐述,网上的资源非常多,这里我主要来看看是如何实现的。 import org.apache.spark.ml.feature.IDF import com.iflytek.classifier.LableWords import org.apache.log4j.Logger import org.apache.log4j.Level object TestTfIdf {   def main(args: Array[String]): Unit = {         idfdata.select("label", "features").foreach { x => println(x.apply(0)+" "+x.apply(1)) }   } } 4.

    2.1K00发布于 2017-12-28
  • 来自专栏字节脉搏实验室

    文本分析之gensim处理文本【语料库与词向量空间】

    文章源自【字节脉搏社区】-字节脉搏实验室 作者-S0u1 文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。 文本是由特定的人制作的,文本的语义不可避免地会反映人的特定立场、观点、价值和利益。因此,由文本内容分析,可以推断文本提供者的意图和目的。 ,无监督地学习到文本隐层的主题向量表达。 每一次迭代返回一个可用于表达文本对象的稀疏向量向量:由一组文本特征构成的列表。是一段文本在Gensim中的内部表达。 稀疏向量:通常,我们可以略去向量中多余的0元素。 此时,向量中的每一个元素是一个(key, value)的元组 模型:是一个抽象的术语。定义了两个向量空间的变换(即从文本的一种向量表达变换为另一种向量表达)。

    1.5K30发布于 2021-07-09
  • 来自专栏机器学习算法原理与实践

    文本挖掘预处理之向量化与Hash Trick

        在文本挖掘的分词原理中,我们讲到了文本挖掘的预处理的关键一步:“分词”,而在做了分词后,如果我们是做文本分类聚类,则后面关键的特征预处理步骤有向量化或向量化的特例Hash Trick,本文我们就对向量化和特例 词袋模型之向量化     在词袋模型的统计词频这一步,我们会得到该文本中所有词的词频,有了词频,我们就可以用词向量表示这个文本。 (3, 8) 1 (3, 11) 1 (3, 18) 1 (3, 17) 1 (3, 13) 1 (3, 5) 1 (3, 6) 1 (3, 15) 1     可以看出4文本的词频已经统计出 u'science', u'some', u'tea', u'the', u'this', u'to', u'travel', u'work', u'write']     可以看到我们一共有19个词,所以4文本都是 此时我们不能像上一节向量化时候可以知道每一列的意义,所以Hash Trick的解释性不强。 4向量化与Hash Trick小结     这里我们对向量化与它的特例Hash Trick做一个总结。

    89420发布于 2018-08-14
  • 来自专栏数据森麟

    Panda处理文本和时序数据?首选向量

    更重要的是,这种向量化操作不仅适用于数值计算,对于文本和时间格式也有着良好的支持,而这就不得不从Pandas的属性接口谈起。 ? Pandas中的向量化,就像6个Pandas一样 说起Pandas中的属性接口,首先要从数据类型谈起。 数值型操作是所有数据处理的主体,支持程度自不必说,布尔型数据在Pandas中其实也有较好的体现,即通过&、|、~三种位运算符也相当于是实现了向量化的并行操作,那么对于字符串和时间格式呢? 属性可调用一系列的字符串方法函数,其中这里的字符串方法不仅涵盖了Python中内置的字符串通用方法,比如split、strim等,还实现了正则表达式的绝大部分功能,包括查找、匹配和替换等、这对于Pandas处理文本数据来说简直是开挂一般的存在 03 小结 一门编程语言中的基本数据类型无非就是数值型、字符串型、时间型以及布尔型,Pandas为了应对各种数据格式的向量化操作,针对字符串和时间格式数据专门提供了str和dt两个属性接口(数值型数据天然支持向量化操作

    1.2K20发布于 2021-03-09
  • 来自专栏小数志

    Panda处理文本和时序数据?首选向量

    导读 Pandas作为Python数据分析的首选框架,不仅功能强大接口丰富,而且执行效率也相比原生Python要快的多,这是得益于Pandas底层由C实现,同时其向量化执行方式也非常利于并行计算。 更重要的是,这种向量化操作不仅适用于数值计算,对于文本和时间格式也有着良好的支持,而这就不得不从Pandas的属性接口谈起。 ? Pandas中的向量化,就像6个Pandas一样 说起Pandas中的属性接口,首先要从数据类型谈起。 属性可调用一系列的字符串方法函数,其中这里的字符串方法不仅涵盖了Python中内置的字符串通用方法,比如split、strim等,还实现了正则表达式的绝大部分功能,包括查找、匹配和替换等、这对于Pandas处理文本数据来说简直是开挂一般的存在 03 小结 一门编程语言中的基本数据类型无非就是数值型、字符串型、时间型以及布尔型,Pandas为了应对各种数据格式的向量化操作,针对字符串和时间格式数据专门提供了str和dt两个属性接口(数值型数据天然支持向量化操作

    1.5K10发布于 2021-02-03
  • 来自专栏悦思悦读

    把自然语言文本转换为向量 | NLP基础

    文本标注十要点 ---- ---- 把自然语言文本转换为向量 文本分析 文本分析指从文本中抽取出的特征来量化来表示文本信息,并在此基础上对其进行基于数学模型的处理。 向量空间模型 针对文本的具体操作很多,最典型的就是分类和聚类。引入机器学习的办法,让程序自己“学会”如何去区分不同类型的文本,是当前业界通行的办法。 向量空间模型的构建方式大致可以分为两类: 非深度学习的手工特征工程方法,由特征提取的人员手工设置一些转换规则,将文本转换为向量; 基于深度学习的文本数据表征方法,简答说就是专门训练一个深度学习模型, 对应的输入是自然语言文本,而输出是一个表示该文本向量。 该算法经过运算之后,会给每一个向量赋一个[0,4]区间内的值,这个值就表示了该向量对应文档最终被聚类的结果。 如果要做分类操作,则需要对训练集中的文档进行人工标注,给每一个文档标注一个指定的类别。

    3.6K20发布于 2019-12-26
  • 来自专栏悦思悦读

    文本分析】怎样把文档转换成向量

    文本分析 文本分析指从文本中抽取出的特征来量化来表示文本信息,并在此基础上对其进行基于数学模型的处理。它是文本挖掘、信息检索的一个基本问题。 对于正在做或者有志于做数据分析的人,掌握基本的文本分析知识和技法,已经成为必要。 向量空间模型 针对文本的具体操作很多,最典型的就是分类和聚类。 当你用某种机器学习算法对某些文本进行分析的时候,你首先需要一个训练集(Training Set)。 假设这个训练集中包含N个文档,你要把这N个文档转换成N个与之一一对应的向量。 换言之,在这N个文档中,基于bigram抽取的文本特征共有M个。 那么针对具体的一个文档,我们就可以构建一个M维的向量,其中每一维对应这M个Term中的一个。 该算法经过运算之后,会给每一个向量赋一个[0,4]区间内的值,这个值就表示了该向量对应文档最终被聚类的结果。 如果要做分类操作,则需要对训练集中的文档进行人工标注,给每一个文档标注一个指定的类别。

    3.1K110发布于 2018-03-15
  • 来自专栏AI机器学习与深度学习算法

    机器学习入门 5-4 向量

    本小节主要介绍使用向量化的方式提升性能。 简单线性回归 先来回归一下简单线性回归优化目标以及通过最小二乘的方式求得的参数a,b的解析解。 ? ,得益于numpy模块性能就会大大的提升,这就是向量化运算含义。 其实上面的w和v可以看成是一个向量,而将两个向量进行点乘之后正好是上面对应元素相乘后相加的结果,因此我们可以通过numpy中的点乘操作进行求解。 ? 上面我们将对应元素相乘然后相加的操作看成是向量之间的点乘,这也是为什么在最小二乘求解a的解析解的时候要把式子写成相乘累加的形式,这样就可以将其转换成向量之间的运算,进行向量化运算提升性能。 实现向量化的代码只需将for循环部分改成向量点乘即可: ? ? ? ? 为了比较两者的性能,将两种方式导入jupyter中,通过魔法命令来验证性能。 ? ? ? ?

    89420发布于 2019-11-13
  • 来自专栏Soul Joy Hub

    基于神经网络的文本特征提取——从词汇特征表示到文本向量

    一个常用的方法是将文本转化为一个能很好的表示它的向量,这里将称该向量称作为文本向量。本文将以尽可能少的数学公式介绍目前业界比较流行的基于神经网络进行文本特征提取,得到文本向量的方案。 1. 4 文本向量 现在我们有了词向量,那对于一个文本,如何用一个向量来表示它呢? 其实它的结构也很简单,就是将各个词向量相加,作为其文本向量表示: ? 如“mother loves dad”和“dad loves mother”,在这种文本特征生成方案下,它们的文本向量就一模一样了。 所有文档训练结束后,文档id所对应的词向量就是该文档的文本向量。该方案保留了词语间的词序信息: ?

    2K20发布于 2019-02-13
领券