首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏软件测试学习

    docker本地部署文本嵌入模型nomic-embed-text

    之前在学习AI课程的时候,用到了nomic-embed-text模型,之前是使用ollama工具在自己电脑本地部署的,换电脑之后再使用的话又要重新部署 ,在公司和家里面电脑来回调试代码的话比较麻烦,因此就想着在服务器上部署一个 上图是在windows本地部署过的模型,那么在docker上的部署思路也是先安装一个ollama的镜像,然后再通过这个ollama的镜像去部署模型。 latest 启动 Ollama 容器 docker run -d --name ollama -p 11434:11434 ollama/ollama:latest 下载 nomic-embed-text 模型 docker exec -it ollama ollama pull nomic-embed-text:latest 验证模型是否下载成功 运行以下命令查看已下载的模型: docker exec -it ollama ollama list 如果看到 nomic-embed-text:latest 出现在列表中,说明模型下载成功。

    1.1K10编辑于 2025-05-26
  • 来自专栏AI研习社

    文本嵌入的经典模型与最新进展

    嵌入和句子嵌入已成为所有基于深度学习的自然语言处理(NLP)系统的重要组成部分。它们在定长的密集向量中编码单词和句子,以大幅度提高文本数据的处理性能。 最近,迁移学习被证明可以大幅度提高 NLP 模型在重要任务(如文本分类)上的性能。Jeremy Howard 和 Sebastian Ruder (ULMFiT) 的工作就是一个最好的例子。 这种通用的方法具有更深入而强大的理论动机,它依赖于一个使用语篇向量上的生成模型的随机游走来生成文本。 它使用句子自然语言推理数据集(一组 570k 句子对标有3个类别:中性,矛盾和隐含)来在句子编码器之上训练分类器。 在过去的几个月中,文本嵌入已经呈现出了很多有趣的发展,在我们评估和探索这些嵌入的表现以及它们内在的偏见/公平性(这是当谈到通用嵌入时的一个实际问题)方面都有了巨大进步。

    74510发布于 2018-07-26
  • 来自专栏AI科技评论

    干货 | 文本嵌入的经典模型与最新进展

    易于泛化到多种任务的通用文本嵌入正受到热捧。 ? 词嵌入和句子嵌入已成为所有基于深度学习的自然语言处理(NLP)系统的重要组成部分。它们在定长的密集向量中编码单词和句子,以大幅度提高文本数据的处理性能。 最近,迁移学习被证明可以大幅度提高 NLP 模型在重要任务(如文本分类)上的性能。Jeremy Howard 和 Sebastian Ruder (ULMFiT) 的工作就是一个最好的例子。 这种通用的方法具有更深入而强大的理论动机,它依赖于一个使用语篇向量上的生成模型的随机游走来生成文本。 它使用句子自然语言推理数据集(一组 570k 句子对标有3个类别:中性,矛盾和隐含)来在句子编码器之上训练分类器。

    2.1K30发布于 2018-07-27
  • 来自专栏小石不识月

    文本的词嵌入是什么?

    读完本文后,您会知道: 用于表示文本的词嵌入方法究竟是什么,以及它是如何与其他特征提取方法不同的。 关于从文本数据中学习词嵌入的三种主要算法。 其学习的过程要么是与某些任务(如文档分类)的神经网络模型的结合,要么就是使用文档统计的无监督过程。 本小节对可用于从文本数据中学习到词嵌入的三种技术进行了综述。 1.嵌入层 一个嵌入层(Embedding layer),没有比这更贴切的名称了,它是一种与特定自然语言处理任务(如语言建模或文本分类)的神经网络模型共同学习的词嵌入3.GloVe 用于词表示的全局向量算法(或称为 GloVe)是由 Pennington 等人于 Stanford 大学开发的,这一算法是对于 word2vec 方法的一个扩展,它可以高效地学习到词向量 使用整个文本语料库的结果,是得到一个通常能获得更好的词嵌入的学习模型

    4.7K100发布于 2018-02-11
  • 来自专栏机器学习算法与Python学习

    文本嵌入的经典模型与最新进展(下载PDF)

    它们在定长的密集向量中编码单词和句子,以大幅度提高文本数据的处理性能。 最近,迁移学习被证明可以大幅度提高 NLP 模型在重要任务(如文本分类)上的性能。Jeremy Howard 和 Sebastian Ruder (ULMFiT) 的工作就是一个最好的例子。 这种通用的方法具有更深入而强大的理论动机,它依赖于一个使用语篇向量上的生成模型的随机游走来生成文本。 无监督方案将句子嵌入学习作为学习的副产品,以预测句子内连贯的句子顺序或句子中连贯的连续从句。这些方法可以(理论上)使用任何文本数据集,只要它包含以连贯方式并列的句子/子句。 它使用句子自然语言推理数据集(一组 570k 句子对标有3个类别:中性,矛盾和隐含)来在句子编码器之上训练分类器。

    92930发布于 2018-06-25
  • 来自专栏DeepHub IMBA

    使用Python和GloVe词嵌入模型提取新闻和文章的文本摘要

    机器学习的自然语言处理(NLP)模块提供了许多可用于文本摘要的算法。文本摘要有两种主要方法: 创建抽象式摘要: 该技术使用高级的NLP方法来生成摘要,该摘要所使用的单词句子是全新的。 让我们进入下一部分,我们将创建一个简单的函数来从链接中获取新闻文章文本。 提取新闻文章 在本节中,我们将通过分析网页的HTML链接来提取新闻文章文本。 网页HTML应该进行被彻底分析,以能够识别所需新闻文本的标签。我创建了一个简单的函数来从链接中获取新闻文本。我将使用BeautifulSoup来提取特定html标签中可用的新闻文本。 为了进行文本清理,我使用了文本的预处理,这些步骤是删除HTML标记,特殊字符,数字,标点符号,停用词,处理重音字符,扩展收缩,词干和词形等。 这些单词嵌入的大小为822 MB。大小可能会因嵌入tokens而异。嵌入越多,精度越高。让我们使用这些单词嵌入为归一化的句子创建向量。

    2.2K30发布于 2020-05-09
  • 来自专栏小徐学爬虫

    如何在ElementTree文本嵌入标签

    下面是一个简单的示例,演示了如何在 ElementTree 文本嵌入新的标签:1、问题背景我正在使用Python ElementTree模块来处理HTML。 但是,这种方法存在两个问题:它在text属性中嵌入了HTML标签,当渲染时会被转义,因此我需要用代码对标签进行反转义。它需要移动'text'和'tail'属性,以便强调的文本出现在相同的位置。 "" <xsl:stylesheet version="1.0" xmlns:btest="uri:bolder" xmlns:xsl="http://www.w<em>3</em>. 在这个示例中,我们首先创建了一个根元素 root,然后创建了一个子元素 child,并设置了其<em>文本</em>内容。接着,我们创建了一个新的标签 new_tag,并将其<em>嵌入</em>到子元素 child 中。 <new_tag>New tag content</new_tag></child></root>这就是如何在 ElementTree <em>文本</em>中<em>嵌入</em>新的标签。

    3K10编辑于 2024-06-12
  • 来自专栏喔家ArchiSelf

    解读文本嵌入:语义表达的练习

    文本嵌入的演变 将文本转换为向量的最基本方法是使用词袋模型(bag of words,BoW)。获得一个单词向量的第一步是将文本分割成单词(标记) ,然后将单词减少到它们的基本形式。 2.文本嵌入的计算 如今,已经有很多的嵌入模型可以供我们参考和使用,例如 OpenAI 的text-embedding-ada-002和text-embedding-3-large,当然,我们也可以通过 3. 文本嵌入的可视化 理解数据的最好方法就是将它们可视化。不幸的是,如果文本嵌入有1536个维度,理解数据会非常困难。然而,我们可以使用降维技术在二维空间中做向量投影。 文本嵌入的应用示例 文本嵌入的主要目的不是将文本编码为数字向量,或者仅仅为了将其可视化。我们可以从捕捉文本含义的能力中受益匪浅。 一句话小结 文本处理方法的演变导致了文本嵌入的出现,从词汇的语义表达到句子嵌入,多种距离度量方法可以帮助理解文本是否具有相似的意义,文本嵌入的可视化可以帮助我们了解数据的内在模式,常见的应用示例包括聚类

    35010编辑于 2024-11-07
  • 来自专栏腾讯开源的专栏

    Youtu-Embedding 正式开源:腾讯优图推出高性能通用文本嵌入模型

    高质量的文本嵌入(Embedding)是驱动智能搜索、检索增强生成(RAG)以及推荐系统等应用的核心技术。 文本嵌入(Embedding)技术通过深度神经网络将文本映射到高维向量空间,使语义相似的句子在该空间中距离更近。 在 RAG(Retrieval-Augmented Generation) 场景中,高质量的文本嵌入模型可以为大语言模型(LLM)提供更准确、更上下文相关的外部知识,使生成的答案更加精确、可控与可解释。 、计算文本嵌入并输出相似度矩阵。 3.

    1.6K10编辑于 2025-10-20
  • 🚀 KaLM-Embedding-V2: 小模型,大能量!重新定义高效文本嵌入

    然而,一个强大的RAG系统的核心瓶颈,往往在于其检索模块的基石——文本嵌入(Text Embedding)模型 。 KaLM-Embedding-V2,一个通用、紧凑且性能卓越的嵌入模型。 简单来说:KaLM-Embedding-V2 在保持“苗条”身材的同时,其性能表现甚至能与比它大 3-26倍的“大块头”模型相媲美! 更适配表示学习的模型架构 为了让模型更好地学习文本的深层含义,我们进行了一项关键改造: 移除因果注意力掩码 (Causal Attention Mask):我们打破了传统语言模型单向看文本的限制,采用了完全的双向注意力机制 这使得模型在编码文本时能同时“左看右看”,充分理解上下文,生成更精准的表示。 平均池化 (Mean-Pooling):我们采用简单而高效的平均池化层来生成固定长度的向量嵌入,效果显著。 2. 中文领域的新里程碑:在 MTEB 中文榜单上,KaLM-Embedding-V2 的表现甚至超越了9B参数的 bge-multilingual-gemma2,树立了中文文本嵌入领域的新标杆。 ️

    1.1K21编辑于 2025-06-29
  • 来自专栏信数据得永生

    【论文笔记】PTE:预测性文本嵌入

    除了本地上下文之外,文档层面的单词共现也在经典文本表示中被广泛探索,例如统计主题模型,例如潜在的 Dirichlet 分配 [4]。 由于异构文本网络由三个二分网络组成,我们首先介绍一种嵌入单个二分网络的方法。 4.1 二分网络嵌入 在我们之前的工作中,我们引入了 LINE 模型来学习大规模信息网络的嵌入 [27]。 省略一些常量,目标函数(2)可以计算为: (3) 可以使用边采样 [27] 和负采样 [18] 的技术,利用随机梯度下降来优化目标(3)。 采样过程解决了学习网络嵌入中随机梯度下降的显着不足。 有关详细的优化过程,读者可以参考 [27]。 通过上述模型可以学习单词单词,单词文档和单词标签网络的嵌入。 因此,我们可以根据公式(1)定义条件概率p(v[i] | v[j]),p(v[i]| d[j])和p(v[i] | l[j]),然后通过优化目标函数(3)来学习嵌入

    73920编辑于 2022-05-07
  • 《词嵌入技术:开启文本理解的大门》

    在自然语言处理领域,词嵌入技术为我们理解文本提供了强大的工具。其中Word2Vec和GloVe是两种常见且重要的词嵌入技术,它们在原理和应用上有着各自的特点。 Word2Vec的原理Word2Vec是一种基于神经网络的词嵌入模型,它通过训练来学习词与词之间的关系。其核心思想是将词表示为向量,使得具有相似语义的词在向量空间中距离相近。 实际应用在实际应用中,我们可以根据具体的需求选择合适的词嵌入技术。例如,在文本处理中,如果需要快速地进行词与词之间的关系分析,可以选择Word2Vec。 而如果需要对文本进行更深入的语义理解,可以选择GloVe。同时,我们也可以将Word2Vec和GloVe结合起来使用。例如,在一些复杂的自然语言处理任务中,可以将它们的优势互补,从而提高模型的性能。 总之,词嵌入技术为我们理解文本提供了重要的工具。无论是Word2Vec还是GloVe,它们都在各自的领域发挥着重要作用。

    32100编辑于 2025-01-03
  • 来自专栏DeepHub IMBA

    解决语义搜索痛点,基于对比学习的领域特定文本嵌入模型微调实践

    文本嵌入模型能够将文本转换为具有语义意义的向量表示,广泛应用于检索、分类等多种任务场景。然而,通用嵌入模型在处理特定领域任务时往往存在性能瓶颈。微调技术为解决这一问题提供了有效途径。 检索增强生成中的嵌入应用 检索增强生成(Retrieval-Augmented Generation, RAG)是文本嵌入模型的重要应用场景之一。 基于嵌入的检索过程遵循标准的三步骤流程:首先为知识库中的所有文档计算向量表示,然后使用相同的嵌入模型将输入文本转换为向量,最后通过计算输入向量与知识库向量间的相似度来识别最相关的文档。 该方法通过在相关文本对之间最小化嵌入距离,同时在不相关文本对之间最大化嵌入距离,训练模型区分有用和无用的检索结果。 多模态嵌入模型正成为研究热点,其能够在统一向量空间中融合文本、图像、音频等多种数据类型。

    38410编辑于 2025-08-20
  • 来自专栏媒矿工厂

    2D 扩散模型 + Nerf,实现文本生成 3D 模型

    目录 摘要 引入:扩散模型 方法 摘要 在数十亿图像-文本对上训练的扩散模型,在文字生成图像的任务上大获成功。 在这项工作中,作者通过使用预训练的 2D 文本-图像的扩散模型,实现文本3D 合成。他们引入了基于概率密度蒸馏的损失函数,这也允许了2D扩散模型作为先验,用以优化参数图像生成器。 在该方法中,给定文本生成的 3D 模型可以从任意角度观察,通过任意照明重新点亮,或合成到任何 3D 环境中。 文字生成图片的扩散模型学习 \epsilon_\phi\left(\mathbf{z}_t ; t, y\right) ,这个网络的条件是文字的嵌入(embedding)。 基于视角的文本嵌入 对于仰角较大的数据,文本中将会加入“overhead view”;对于小于60°的仰角,他们将会根据方位角加入文本“front view”,“side view”或是“back view

    3.1K20编辑于 2022-11-07
  • 来自专栏全栈测试技术

    嵌入式软件测试笔记3 | 嵌入式软件测试开发的多V模型

    1 简单的多V模型原则上,每一种产品形态,都遵循一个完整的V型开发周期;包括设计、开发和测试活动,所以用多V表示;多V的本质是为同一个系统开发不用的实物形态;如下多V模型的开发生命周期:图片2 迭代与并行开发 2.1 开发模型多V模型只是一个简化的描述方式,不应该被看做是简单的连续过程(“瀑布模型”);中间的“V”是处于多次迭代开发的,此时可采用的迭代开发模型为RUP模型(统一过程)和XP模型(极限编程)。 2.2 嵌入式开发过程的复杂性多团队项目;①软件、硬件开发团队;②独立并行的工作;③硬件和软件的协同。系统分解、并行开发、分阶段集成。 3 多V模型中的测试活动3.1 测试活动和因素测试活动和因素分三类:测试技术、测试层次与测试类型、其他因素;开发和测试生命周期中需要分配的测试相关的因素和活动:技术 测试层次与类型 其他因素代码覆盖范围分析体系架构设计确认 3.3 原型开发周期中与测试相关的元素分配图片3.4 最终产品开发周期中与测试相关的元素分配图片4 嵌套多V模型4.1 嵌套多V模型图片4.2 嵌套多V模型中较高层次的测试因素图片

    60151编辑于 2023-06-06
  • 来自专栏逍遥剑客的游戏开发

    Nebula3嵌入WPF

    C++/CLI只能使用MD/MDd的运行库, 所以N3的编译选项需要改一下. 可以在makeslnwin32.tcl里改, 然后重新生成所有的工程文件. N3的System命名空间与.Net的冲突. 而N3的DisplayDevice是在渲染线程创建的窗口, 所以需要把窗口的创建改到主线程.

    73620发布于 2018-05-23
  • 来自专栏FunTester

    动态模型嵌入静态模型实践

    在之前的动态模型之动态增减【FunTester测试框架】中分享了动态的性能测试模型的实现,后面在实际工作中也是受益匪浅,有文为证动态压测模型让工作更轻松。 这个时候我又想起来了静态模型的好处来。就是过程不需要中途干预,可以按照预定的测试计划执行。 那么问题来了,如何才能将动态模型和静态模型结合在一起呢? 经过权衡,还是将静态的模型融入动态模型比较方便,毕竟还是先启动再说,后续过程随意设置参数调整压力比较方便。 思路 非常简单,就是在异步线程中增加对命令的支持即可。 这里我以动态QPS模型为案例,修改异步控制器。

    37520编辑于 2022-12-09
  • 来自专栏追不上乌龟的兔子

    文本嵌入,语义搜索与sentence-transformers库

    如果要用向量数据库处理文本数据,就需要将文本转换为向量表示,机器学习术语叫做文本嵌入(Text Embedding)。 传统的文本嵌入方法是基于统计的,比如 TF-IDF,Word2Vec 等。 随着 transformer 架构的出现和发展,基于 transformer 的文本嵌入方法也越来越流行,并且在很多任务上取得了很好的效果。 sentence-transformers 就是一个基于 transformer 的文本嵌入工具包,可以用于生成句子的向量表示。 只处理英文文本的话,可以使用 all-MiniLM-L6-v2 模型(80M)。 总结 sentence-transformers 是一个非常好用的文本嵌入工具包,可以用于生成句子的向量表示,也可以用于语义搜索。

    2.5K10编辑于 2023-12-24
  • 来自专栏Soul Joy Hub

    ASR文本纠错模型

    /github.com/shibing624/pycorrector/blob/master/pycorrector/macbert/README.md 本项目是 MacBERT 改变网络结构的中文文本纠错模型 3. ErnieCSC Ernie参阅:https://blog.csdn.net/u011239443/article/details/121820752? spm=1001.2014.3001.5502 上述模型考虑到了文本错字进行纠错,但在中文ASR的场景下,很多情况是由于中文拼音读音相同或相近导致的识别错误。 FastCorrect 上述模型都是在自编码模型上进行检错与纠错。也就是说,文本的输入输出序列长度是不变的,且输出纠错结果的token位置必须是与输入位置对齐的。 这就使得模型无法很好的纠正文本中多字、少字的错误。

    3.3K20编辑于 2022-11-30
  • 来自专栏追不上乌龟的兔子

    文本嵌入,语义搜索与sentence-transformers库

    如果要用向量数据库处理文本数据,就需要将文本转换为向量表示,机器学习术语叫做文本嵌入(Text Embedding)。 传统的文本嵌入方法是基于统计的,比如 TF-IDF,Word2Vec 等。 随着 transformer 架构的出现和发展,基于 transformer 的文本嵌入方法也越来越流行,并且在很多任务上取得了很好的效果。 sentence-transformers 就是一个基于 transformer 的文本嵌入工具包,可以用于生成句子的向量表示。 只处理英文文本的话,可以使用 all-MiniLM-L6-v2 模型(80M)。 总结 sentence-transformers 是一个非常好用的文本嵌入工具包,可以用于生成句子的向量表示,也可以用于语义搜索。

    2.5K10编辑于 2023-12-24
领券