搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏软件测试学习
docker本地部署文本嵌入模型nomic-embed-text
之前在学习AI课程的时候，用到了nomic-embed-text模型，之前是使用ollama工具在自己电脑本地部署的，换电脑之后再使用的话又要重新部署，在公司和家里面电脑来回调试代码的话比较麻烦，因此就想着在服务器上部署一个上图是在windows本地部署过的模型，那么在docker上的部署思路也是先安装一个ollama的镜像，然后再通过这个ollama的镜像去部署模型。 latest 启动 Ollama 容器 docker run -d --name ollama -p 11434:11434 ollama/ollama:latest 下载 nomic-embed-text 模型 docker exec -it ollama ollama pull nomic-embed-text:latest 验证模型是否下载成功运行以下命令查看已下载的模型： docker exec -it ollama ollama list 如果看到 nomic-embed-text:latest 出现在列表中，说明模型下载成功。
1K10编辑于 2025-05-26
来自专栏AI研习社
文本嵌入的经典模型与最新进展
AI 研习社按：这篇文章来自自然语言处理以及机器学习专家、Huggingface 的技术负责人 Thomas Wolf，介绍了文本嵌入的重点知识和最新趋势。 AI 科技评论编译如下。词嵌入和句子嵌入已成为所有基于深度学习的自然语言处理（NLP）系统的重要组成部分。它们在定长的密集向量中编码单词和句子，以大幅度提高文本数据的处理性能。最近，迁移学习被证明可以大幅度提高 NLP 模型在重要任务（如文本分类）上的性能。Jeremy Howard 和 Sebastian Ruder (ULMFiT) 的工作就是一个最好的例子。这种通用的方法具有更深入而强大的理论动机，它依赖于一个使用语篇向量上的生成模型的随机游走来生成文本。在过去的几个月中，文本嵌入已经呈现出了很多有趣的发展，在我们评估和探索这些嵌入的表现以及它们内在的偏见/公平性（这是当谈到通用嵌入时的一个实际问题）方面都有了巨大进步。
74310发布于 2018-07-26
来自专栏AI科技评论
干货 | 文本嵌入的经典模型与最新进展
易于泛化到多种任务的通用文本嵌入正受到热捧。 ? 词嵌入和句子嵌入已成为所有基于深度学习的自然语言处理（NLP）系统的重要组成部分。它们在定长的密集向量中编码单词和句子，以大幅度提高文本数据的处理性能。最近，迁移学习被证明可以大幅度提高 NLP 模型在重要任务（如文本分类）上的性能。Jeremy Howard 和 Sebastian Ruder (ULMFiT) 的工作就是一个最好的例子。这种通用的方法具有更深入而强大的理论动机，它依赖于一个使用语篇向量上的生成模型的随机游走来生成文本。在过去的几个月中，文本嵌入已经呈现出了很多有趣的发展，在我们评估和探索这些嵌入的表现以及它们内在的偏见/公平性（这是当谈到通用嵌入时的一个实际问题）方面都有了巨大进步。
2.1K30发布于 2018-07-27
来自专栏小石不识月
文本的词嵌入是什么？
读完本文后，您会知道：用于表示文本的词嵌入方法究竟是什么，以及它是如何与其他特征提取方法不同的。关于从文本数据中学习词嵌入的三种主要算法。其学习的过程要么是与某些任务（如文档分类）的神经网络模型的结合，要么就是使用文档统计的无监督过程。本小节对可用于从文本数据中学习到词嵌入的三种技术进行了综述。 1.嵌入层一个嵌入层（Embedding layer），没有比这更贴切的名称了，它是一种与特定自然语言处理任务（如语言建模或文本分类）的神经网络模型共同学习的词嵌入。使用整个文本语料库的结果，是得到一个通常能获得更好的词嵌入的学习模型。总结通过本文，您了解到了深度学习应用中作为文本表示方法的词嵌入技术。具体来说，你学到了：表示文本的嵌入方法是什么，以及它是如何区别于其他特征提取方法的。从文本数据中学习词嵌入的三种主要算法。
4.7K100发布于 2018-02-11
来自专栏机器学习算法与Python学习
文本嵌入的经典模型与最新进展（下载PDF）
它们在定长的密集向量中编码单词和句子，以大幅度提高文本数据的处理性能。最近，迁移学习被证明可以大幅度提高 NLP 模型在重要任务（如文本分类）上的性能。Jeremy Howard 和 Sebastian Ruder (ULMFiT) 的工作就是一个最好的例子。通用词/句子嵌入的最新趋势。在这篇文章中，我们描述了用上图中黑体字的模型。这种通用的方法具有更深入而强大的理论动机，它依赖于一个使用语篇向量上的生成模型的随机游走来生成文本。无监督方案将句子嵌入学习作为学习的副产品，以预测句子内连贯的句子顺序或句子中连贯的连续从句。这些方法可以（理论上）使用任何文本数据集，只要它包含以连贯方式并列的句子/子句。
92830发布于 2018-06-25
来自专栏DeepHub IMBA
使用Python和GloVe词嵌入模型提取新闻和文章的文本摘要
机器学习的自然语言处理(NLP)模块提供了许多可用于文本摘要的算法。文本摘要有两种主要方法：创建抽象式摘要：该技术使用高级的NLP方法来生成摘要，该摘要所使用的单词句子是全新的。让我们进入下一部分，我们将创建一个简单的函数来从链接中获取新闻文章文本。提取新闻文章在本节中，我们将通过分析网页的HTML链接来提取新闻文章文本。网页HTML应该进行被彻底分析，以能够识别所需新闻文本的标签。我创建了一个简单的函数来从链接中获取新闻文本。我将使用BeautifulSoup来提取特定html标签中可用的新闻文本。为了进行文本清理，我使用了文本的预处理，这些步骤是删除HTML标记，特殊字符，数字，标点符号，停用词，处理重音字符，扩展收缩，词干和词形等。这些单词嵌入的大小为822 MB。大小可能会因嵌入tokens而异。嵌入越多，精度越高。让我们使用这些单词嵌入为归一化的句子创建向量。
2.1K30发布于 2020-05-09
来自专栏小徐学爬虫
如何在ElementTree文本中嵌入标签
下面是一个简单的示例，演示了如何在 ElementTree 文本中嵌入新的标签：1、问题背景我正在使用Python ElementTree模块来处理HTML。但是，这种方法存在两个问题：它在text属性中嵌入了HTML标签，当渲染时会被转义，因此我需要用代码对标签进行反转义。它需要移动'text'和'tail'属性，以便强调的文本出现在相同的位置。在这个示例中，我们首先创建了一个根元素 root，然后创建了一个子元素 child，并设置了其文本内容。接着，我们创建了一个新的标签 new_tag，并将其嵌入到子元素 child 中。 <new_tag>New tag content</new_tag></child></root>这就是如何在 ElementTree 文本中嵌入新的标签。你可以根据自己的需求和数据结构，使用类似的方法来创建和嵌入标签。
2.8K10编辑于 2024-06-12
来自专栏喔家ArchiSelf
解读文本嵌入：语义表达的练习
文本嵌入的演变将文本转换为向量的最基本方法是使用词袋模型（bag of words，BoW）。获得一个单词向量的第一步是将文本分割成单词(标记) ，然后将单词减少到它们的基本形式。 2.文本嵌入的计算如今，已经有很多的嵌入模型可以供我们参考和使用，例如 OpenAI 的text-embedding-ada-002和text-embedding-3-large，当然，我们也可以通过 Huggingface的嵌入模型排行榜进行选择并探索。文本嵌入的应用示例文本嵌入的主要目的不是将文本编码为数字向量，或者仅仅为了将其可视化。我们可以从捕捉文本含义的能力中受益匪浅。一句话小结文本处理方法的演变导致了文本嵌入的出现，从词汇的语义表达到句子嵌入，多种距离度量方法可以帮助理解文本是否具有相似的意义，文本嵌入的可视化可以帮助我们了解数据的内在模式，常见的应用示例包括聚类
34610编辑于 2024-11-07
来自专栏腾讯开源的专栏
Youtu-Embedding 正式开源：腾讯优图推出高性能通用文本嵌入模型
高质量的文本嵌入（Embedding）是驱动智能搜索、检索增强生成（RAG）以及推荐系统等应用的核心技术。文本嵌入（Embedding）技术通过深度神经网络将文本映射到高维向量空间，使语义相似的句子在该空间中距离更近。在 RAG（Retrieval-Augmented Generation）场景中，高质量的文本嵌入模型可以为大语言模型（LLM）提供更准确、更上下文相关的外部知识，使生成的答案更加精确、可控与可解释。 Youtu-Embedding的核心优势包括：顶尖性能: 在权威的中文文本嵌入评测基准 CMTEB 上，以 77.46 的高分荣登榜首（截至2025年09月），证明了其强大的表征能力。、计算文本嵌入并输出相似度矩阵。
1.5K10编辑于 2025-10-20
🚀 KaLM-Embedding-V2: 小模型，大能量！重新定义高效文本嵌入
然而，一个强大的RAG系统的核心瓶颈，往往在于其检索模块的基石——文本嵌入（Text Embedding）模型。 KaLM-Embedding-V2，一个通用、紧凑且性能卓越的嵌入模型。更适配表示学习的模型架构为了让模型更好地学习文本的深层含义，我们进行了一项关键改造：移除因果注意力掩码 (Causal Attention Mask)：我们打破了传统语言模型单向看文本的限制，采用了完全的双向注意力机制这使得模型在编码文本时能同时“左看右看”，充分理解上下文，生成更精准的表示。平均池化 (Mean-Pooling)：我们采用简单而高效的平均池化层来生成固定长度的向量嵌入，效果显著。 2. 中文领域的新里程碑：在 MTEB 中文榜单上，KaLM-Embedding-V2 的表现甚至超越了9B参数的 bge-multilingual-gemma2，树立了中文文本嵌入领域的新标杆。 ️ 一个紧凑、高效且强大的嵌入模型，是构建在线RAG应用的理想选择。更低的部署成本：模型小，意味着更少的计算资源和内存占用。更快的推理速度：在不牺牲性能的前提下，为你的应用带来更流畅的体验。
1K21编辑于 2025-06-29
来自专栏信数据得永生
【论文笔记】PTE：预测性文本嵌入
除了本地上下文之外，文档层面的单词共现也在经典文本表示中被广泛探索，例如统计主题模型，例如潜在的 Dirichlet 分配 [4]。由于异构文本网络由三个二分网络组成，我们首先介绍一种嵌入单个二分网络的方法。 4.1 二分网络嵌入在我们之前的工作中，我们引入了 LINE 模型来学习大规模信息网络的嵌入 [27]。在这里，我们首先调整 LINE 模型以嵌入二分网络。基本思想是利用顶点之间的二阶邻近 [27]，假设具有相似邻域的顶点彼此相似，因此应在低维空间中紧密表示。采样过程解决了学习网络嵌入中随机梯度下降的显着不足。有关详细的优化过程，读者可以参考 [27]。通过上述模型可以学习单词单词，单词文档和单词标签网络的嵌入。一种解决方案是使用不带标签的数据（单词单词和单词文档网络）和带标签数据同时训练模型。我们将此方法称为联合训练。另一种解决方案是首先使用无标签的数据学习嵌入，然后使用单词标签网络微调嵌入。
73720编辑于 2022-05-07
《词嵌入技术：开启文本理解的大门》
在自然语言处理领域，词嵌入技术为我们理解文本提供了强大的工具。其中Word2Vec和GloVe是两种常见且重要的词嵌入技术，它们在原理和应用上有着各自的特点。 Word2Vec的原理Word2Vec是一种基于神经网络的词嵌入模型，它通过训练来学习词与词之间的关系。其核心思想是将词表示为向量，使得具有相似语义的词在向量空间中距离相近。实际应用在实际应用中，我们可以根据具体的需求选择合适的词嵌入技术。例如，在文本处理中，如果需要快速地进行词与词之间的关系分析，可以选择Word2Vec。而如果需要对文本进行更深入的语义理解，可以选择GloVe。同时，我们也可以将Word2Vec和GloVe结合起来使用。例如，在一些复杂的自然语言处理任务中，可以将它们的优势互补，从而提高模型的性能。总之，词嵌入技术为我们理解文本提供了重要的工具。无论是Word2Vec还是GloVe，它们都在各自的领域发挥着重要作用。
31900编辑于 2025-01-03
来自专栏DeepHub IMBA
解决语义搜索痛点，基于对比学习的领域特定文本嵌入模型微调实践
文本嵌入模型能够将文本转换为具有语义意义的向量表示，广泛应用于检索、分类等多种任务场景。然而，通用嵌入模型在处理特定领域任务时往往存在性能瓶颈。微调技术为解决这一问题提供了有效途径。检索增强生成中的嵌入应用检索增强生成（Retrieval-Augmented Generation, RAG）是文本嵌入模型的重要应用场景之一。基于嵌入的检索过程遵循标准的三步骤流程：首先为知识库中的所有文档计算向量表示，然后使用相同的嵌入模型将输入文本转换为向量，最后通过计算输入向量与知识库向量间的相似度来识别最相关的文档。该方法通过在相关文本对之间最小化嵌入距离，同时在不相关文本对之间最大化嵌入距离，训练模型区分有用和无用的检索结果。多模态嵌入模型正成为研究热点，其能够在统一向量空间中融合文本、图像、音频等多种数据类型。
36910编辑于 2025-08-20
来自专栏FunTester
动态模型中嵌入静态模型实践
在之前的动态模型之动态增减【FunTester测试框架】中分享了动态的性能测试模型的实现，后面在实际工作中也是受益匪浅，有文为证动态压测模型让工作更轻松。这个时候我又想起来了静态模型的好处来。就是过程不需要中途干预，可以按照预定的测试计划执行。那么问题来了，如何才能将动态模型和静态模型结合在一起呢？经过权衡，还是将静态的模型融入动态模型比较方便，毕竟还是先启动再说，后续过程随意设置参数调整压力比较方便。思路非常简单，就是在异步线程中增加对命令的支持即可。这里我以动态QPS模型为案例，修改异步控制器。
36920编辑于 2022-12-09
来自专栏Soul Joy Hub
ASR文本纠错模型
文本纠错任务是一项NLP基础任务，其输入是一个可能含有错误字词的句子，输出是一个正确的中文句子。ASR（语音识别）文本的错误类型很多，有多字、少字、错别字、同音近音字等等。 1. /github.com/shibing624/pycorrector/blob/master/pycorrector/macbert/README.md 本项目是 MacBERT 改变网络结构的中文文本纠错模型 spm=1001.2014.3001.5502 上述模型考虑到了文本错字进行纠错，但在中文ASR的场景下，很多情况是由于中文拼音读音相同或相近导致的识别错误。 FastCorrect 上述模型都是在自编码模型上进行检错与纠错。也就是说，文本的输入输出序列长度是不变的，且输出纠错结果的token位置必须是与输入位置对齐的。这就使得模型无法很好的纠正文本中多字、少字的错误。
3.3K20编辑于 2022-11-30
来自专栏追不上乌龟的兔子
文本嵌入，语义搜索与sentence-transformers库
如果要用向量数据库处理文本数据，就需要将文本转换为向量表示，机器学习术语叫做文本嵌入（Text Embedding）。传统的文本嵌入方法是基于统计的，比如 TF-IDF，Word2Vec 等。随着 transformer 架构的出现和发展，基于 transformer 的文本嵌入方法也越来越流行，并且在很多任务上取得了很好的效果。 sentence-transformers 就是一个基于 transformer 的文本嵌入工具包，可以用于生成句子的向量表示。只处理英文文本的话，可以使用 all-MiniLM-L6-v2 模型（80M）。总结 sentence-transformers 是一个非常好用的文本嵌入工具包，可以用于生成句子的向量表示，也可以用于语义搜索。
2.5K10编辑于 2023-12-24
来自专栏追不上乌龟的兔子
文本嵌入，语义搜索与sentence-transformers库
如果要用向量数据库处理文本数据，就需要将文本转换为向量表示，机器学习术语叫做文本嵌入（Text Embedding）。传统的文本嵌入方法是基于统计的，比如 TF-IDF，Word2Vec 等。随着 transformer 架构的出现和发展，基于 transformer 的文本嵌入方法也越来越流行，并且在很多任务上取得了很好的效果。 sentence-transformers 就是一个基于 transformer 的文本嵌入工具包，可以用于生成句子的向量表示。只处理英文文本的话，可以使用 all-MiniLM-L6-v2 模型（80M）。总结 sentence-transformers 是一个非常好用的文本嵌入工具包，可以用于生成句子的向量表示，也可以用于语义搜索。
2.5K10编辑于 2023-12-24
来自专栏计算机工具
大型概念模型（LCM）：句子嵌入空间：SONAR嵌入空间
以 Two-Tower 为例，它将上下文编码和下一个嵌入的扩散过程分开。在生成文本时，先对上下文进行编码，然后通过迭代去噪的方式生成下一个句子的嵌入。例如，在处理一些特定领域的文本时，量化后的模型可以更高效地处理和生成相关内容，并且能够通过调整量化参数来控制生成的随机性和多样性。在生成长文本时，它可以先规划整体的结构，然后逐步填充细节。比如在撰写一篇论文时，模型会先确定各个章节的主题（概念），然后再生成每个章节的具体内容，使生成的文本更具逻辑性和可读性。，每个句子都会被编码为SONAR嵌入空间中的向量，LCM模型基于这些向量进行学习和预测，以生成后续的句子嵌入，从而实现文本的生成或其他任务。可以被编码为SONAR嵌入向量，LCM模型可以处理这个向量，并可能生成对应的英文句子 “The cat is sleeping on the couch.”，或者在语音模态下，将文本转换为语音输出。
47921编辑于 2025-01-13
来自专栏智能生信
作为知识嵌入的语言模型
简读分享 | 乔剑博编辑 | 李仲深论文题目 Language Models as Knowledge Embeddings 论文摘要知识嵌入 (KE) 通过将实体和关系嵌入到连续向量空间中来表示知识图基于描述的方法利用文本信息和语言模型。在这个方向上的先前方法几乎没有优于基于结构的方法，并且受到诸如昂贵的负采样和限制性描述需求等问题的困扰。在本文中，作者提出了LMKE，它采用语言模型来导出知识嵌入，旨在丰富长尾实体的表示并解决先前基于描述的方法的问题。作者使用对比学习框架制定基于描述的 KE 学习，以提高培训和评估的效率。
47810编辑于 2022-12-29
跨语言嵌入模型的调查
这些方法通常以比MT低得多的成本来实现，并且能像MT一样利用字嵌入模型（word2vec，GloVe等）来实现语言建模。跨语言嵌入模型的类型近年来，提出了各种学习跨语言表达的模型。跨语言嵌入模型通常使用以下四种不同的方法：单语映射：这些模型最初在大量语语料库中训练单语言嵌入。然后，他们学习不同语言的单语表达之间的线性映射，使他们能够将未知单词从源语言映射到目标语言。跨语言训练：这些模型在平行语料库上训练它们的嵌入，并且优化不同语言嵌入之间的跨语言限制，从而使得相似词语的嵌入在共享向量空间中相互接近。联合优化：这些方法在并行（可选单语言数据）上训练模型。如果没有特别说明，此模型将使用Europarl语料库，这个语料库由欧洲议会通常用来训练统计机器翻译模型的句对齐文本组成。文档对齐数据：这是一个包含不同语言文档的文集。他们提出了一个混合模型，该模型首先基于现有的跨语言嵌入模型来学习第一共享双语嵌入空间。然后，他们使用这个初始向量空间，通过将它们投影到空间并使用目标语言中最近的邻居作为翻译来获得频繁源词表的翻译。
7.4K100发布于 2018-02-06

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

docker本地部署文本嵌入模型nomic-embed-text

文本嵌入的经典模型与最新进展

干货 | 文本嵌入的经典模型与最新进展

文本的词嵌入是什么？

文本嵌入的经典模型与最新进展（下载PDF）

使用Python和GloVe词嵌入模型提取新闻和文章的文本摘要

如何在ElementTree文本中嵌入标签

解读文本嵌入：语义表达的练习

Youtu-Embedding 正式开源：腾讯优图推出高性能通用文本嵌入模型

🚀 KaLM-Embedding-V2: 小模型，大能量！重新定义高效文本嵌入

【论文笔记】PTE：预测性文本嵌入

《词嵌入技术：开启文本理解的大门》

解决语义搜索痛点，基于对比学习的领域特定文本嵌入模型微调实践

动态模型中嵌入静态模型实践

ASR文本纠错模型

文本嵌入，语义搜索与sentence-transformers库

文本嵌入，语义搜索与sentence-transformers库

大型概念模型（LCM）：句子嵌入空间：SONAR嵌入空间

作为知识嵌入的语言模型

跨语言嵌入模型的调查

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐