首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏NLP/KG

    语义检索-BAAI Embedding语义向量模型深度解析:微调Cross-Encoder以提升语义检索精度

    语义检索-BAAI Embedding语义向量模型深度解析:微调Cross-Encoder以提升语义检索精度 语义向量模型(Embedding Model)已经被广泛应用于搜索、推荐、数据挖掘等重要领域 然而,当前中文世界的高质量语义向量模型仍比较稀缺,且很少开源 BGE 出色的语义表征能力源于两方面要素:1)针对表征的预训练,2)大规模文本对训练。 BGE 在悟道 、Pile 两个大规模语料集上采取了针对表征的预训练算法 RetroMAE :将低掩码率的输入编码为语义向量(Embed),再将高掩码率的输入与语义向量拼接以重建原始输入。 这样一来,BGE 得以利用无标签语料实现语言模型基座对语义表征任务的适配。 65K的负样本规模,增强了语义向量的判别能力。

    1.1K10编辑于 2024-07-09
  • 来自专栏架构进阶

    Postgresql中的检索:中文分词及语义检索

    一 前言     在上一篇文章中提到,在postgresql中,使用pgvector可以实现向量存储和检索,使用pg_trgm基于三元组文本模糊匹配和相似度计算,结合GIN 索引和GiST索引实现全文检索 但pg_trgm并不是一个专业的中文分词工具,它是基于字符层面的处理,不理解语义。 zhparser等分词插件的情况下,执行SELECT show_trgm('中文测试');时会发现结果为空,因此需要结合zhparser、jiebaR,或使用ElasticSearch等插件或工具实现中文分词/全文检索

    1K00编辑于 2025-06-23
  • 来自专栏Reinvent Data Science

    Milvus x Lucidworks 快速构建语义检索

    语义检索 [1](Semantic Search) 是能帮助你的客户或员工找到正确的产品或信息的绝佳工具,它甚至可以检索到一些难以被索引的信息,从而获得更好的结果。 如果低效的语义检索难以胜任,那么如何进行高速的语义检索呢? 幸运的是,Lucidworks 热衷于解决此类问题。 执行语义检索 为了让机器学习达到闪电般快的速度,Lucidworks 通过向量搜索的方法执行语义检索,由两个关键部分组成。 第一部分:机器学习模型 首先,你需要将文本编码为特征向量。 使用语义检索 在了解了 Milvus 如此重要的原因后,让我们回到语义检索的工作流程。 语义检索分为三个阶段:第一阶段是加载和/或训练机器学习模型;接着,将数据导入到 Milvus 和 Solr 中并建立索引;最后是查询阶段,即实际搜索发生的阶段。下面将重点介绍后两个阶段。

    1.1K40发布于 2021-06-25
  • 来自专栏NLP/KG

    语义检索系统:基于无监督预训练语义索引召回:SimCSE、Diffcse

    它还具有可调整参数,可以根据需要来优化精度和速度之间的平衡,例如一次查询返回的最大邻居数、检索阈值等。 由于Hnswlib不依赖于任何特定类型的特征或数据格式,因此它可以应用于各种任务,例如图像检索、自然语言处理等。 预测 我们可以基于语义索引模型预测文本的语义向量或者计算文本 Pair 的语义相似度。 DiffCSE 模型同样适合缺乏监督数据,但是又有大量无监督数据的匹配和检索场景。 DiffCSE 模型同样适合缺乏监督数据,但是又有大量无监督数据的匹配和检索场景。

    1.5K00编辑于 2023-08-02
  • 来自专栏NewBeeNLP

    语义信息检索中的预训练模型

    由于待训练的模型参数很多(增加model capacity),而专门针对检索任务的有标注数据集较难获取,所以要使用预训练模型。 2. 检索模型的分类 检索的核心,在于计算query和document的 相似度 。 依此可以把信息检索模型分为如下三类: 基于统计的检索模型 使用exact-match来衡量<query,document>相似度,考虑的因素有query中的词语在document中出现的词频TF、document 基于exact-match的检索模型是召回中必不可少的一路。 其实,在现在常用的深度检索模型中也经常增加这种人工构造的特征。

    2.2K10编辑于 2022-11-11
  • 来自专栏网罗开发

    大模型如何提升信息检索效率:语义检索与向量数据库的结合

    通过引入大模型的语义理解能力,检索系统能够更好地理解用户意图,而向量数据库则能够高效地存储和检索高维向量数据。本文还提供了一个可运行的示例 Demo 代码模块,展示了如何在实际应用中实现语义检索。 这些模型能够理解文本的语义,从而提升信息检索的效率和准确性。本文将介绍如何利用大模型实现语义检索,并结合向量数据库优化检索效率。 语义检索的实现大模型的语义理解能力大模型(如BERT、GPT等)通过预训练和微调,能够理解文本的语义语义检索的流程语义检索的流程通常包括以下几个步骤:查询理解:利用大模型对用户查询进行语义理解,生成查询向量。文档编码:利用大模型对文档库中的文档进行编码,生成文档向量。 通过引入大模型的语义理解能力,检索系统能够更好地理解用户意图,而向量数据库则能够高效地存储和检索高维向量数据。本文还提供了一个可运行的示例代码模块,展示了如何在实际应用中实现语义检索

    1.5K10编辑于 2025-03-04
  • 来自专栏NewBeeNLP

    语义信息检索中的预训练模型(下)

    语义信息检索中的预训练模型 这一篇将介绍预训练模型在深度召回和精排中的应用。 4. 所以,应该设计专门针对检索任务的预训练任务。 文章Pre-training Tasks for Embedding-based Large-scale Retrieval提出了三个针对检索设计的预训练任务,都是使用Wikipedia的大量无标注数据进行自监督训练 Approximate Nearest Neighbor Negative Contrastive Learning for dense text retrieval[2]) 文中指出,端到端训练的深度检索模型有时效果甚至不如基于 exact-match的稀疏检索模型,这是因为过多的使用简单负例(random或者in-batch负采样)没有提供很多信息量,其 梯度范数较小、收敛速度慢 。

    2.5K30编辑于 2022-11-11
  • 来自专栏NewBeeNLP

    BM25 比语义向量检索效果好?

    NewBeeNLP公众号原创出品 公众号专栏作者 @Maple小七 北京邮电大学·模式识别与智能系统 TL;DR 虽然以SentenceBERT为代表的语义向量检索展现出了超越传统的以 然而现实世界并不会这么理想,稀疏向量查询通常会存在棘手的词汇空缺或语义鸿沟问题(lexical/semantic gap)。 「语义鸿沟」可以理解为是自然语言词汇的稀疏性和语法的多样性,这些现象可以通过同义词典、句式变换等方式来改善。 这正是稠密向量查询想要达到的效果,也就是将查询和文档映射到同一个低维向量空间,通过计算余弦相似度来检索相关文档,关于稠密向量表示的探索可以追溯到经典的潜在语义分析(LSA),2013年的DSSM首次将深度学习方法引入了稠密向量检索 ,目前,以SentenceBERT为代表的语义检索模型在很多数据集上超越了基于稀疏向量的检索方法。

    3K20发布于 2021-06-25
  • 来自专栏NLP/KG

    语义检索系统:基于Milvus 搭建召回系统抽取向量进行检索,加速索引

    语义检索系统:基于Milvus 搭建召回系统抽取向量进行检索,加速索引 目标:使用 Milvus 搭建召回系统,然后使用训练好的语义索引模型,抽取向量,插入到 Milvus 中,然后进行检索。 向量检索 5.1 基于Milvus的向量检索系统搭建 数据准备结束以后,开始搭建 Milvus 的语义检索引擎,用于语义向量的快速检索,使用Milvus开源工具进行召回,Milvus 的搭建教程请参考官方教程 参考项目,导出自己的静态图模型:语义检索系统:基于in-batch Negatives策略的有监督训练语义召回 数据量 显卡 时间 1000万条 V100 32GB 3h41min 1000万条 A100 针对第三个问题:Milvus只起到加速的效果,这个跟模型相关,并且关键字匹配不推荐使用语义检索,如果是句子级别的匹配,使用语义检索更合适;推荐进行双路召回【语义+关键字】 进入重点如何启动milvus向量库以及涉及到 图片 图片 6.FAQ 6.1 抽取文本语义向量后,利用 Milvus 进行 ANN 检索查询到了完全相同的文本,但是计算出的距离为什么不是 0?

    3.5K00编辑于 2023-08-02
  • 来自专栏AI算法之心

    京东电商搜索中的语义检索与商品排序

    文章作者:王松林、唐国瑜 京东算法工程师 编辑整理:Hoh 内容来源:作者授权 出品平台:DataFunTalk 导读:本文将介绍京东搜索场景中的两块技术,语义检索与商品排序。 下面我们分别介绍,基于向量检索召回和商品排序: 02 向量召回 向量检索作为一种信息检索方式在工业界已经被广泛应用,它能解决传统倒排检索不能解决的问题。 如下图所示,不同的 head 可以捕获 query 不同的语义 ( query=苹果,语义可以是手机和水果 ),捕获不同的品牌属性 ( query=手机,品牌可以是华为、小米 ),捕获不同的产品属性 ( 语义检索效果展示 语义检索上线后获得了很好的体验效果,不仅提升了转化,长尾流量降低了近10%的 query 改写率,也就是说用户不需要多次改写 query,就能获得想要的商品结果。 ? 04 总结 我们介绍了语义检索召回和商品排序,在京东搜索服务上部署并取得了良好效果。我们还在尝试一些业内其他流行的方法,比如 GNN、KG、MMoE 等方向,也获得了不错的成绩。

    1.6K20发布于 2020-06-09
  • 来自专栏DeepHub IMBA

    Prompt 缓存的四种策略:从精确匹配到语义检索

    实际上这些差异对语义毫无影响。 解决办法是在缓存前先做规范化处理。 语义缓存流程 工具选型方面,Embedding 可以用 OpenAI 的接口,向量存储可以选 Pinecone、Weaviate 这类专门的向量数据库,小规模场景下在内存里做相似度搜索也够用。 语义缓存的核心风险在于阈值设定。 L1 是进程内存缓存,速度最快但作用域最小;L2 一般用 Redis,多个实例可以共享同一份缓存;L3 是语义缓存层,处理那些文本不同但意思相近的 Prompt。 语义缓存只在业务确实需要时才引入,因为它带来了额外的复杂度和向量计算开销。TTL 和版本控制是必须配套的机制。最后缓存命中率要持续监控,因为这是判断缓存策略是否有效的核心指标。

    23910编辑于 2026-02-27
  • 来自专栏WeOps

    RAG 强化之选:OpsPilot Rerank 重排序弥补语义检索短板

    嘉为蓝鲸OpsPilot依托RAG技术打造高效知识处理体系,提取与分块拆分语义单元,为后续流程筑牢根基;Embedding及检索将问题与知识库中内容匹配定位。 Rerank(重排序)的具体实现是通过机器学习模型,捕捉复杂语义(如一词多义、隐含意图),对初步检索结果进行二次语义评估。 具体步骤如下:从而实现以下作用,优化检索结果:弥补语义短板:突破传统检索的表面匹配,找到“关键词不同但意思相近”的优质内容。精准筛选排序:通过多维度打分剔除低质信息,让检索结果更聚焦用户真实需求。 内置了bce-Reranker-base模型提供Rerank功能,对比其他Rerank模型,本模型的核心优势可总结为以下三点:排序精准性更强:通过大量对比“好内容”和“差内容”训练模型,让模型更会判断语义匹配度 04.嘉为蓝鲸OpsPilot——更懂运维的AI平台嘉为蓝鲸OpsPilot是集知识库管理、技能配置、机器人管理及工具管理于一体的智能运维支撑平台,深度融合LLM大模型的语义理解、知识增强与多模态处理能力

    51010编辑于 2025-04-28
  • 来自专栏大数据生态

    「最佳实践」腾讯云 ES 8 向量化语义混合检索测试指南

    语义检索 所有准备工作就绪,下面将演示向量检索,我们分别用向量检索和分词检索测试两者的检索效果: cd /root/tencent-es_vector/ vim vector_search.py 修改配置信息 {json_output}") counter += 1 counter = 1 with col2: st.write("### 混合检索结果 检索效果测试 我们模拟用户在商城搜索栏输入一个手机型号:小米 12 pro max ● 向量检索结果可能会召回不相关的内容 ● 而使用 ES 的混合检索,利用前置过滤,在提高效率的同时,可以大幅提升召回率 ● ES 也支持在在混合检索场景使用聚合查询 8. 总结 从检索效果可以直观看出,使用纯向量检索,往往是达不到业务需求的。如果想提升召回率,则需要配合混合检索,不仅可以提前过滤一些不相关的内容,对性能有一定提升。

    1.3K4038编辑于 2024-04-11
  • 来自专栏为了不折腾而去折腾的那些事

    向量数据库入坑:传统文本检索方式的降维打击,使用 Faiss 实现向量语义检索

    ”,初步接触到了“语义检索”这种对于传统文本检索方式具备“降维打击”的新兴技术手段。 有朋友在聊天中提到,希望能够聊点更具体的,比如基于向量技术实现的语义检索到底比传统文本检索强多少,以及是否有局限性,能不能和市场上大家熟悉的技术产品进行一个简单对比。 至于关于如何实现语义检索,我们等会聊。先来看看如何使用传统检索技术来解决“一对多”、“多对多”这种场景下的内容查找问题吧。 使用 Faiss 来进行语义检索 接下来,我们来聊聊对传统技术具备降维打击的“向量语义检索”技术。依旧是先来准备 faiss 的运行环境,完成 faiss 和相关软件的安装。 当模型构建完毕之后,我们就可以来体验和使用基于“向量相似度检索”的语义检索啦。

    3.9K50编辑于 2022-09-10
  • 来自专栏#热点技术openclaw

    语义检索 vs 精确匹配:为什么 OpenClaw 需要向量数据库

    这串数字就是这段文字的向量表示,它编码了这段文字的"语义"。神奇之处在于:语义相近的文字,它们的向量在数学空间里也会很近。 向量数据库(如Milvus、Pinecone、Weaviate)专门为这个场景设计了特殊的索引结构(如HNSW、IVF),可以在毫秒级别完成亿级向量的相似度检索。 实际应用场景长期记忆检索:用户说"上次我们讨论的那个项目",Agent能准确找到相关对话上下文理解:即使用户没有明确提到关键词,Agent也能理解隐含意图个性化推荐:基于用户历史兴趣的语义相似度推荐相关内容五 (行列表格)高维向量(浮点数组)查询方式SQL,基于规则给一个向量,找最近的N个一致性保证ACID事务最终一致性为主典型用途用户信息、订单、日志语义搜索、推荐、记忆检索在OpenClaw里的角色存会话元数据 、用户配置存对话向量,检索相关记忆实际上,成熟的Agent系统往往两者都需要:MySQL管结构化的状态数据,向量数据库管语义化的记忆检索

    33620编辑于 2026-03-09
  • 来自专栏小小挖掘机

    KDD 2020 | 详解语义Embedding检索技术在Facebook搜索中的应用实战

    本文讨论了如何将embedding检索技术应用在Facebook搜索的技术方案,我们提出了一套统一的embedding框架用于建模个性化搜索中的语义embedding,以及基于经典的倒排索引进行在线embedding 检索的系统。 背景 从query中准确计算出用户的搜索意图以及准确表达文档的语义含义是非常困难的,因此之前的搜索算法主要还是通过关键词匹配的方式进行检索。 embedding技术在搜索检索层的应用通常被称为基于embedding的检索或者简称为EBR。 Training data feedback loop 由于语义召回的结果召回高但是精度低,所以本文就采用了人工的方式对语义召回的结果进行标注,对每个query召回的结果进行标注。

    2.5K20发布于 2020-09-07
  • 来自专栏WeOps

    OpsPilot技术赋能:语义空间构建与多模态检索的运维新范式

    直达原文:OpsPilot功能上新:Embedding重构语义空间,混合检索驱动知识发现(内附体验环境)随着技术的快速发展,检索增强生成(RAG)成为构建智能知识库的核心方案。 2)检索设置:通过向量相似度匹配,从海量知识库中快速定位相关信息以混合检索(文本 + 向量)为例,结合关键词搜索与向量语义搜索,通过打分机制综合判断,既能利用关键词快速过滤,又能通过向量相似度挖掘深层语义关联 可挖掘语义层面的关联信息,弥补关键词搜索的局限性,例如,当用户查询含模糊语义时,向量搜索能通过语义相似性定位相关知识。 混合检索:同时开启文本搜索与向量搜索,系统会根据各自权重综合打分,兼顾关键词匹配和语义相似性,将最终结果按打分从高到低展示,提升检索全面性与准确性。 Embedding转换文本为语义向量,混合检索融合关键词匹配与向量搜索,内置双模型适配中文及跨领域场景,实现精准语义关联与高效知识闭环,赋能智能运维。

    37510编辑于 2025-04-21
  • 来自专栏PaddlePaddle

    ​NLP产业应用实战,评论观点抽取与分析和文本语义检索深度详解

    1.一行命令体验评论观点抽取与分析功能 2.支持文本批量预测功能,以处理大量文本数据 3.支持静态图高性能推理脚本,以便于线上部署使用 文本语义检索系统方案 检索系统已经是我们日常生活中获取信息的不可或缺的一部分 本次开源的范例项目开源了一套低门槛、端到端的检索系统方案,可以在多场景快速部署实现搜索功能。无标注数据,仅有无监督数据也可以得到一个效果不错的文本语义检索模型。 场景难点 句级别语义鸿沟:基于关键词检索的方法优化起来较为繁琐,不能很好的对句子级别的语义信息进行建模,无法跨越句子级别的语义鸿沟。 语义检索系统方案复杂:语义监测方案是一个系统性工程,需要了解完整的检索系统流程是什么,如何评估检索系统的好坏,如何调优等等。 Neural Search是一个实用的完整的文本语义检索应用,主要由召回和排序两个模块组成。

    99430编辑于 2022-04-20
  • 来自专栏NewBeeNLP

    基于领域预训练和对比学习SimCSE的语义检索(附源码)

    今天就手把手带大家完成一个基于领域预训练和对比学习SimCSE的语义检索小系统。 所谓语义检索(也称基于向量的检索),是指检索系统不再拘泥于用户 Query 字面本身(例如BM25检索),而是能精准捕捉到用户 Query 后面的真正意图并以此来搜索,从而更准确地向用户返回最符合的结果 最终可视化demo如下,一方面‍可以获取文本的向量表示;另一方面可以做文本检索,即得到输入Query的top-K相关文档! 语义检索,底层技术是语义匹配,是NLP最基础常见的任务之一。 接下去我们以搜索场景为例,即输入Query返回Document集合,基于PaddleNLP提供的轮子一步步搭建语义检索系统。 3.4 语义模型效果 前面说了那么多,来看看几个模型的效果到底怎么样?对于匹配或者检索模型,常用的评价指标是Recall@K,即前TOP-K个结果检索出的正确结果数与全库中所有正确结果数的比值。

    1.8K21编辑于 2021-12-27
  • 来自专栏NLP/KG

    基于Milvus+ERNIE+SimCSE+In-batch Negatives样本策略的学术文献语义检索系统

    基于Milvus+ERNIE+SimCSE+In-batch Negatives样本策略的学术文献语义检索系统 0.前言 语义索引(可通俗理解为向量索引)技术是搜索引擎、推荐系统、广告系统在召回阶段的核心技术之一 p=1670 1.学术文献检索系统搭建一个语义检索系统 效果预览: 图片 性能对比: 硬件配置 向量库数据量 提取特征所需时间 milvus检索所需时间 排序所需时间 总耗时 CPU 12核 2.5GHz 图片 所谓语义检索(也称基于向量的检索,如上图所示),是指检索系统不再拘泥于用户 Query 字面本身,而是能精准捕捉到用户 Query 后面的真正意图并以此来搜索,从而更准确地向用户返回最符合的结果。 车头如何放置车牌 前牌照怎么装 车头如何放置车牌 后牌照怎么装 语义检索系统的关键就在于,采用语义而非关键词方式进行召回,达到更精准、更广泛得召回相似结果的目的。 1.1内容简介 低门槛 + 手把手搭建起检索系统 + 无需标注数据也能构建检索系统 + 提供 训练、预测、ANN 引擎一站式能力 + Pipelines 快速实现语义检索系统 效果好 + 针对多种数据场景的专业方案

    86900编辑于 2023-08-02
领券