搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏Soul Joy Hub
【NAACL 2022】GPL：用于密集检索的无监督域自适应的生成伪标记
GPL（用于密集检索的无监督域自适应的生成伪标记）克服了上述问题：它可以应用于微调模型之上。因此，可以使用其中一种预训练模型并将其调整到特定领域：训练的时间越长，你的模型就越好。我们使用密集检索进行这种挖掘，即我们使用现有的文本嵌入模型之一并检索给定query 的相关passage。伪标签：在负例挖掘步骤中，我们检索到与query 实际相关的passage（如 “What is Python” 的另一个定义）。正如我们在下图中看到的，对于生成query (“what is futures conrtact”)，负例挖掘步骤检索与生成query 部分或高度相关的passages。下表概述了 GPL 与自适应预训练（MLM 和 TSDAE）的比较。如前所述，GPL 可以与自适应预训练相结合：
76210编辑于 2022-09-30
来自专栏DeepHub IMBA
基于 LangGraph 的对话式 RAG 系统实现：多轮检索与自适应查询优化
传统 RAG 就是检索 top-k 文档然后喂给模型生成答案。最终要实现的系统能做下面的事情：接收对话式提问包括各种追问，把问题改写成独立完整的形式，判断问题是否属于可回答的范畴，检索相关文档并评估质量，没找到合适文档时自动优化查询重新检索，达到尝试上限后要么给出答案要么返回无法回答检索器拉取相关文档。评分器用 LLM 判断文档是否真的相关。优化器在没找到合适文档时改写问题重试。生成器基于检索到的文档和历史对话生成回答。兜底节点处理超出范围或无法回答的情况。系统尝试改写问题重新检索了两次，最后诚实地承认找不到答案。这个追问，把它改写成完整问题后成功检索并回答。到这里就完成了一个具备自适应能力的 RAG 系统，不只是做简单的相似度搜索。
69010编辑于 2025-11-15
来自专栏大模型系列
自适应检索（Adaptive RAG）：让AI学会“因问施策”的智能问答新范式
一、传统RAG的困境：“静态检索”的信息陷阱传统的检索增强生成（RAG）系统遵循一个固定的流水线：用户提问→向量检索→拼接上下文→LLM生成这种静态模式在面对复杂多变的真实场景时，暴露出严重缺陷：资源浪费这类简单问题，依然会触发昂贵的向量检索和LLM调用。检索不足：面对“对比A公司和B公司在2025年Q4的市场策略差异”这类复杂、多跳（multi-hop）问题，单次检索往往无法召回所有必要信息。，AdaptiveRAG不会止步于单次操作，而是采用更灵活的策略：递归检索（RecursiveRetrieval）：根据初次检索结果，生成新的、更精确的子查询，进行下一轮检索，直到收集到足够信息。查询改写（QueryRewriting）：利用对话历史或初次检索的上下文，对原始查询进行扩展、澄清或专业化，以提高检索精度。若需检索，则进入检索子图（Subgraph）。检索子图：执行查询改写。调用检索工具（向量库、搜索引擎等）。（可选）进行递归检索或多跳推理。
23521编辑于 2026-04-02
来自专栏大数据杂货铺
全文检索、向量检索和混合检索的比较分析
全文检索全文搜索是指将部分或全部文本查询与数据库中存储的文档进行匹配。与传统的数据库查询相比，全文搜索即使在部分匹配的情况下也能提供结果。 Elasticsearch 用户越来越多地使用不同类型信息的搜索检索 — BM25 用于文本，向量搜索用于密集向量。混合搜索技术通常会提供更好的结果：对多个 BIER 数据集进行基准测试显示，结合 BM25 和基于 ELSER 的排名时，相关性有所提高，现在用户甚至可以更轻松地组合所有这些检索方法。
6.3K10编辑于 2024-04-24
来自专栏DeepHub IMBA
Adaptive-k 检索：RAG 系统中自适应上下文长度选择的新方法
本文介绍 Adaptive-k 检索技术，这是一种通过相似性分布分析动态确定最优上下文规模的即插即用方法，该技术在显著降低 token 消耗的同时实现了检索增强生成系统的性能提升。固定检索策略的技术局限性传统 RAG 系统采用固定规模检索策略，通常检索前 k 个文档（如前 5、前 10 个），而不考虑查询复杂度或相关信息的分布特征。这种方法存在根本性的设计缺陷。 sorted_similarities[i] -sorted_similarities[i+1] gaps.append(gap) # 找到最大的间隙 optimal_k=argmax(gaps) 自适应检索与现有自适应方法相比，上下文召回率提高 3 倍，在不同信息密度（5k 到 50k 相关 token）下均保持稳健性能。 HoloBench 任务中不同相关信息量的结果。多模态技术扩展将核心原理应用于其他模态，包括具有视觉相似性分布的图文检索、具有语义相似性模式的代码检索，以及具有跨语言适应性的多语言系统。
32210编辑于 2025-08-20
来自专栏啦啦啦啦前端
信息检索格式布尔检索式
信息检索格式布尔检索式名称符号表达式功能逻辑与 * 或and AB 同时含有提问词A和B的文献，为命中文献逻辑或 + 或or A+B 凡是含有提问词A或B的文献，为命中文献逻辑非
1.6K40编辑于 2023-02-11
来自专栏算法与编程之美
网页|高级检索与专业检索
1、高级检索高级检索也称命令检索，是相对于基本检索而言，高级检索可以让你使用多于基本检索的标准来精炼检索，使检索信息更加详细，搜索出的结果可用性也更大。 ? 图1.1 百度高级检索示例图 ? 图1.2 知网高级检索示例图使用高级检索可以直接根据示例图所示，搞清楚查找资料的关系后，然后根据高级检索的相关内容直接输入逻辑关系搜索从而精确搜索信息。图1.3 知网高级检索示例图2 2、专业检索专业检索就是运用检索表达式实现的检索方式。这种检索方式可以让通过运用检索字段精确检索需要的内容。 ? 图2.1 知网专业检索示例图百度专业检索直接在搜索框输入检索式即可。图2.4 示例2检索结果结语运用高级检索和专业检索可以让搜索更加详细。
4.3K20发布于 2020-07-16
来自专栏AI研思录
颠覆传统检索：RAPTOR检索树提升检索准确率20%！
然而，现有的检索增强方只能检索几个简短的、连续的文本块，这对于需要整合文本多个部分的知识的问题是不够的，限制了它们表示和利用大规模语义结构的能力。这篇文章提出了一种新颖的方法——检索树，即考虑了广泛的主题理解，也考虑了细粒度的细节信息。在推理时，使用RAPTOR模型从这棵树中进行检索，在不同抽象层次上整合信息，以跨越较长文档进行理解。采用递归聚类和汇总技术，RAPTOR创建了一个分层树结构，能够跨检索语料库的各个部分综合信息。在查询阶段，RAPTOR 利用此树结构进行更有效的检索。实验表明，使用递归总结的检索方法在多个任务上相较于传统的检索增强语言模型提供了显著的改进。在涉及复杂、多步骤推理的问题解答任务中，展示了最优的结果。
77210编辑于 2025-02-20
来自专栏全栈程序员必看
iframe自适应高度_html页面自适应
为什么需要使用iframe自适应高度呢？其实就是为了美观，要不然iframe和窗口长短大小不一，看起来总是不那么舒服，特别是对于我们这些编程的来说，如鲠在喉的感觉。下面这个办法就是使用javascript实现iframe高度自适应的，这个可是兼容所有浏览器的，ie，firefox，chrome，opera，safari这些浏览器都能够实现iframe高度自适应的， pTar.contentDocument.body.offsetHeight; } pTar.width=pTar.contentDocument.body.scrollWidth; } } 具体的使用方法如下(设置id=phpernote的iframe的高度自适应 =”phpernote” οnlοad=”javascript:dyniframesize(‘phpernote’);”> 上篇文章我们介绍了如何使用iframe属性，这篇文章也依然教大家iframe自适应高度的解决办法
4.8K20编辑于 2022-11-04
来自专栏深度学习自然语言处理
探索无监督域自适应，释放语言模型的力量：基于检索增强的情境学习实现知识迁移
本文旨在探讨如何在无监督域自适应场景下，通过检索增强的情境学习（Retrieval-Augmented In-Context Learning）实现知识迁移。从目标未标记语料库中检索类似的示例作为源查询的上下文，并通过连接源查询和目标上下文作为输入提示来执行自适应上下文学习。本文对比了多种基线方法，包括无监督域自适应的传统方法（如Pseudo-labeling和对抗训练）、基于检索的LM方法（如REALM和RAG）和情境学习方法（如In-context learning）。最后作者也对比了自适应ICL和自适应预训练，自适应 ICL 在执行任务预测时将源输入与目标上下文混合，而自适应预训练只需要源输入；自适应ICL同时学习两个损失。从而得出结论所提出的自适应 ICL 策略优于自适应预训练，这可能归因于自适应 ICL 下的仅解码器模型可以学习具有示范上下文的两个目标。
1.4K10编辑于 2023-12-05
来自专栏大宇笔记
商城分类页面自适应标题，自适应换行。
cellForRowAtIndexPath:indexPath]; return cell.frame.size.height; } 难点和思路：难点：1.获取的最小一级的分类在按钮上自适应 2.什么时候换行需要判断 3.高度自适应 解决思路：取三级分类的标题叠加，如果越界就换行。
1.6K20发布于 2019-01-15
来自专栏全栈程序员必看
iframe自适应高度和宽度_自适应框架
var ifm_content = document.getElementById(“conFrame”);
4K40编辑于 2022-11-19
来自专栏大猪的笔记
检索日志
有时需要在大量日志中查找某个关键字。可用以下命令： find . -name "86??"|xargs grep -rn "get_web not hit cache" 从日志命名为 86xx的文件中
69440发布于 2019-11-22
来自专栏desperate633
第2-3课检索数据检索列检索排序数据
这两课主要介绍sql中利用select语句对数据的简单检索。下面分别讨论不同类型的检索检索列单个列 select prod_id from Products; 多个列 select prod_id, prod_name, prod_price from Products ; 所有列 select * from Products; 检索不同值的列 select distinct vend_id from products; 检索前几列或者后几列 select prod_name from products limit 5; select prod_name from products limit 5 offset 5; 检索排序数据单个列排序 select prod_name
1.1K20发布于 2018-08-22
来自专栏机器学习、深度学习
行人检索
quadruplet network for person re-identification CVPR2017 https://arxiv.org/abs/1704.01719 本文使用深度学习进行行人检索通过这个采样策略，使得我们的损失函数中边界阈值自适应得到实验结果对比： ?
1K20发布于 2019-05-26
来自专栏技术研究和应用
【向量检索研究系列】本地向量检索（下）
1 背景上一篇文章《向量检索研究系列：本地向量检索（上）》介绍了如何加快向量相似度计算，但是一般的向量检索流程还包括对计算结果进行排序，以及有必要的话，在计算相似度之前可以对向量库中的向量进行过滤筛选（图片2.1 向量过滤把广告通过模型转成向量后，向量应该关联广告的一些基本信息，广告检索条件是基于这些广告属性的，检索的时候可以根据检索条件在向量关联的广告信息中进行向量的筛选过滤。检索时把检索条件在第一个Map中查询到满足检索条件的广告ID列表，再根据ID列表从第二个Map中取出对应向量列表。大致结构可以参考2.2中向量存储方案图。（2）优化后本地向量检索P99时延降低50倍，平均时延降低180倍。（3）优化后本地向量检索时延分布，99.2的检索时延都在1ms以内。本地向量检索方案可以为100万以下数据量的业务提供快速、高性能且稳定的向量检索方案。SIMD自定义编程可以在应用到其它偏数学计算的业务，加速计算。
2.3K31编辑于 2022-07-14
来自专栏全栈程序员必看
iframe的高度自适应_div自适应高度
Demo页面：主页面 iframe_a.html ，被包含页面 iframe_b.htm 和 iframe_c.html 下面开始讲：通过Google搜索iframe 自适应高度，结果5W多条，搜索iframe 高度自适应，结果2W多条。而这几篇原创里面，基本上只谈到如何自适应静的东西，就是没有考虑到JS操作DOM之后，如何做动态同步的问题。另外，在兼容性方面，也研究的不彻底。这篇文章，希望在这两个方面再做一些深入。可能有人还没接触到这个问题过，先说明一下，什么是自适应高度吧。所谓iframe自适应高度，就是，基于界面美观和交互的考虑，隐藏了iframe的border和scrollbar，让人看不出它是个iframe。
8.8K40编辑于 2022-11-04
来自专栏铭毅天下
Elasticsearch：普通检索和向量检索的异同？
读者对向量检索和普通检索的区别充满了好奇，所以就有了今天的文章。以广泛被使用的 Lucene、Elasticsearch、Solr，以及最近出来的一些类似 MeiliSearch、Redisearch 等为代表，基于词元和倒排索引所构建的普通搜索，是建立在准确的搜索内容和检索语句上的，他们往往通过各种方式对文档进行分词（analyze），通过诸如BKD tree等数据结构，将拆解出来的词元（token）进行倒排索引，在检索时也会对检索语句进行同样的分词处理，通过相同词元的匹配进行召回
5.7K10编辑于 2022-02-09
来自专栏技术研究和应用
【向量检索研究系列】本地向量检索（上）
在数据量不大但检索QPS非常高的场景下，使用第三方的向量检索产品可能并不一定是最佳选择，像开源的Faiss、HNSWliib和ScaNN这些优秀的向量检索库比较适用于上亿数量级，而且第三方服务毕竟存在网络请求开销和不稳定性因素，高并发场景下容易导致检索平均时延上升和出现很多毛刺现象。而百万以内的数据是可以接受在业务服务本身内存中存储，这样可以省去很多网络请求时延，而且在服务本身做向量检索，不依赖第三方服务，检索性能相对稳定。但是在业务服务本身做向量检索会消耗比较多的CPU资源和内存资源，CPU资源是比较稀缺的，而且普通的向量检索效率比较低，时延比较长，如何减少资源消耗和加快向量检索效率成为了优化目标。但实际上向量检索的流程还有前置的向量过滤（可选流程）和后置的检索结果排序，这两个方面也有进一步优化的空间，以及整体优化后的效果将在下一篇文章《向量检索研究系列：本地向量检索（下）》中进行详细介绍。
1.6K31编辑于 2022-09-13
来自专栏铭毅天下
Elasticsearch 8.X 向量检索和普通检索能否实现组合检索？如何实现？
Elasticsearch：普通检索和向量检索的异同？ knn 检索咱讲过，翻一下官方文档即可。结论：并列组合检索不可行。 2.3.2 方式二：大 BOOL 组合写按照常规逻辑的 bool 组合检索，结果发现：并不支持！ 2.3.5 官方答案二：hybrid search 混合检索这个方式，就是咱们前面验证过的并列组合检索方式。结论和之前一致，并没有达到预期。基于已有的常识组合检索是一种方式，更快的方式是结合官方文档探究。我们既定认为的检索方式，不见得是官方推荐的方式。
1.6K10编辑于 2024-04-11

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

【NAACL 2022】GPL：用于密集检索的无监督域自适应的生成伪标记

基于 LangGraph 的对话式 RAG 系统实现：多轮检索与自适应查询优化

自适应检索（Adaptive RAG）：让AI学会“因问施策”的智能问答新范式

全文检索、向量检索和混合检索的比较分析

Adaptive-k 检索：RAG 系统中自适应上下文长度选择的新方法

信息检索格式布尔检索式

网页|高级检索与专业检索

颠覆传统检索：RAPTOR检索树提升检索准确率20%！

iframe自适应高度_html页面自适应

探索无监督域自适应，释放语言模型的力量：基于检索增强的情境学习实现知识迁移

商城分类页面自适应标题，自适应换行。

iframe自适应高度和宽度_自适应框架

检索日志

第2-3课检索数据检索列检索排序数据

行人检索

【向量检索研究系列】本地向量检索（下）

iframe的高度自适应_div自适应高度

Elasticsearch：普通检索和向量检索的异同？

【向量检索研究系列】本地向量检索（上）

Elasticsearch 8.X 向量检索和普通检索能否实现组合检索？如何实现？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

【NAACL 2022】GPL：用于密集检索的无监督域自适应的生成伪标记

基于 LangGraph 的对话式 RAG 系统实现：多轮检索与自适应查询优化

自适应检索（Adaptive RAG）：让AI学会“因问施策”的智能问答新范式

全文检索、向量检索和混合检索的比较分析

Adaptive-k 检索：RAG 系统中自适应上下文长度选择的新方法

信息检索格式 布尔检索式

网页|高级检索与专业检索

颠覆传统检索：RAPTOR检索树提升检索准确率20%！

iframe自适应高度_html页面自适应

探索无监督域自适应，释放语言模型的力量：基于检索增强的情境学习实现知识迁移

商城分类页面自适应标题，自适应换行。

iframe自适应高度和宽度_自适应框架

检索日志

第2-3课 检索数据检索列检索排序数据

行人检索

【向量检索研究系列】本地向量检索（下）

iframe的高度自适应_div自适应高度

Elasticsearch：普通检索和向量检索的异同？

【向量检索研究系列】本地向量检索（上）

Elasticsearch 8.X 向量检索和普通检索能否实现组合检索？如何实现？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

信息检索格式布尔检索式

第2-3课检索数据检索列检索排序数据