搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏新智元
清华第二代60亿参数ChatGLM2开源！中文榜居首，碾压GPT-4，推理提速42%
更高效的推理基于 Multi-Query Attention 技术，ChatGLM2-6B有更高效的推理速度和更低的显存占用. MMLU C-Eval GSM8K BBH 推理性能 ChatGLM2-6B使用 Multi-Query Attention，提高了生成速度。生成2000个字符的平均速度对比如下： Multi-Query Attention同时也降低了生成过程中KV Cache的显存占用。
90730编辑于 2023-09-08
来自专栏AI算法与图像处理
CVPR 2021 Oral | Transformer又一新突破！华南理工和微信提出UP-DETR：无监督预训练检测器
idea其实就这么简单，但具体实现上，我们其实遇到了两个主要的问题，在paper里，我们把它们总结为：multi-task learning和multi-query localization。对于multi-query localization，主要是说对于DETR，decoder其实有100个object query，这100个object query其实是100个网络隐式学到的空间位置偏好的我们从最简单的single-query开始介绍，把它拓展到了支持multi-query的预训练。对于multi-query，我们认为有两个要满足的条件，第一个是 query之间框的预测是独立的，所以我们提出了一个放在decoder上的attention mask，保证query之间彼此不可见。
1.4K30发布于 2021-03-12
来自专栏DeepHub IMBA
LLM 加速技巧：Muti Query Attention
加了当前步长的Value张量，形状为[b, h, m+1, v] 维度表示如下： M:先前执行的步骤数 B:批量大小 D:输入和输出的尺寸 H:注意力头数 k:Q，K张量的另一个维度 v: v张量的另一个维度 Multi-Query MQA的方法是保持Q的初始头数，但K和V只有一个头，这意味着所有Q个头共享相同的K和V，因此称为Multi-Query，如下图所示: 从论文的解释中可以看到，MQA 让所有的头之间共享同一份 Key self.out_proj(context), attn_weights, past_key_value class MultiQueryAttention(nn.Module): """Multi-Query self.head_dim = d_model // n_heads self.Wqkv = nn.Linear( # Multi-Query
1.3K10编辑于 2024-03-11
来自专栏NewBeeNLP
浅谈训练LLM的一些小技巧
那同样实际测测看红色是加了Early Dropout，可以看到随着训练，优势越来越明显四、Multi-Query Attention 在Palm模型中，使用multi-query attention 但在multi-query attention，K、V仅生成一次（不是针对每个头），只有每个注意力头的Q不同。详细解释参见。
1.2K20编辑于 2023-10-09
来自专栏从流域到海域
最强英文开源模型Llama2架构与技术细节探秘
Group-Query Attention GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints 如上图：左边是transformer原始的Multi-head Attention，它有H个query，key，value，即每个query单独配一个key和value 右边是其他研究者提出的Multi-query Open Foundation and Fine-Tuned Chat Models 大模型技术实践（二）｜关于Llama 2你需要知道的那些事儿 GQA: Training Generalized Multi-Query
3.2K30编辑于 2023-11-21
来自专栏自然语言处理
DMQR-RAG: 基于多样化查询重写的检索增强生成
为了解决这个问题，该论文提出了一个名为DMQR-RAG（Diverse Multi-Query Rewriting for Retrieval-Augmented Generation）的框架，旨在通过多样化的多查询重写来改善文档检索和最终响应的性能核心内容论文通过提出**DMQR-RAG（Diverse Multi-Query Rewriting for Retrieval-Augmented Generation）**框架来解决上述问题，具体解决方案包括以下几个关键点多查询重写策略（Multi-Query Rewriting Strategies）论文提出了四种基于信息量的重写策略，以确保重写的查询具有多样性，并提供独特的信息，从而增加检索到真正相关文档的可能性：
61910编辑于 2024-11-23
来自专栏大大刺猬
[翻译] MySQL Community Server 5.7.41 更新日志
(Bug #33100586)server端的审计插件总是记录整个multi-query, 而不是记录特定部分. 设置查询长度即可 (Bug #107390, Bug #34207811)
1.6K30编辑于 2023-01-21
来自专栏JAVA
ChatGLM2-6B和ChatGLM-6B：双语对话生成的领先之选
更高效的推理：ChatGLM2-6B引入了Multi-Query Attention技术，在更低的显存资源下以更快的速度进行推理，相比第一代提升了42%2。资源占用低：使用了Multi-Query Attention和INT4量化等技术，降低了显存占用和推理时间，提高了效率和便捷性。
37810编辑于 2024-11-20
来自专栏DeepHub IMBA
LlamaIndex检索调优实战：分块、HyDE、压缩等8个提效方法快速改善答案质量
Multi-query则是生成多个改写版本，从不同角度去检索。 product、version、date、author等）检索阶段：混合检索（vector + BM25）→ 相似度阈值过滤 → cross-encoder重排序 Query处理：对模糊问题用HyDE + multi-query 后面再根据实际问题针对性地补充HyDE/multi-query（解决query不清晰）、metadata filter（限定范围）、compression（降噪）、adaptive k（提升置信度）。
20110编辑于 2025-11-15
来自专栏腾讯技术工程官方号的专栏
主流大语言模型的技术原理细节
大语言模型的细节 1.0 transformer 与 LLM 1.1 模型结构 1.2 训练目标 1.3 tokenizer 1.4 位置编码 1.5 层归一化 1.6 激活函数 1.7 Multi-query
2.5K64编辑于 2023-09-13
来自专栏个人博客
speculative-sampling笔记 - plus studio
因为speculative-sampling没有改变transformer的结构，所以可以和其他方法结合使用 ,例如量化，multi-query attention。
52710编辑于 2024-02-29
来自专栏自然语言处理
【LLM系列之底座模型对比】LLaMA、Palm、GLM、BLOOM、GPT模型结构对比
Multi-Query Attention：每个头共享键/值的映射，即“key”和“value”被投影到 [1, h]，但“query”仍被投影到形状 [k, h]，这种操作对模型质量和训练速度没有影响
1.6K41编辑于 2023-08-25
来自专栏开源服务指南
ChatGPT 的平替们：开源的大语言模型推荐
高效推理速度与低显存消耗：使用 Multi-query Attention 技术实现更快速、内存消耗更小 THUDM/ChatGLM2-6B[2] Stars: 3.9k License: NOASSERTION 更高效的推理：采用 Multi-Query Attention 技术，提高生成速度和降低显存占用。此外，ChatGLM2-6B 还具有完全开放权重、商业使用授权等诸多优点。
1.4K40编辑于 2023-08-10
来自专栏加菲猫的VFP
加菲猫的AI大模型初体验
更高效的推理：基于 Multi-Query Attention 技术，ChatGLM2-6B 有更高效的推理速度和更低的显存占用：在官方的模型实现下，推理速度相比初代提升了 42%，INT4 量化下，6G
34310编辑于 2024-04-11
来自专栏NewBeeNLP
盘点！Instruction Tuning 时代的大模型（下）
激活函数，采用 RoPE，共享 input, output embedding，所有 layer 不用 biases，更改 Transformer Block 中 Layernorm 的并行方式，使用 multi-query
67030编辑于 2023-08-29
来自专栏机器之心
终极「揭秘」：GPT-4模型架构、训练成本、数据集信息都被扒出来了
12、Multi-Query Attention：OpenAI 和其他机构一样，也在使用 Multi-Query Attention（MQA）。
1.5K40编辑于 2023-08-07
来自专栏集智书童
Backbone | 谷歌提出LambdaNetworks：无需注意力让网络更快更强(文末获取论文源码)
4.2 减少复杂性的Multi-Query 由于输出维度比较大可能会带来比较大的计算复杂度，因此作者还设计了Multi-query Lambda Layer以减少复杂度，进而降低推理时间。 output = reshape(content output + position output, [b, n, d]) return output 虽然这类似于multi-head或multi-query
1.5K30发布于 2021-05-28
来自专栏自然语言处理
【LLM系列之PaLM】PaLM: Scaling Language Modeling with Pathways
self.fused_attn_ff_proj(x).split(self.fused_dims, dim=-1) # split heads # they use multi-query out = rearrange(out, "b h n d -> b n (h d)") return self.attn_out(out) + self.ff_out(ff) （3）Multi-Query
1.4K20编辑于 2023-08-25
来自专栏SimpleAI
Google的 Pathways（理想）与 PaLM（现实）
Model： A dense, decoder-only, full-attention Transformer model 使用 SwiGLU Activation，Parallel Layers，Multi-Query
1K20编辑于 2022-11-30
来自专栏张善友的专栏
TechEmpower 21轮Web框架性能评测 -- C# 的性能和 Rust、C++并驾齐驱
基准测试有许多场景（也称为测试类型），此次评测多了一个综合评分选项，把拥有完整测试覆盖的框架现在将具有综合分数，这反映了测试项目类型的总体性能得分：JSON serialization, Single-query, Multi-query
3.7K30编辑于 2022-09-16

第 2 页第 3 页第 4 页第 5 页

点击加载更多

清华第二代60亿参数ChatGLM2开源！中文榜居首，碾压GPT-4，推理提速42%

CVPR 2021 Oral | Transformer又一新突破！华南理工和微信提出UP-DETR：无监督预训练检测器

LLM 加速技巧：Muti Query Attention

浅谈训练LLM的一些小技巧

最强英文开源模型Llama2架构与技术细节探秘

DMQR-RAG: 基于多样化查询重写的检索增强生成

[翻译] MySQL Community Server 5.7.41 更新日志

ChatGLM2-6B和ChatGLM-6B：双语对话生成的领先之选

LlamaIndex检索调优实战：分块、HyDE、压缩等8个提效方法快速改善答案质量

主流大语言模型的技术原理细节

speculative-sampling笔记 - plus studio

【LLM系列之底座模型对比】LLaMA、Palm、GLM、BLOOM、GPT模型结构对比

ChatGPT 的平替们：开源的大语言模型推荐

加菲猫的AI大模型初体验

盘点！Instruction Tuning 时代的大模型（下）

终极「揭秘」：GPT-4模型架构、训练成本、数据集信息都被扒出来了

Backbone | 谷歌提出LambdaNetworks：无需注意力让网络更快更强(文末获取论文源码)

【LLM系列之PaLM】PaLM: Scaling Language Modeling with Pathways

Google的 Pathways（理想）与 PaLM（现实）

TechEmpower 21轮Web框架性能评测 -- C# 的性能和 Rust、C++并驾齐驱

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

清华第二代60亿参数ChatGLM2开源！中文榜居首，碾压GPT-4，推理提速42%

CVPR 2021 Oral | Transformer又一新突破！华南理工和微信提出UP-DETR：无监督预训练检测器

LLM 加速技巧：Muti Query Attention

浅谈训练LLM的一些小技巧

最强英文开源模型Llama2架构与技术细节探秘

DMQR-RAG: 基于多样化查询重写的检索增强生成

[翻译] MySQL Community Server 5.7.41 更新日志

ChatGLM2-6B和ChatGLM-6B：双语对话生成的领先之选

LlamaIndex检索调优实战：分块、HyDE、压缩等8个提效方法快速改善答案质量

主流大语言模型的技术原理细节

speculative-sampling笔记 - plus studio

【LLM系列之底座模型对比】LLaMA、Palm、GLM、BLOOM、GPT模型结构对比

ChatGPT 的平替们：开源的大语言模型推荐

加菲猫的AI大模型初体验

盘点！Instruction Tuning 时代的大模型（下）

终极「揭秘」：GPT-4模型架构、训练成本、数据集信息都被扒出来了

Backbone | 谷歌提出LambdaNetworks：无需注意力让网络更快更强(文末获取论文源码)

【LLM系列之PaLM】PaLM: Scaling Language Modeling with Pathways

Google的 Pathways（理想）与 PaLM（现实）

TechEmpower 21轮Web框架 性能评测 -- C# 的性能 和 Rust、C++并驾齐驱

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

TechEmpower 21轮Web框架性能评测 -- C# 的性能和 Rust、C++并驾齐驱