首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏新智元

    清华第二代60亿参数ChatGLM2开源!中文榜居首,碾压GPT-4,推理提速42%

    更高效的推理 基于 Multi-Query Attention 技术,ChatGLM2-6B有更高效的推理速度和更低的显存占用. MMLU C-Eval GSM8K BBH 推理性能 ChatGLM2-6B使用 Multi-Query Attention,提高了生成速度。 生成2000个字符的平均速度对比如下: Multi-Query Attention同时也降低了生成过程中KV Cache的显存占用。

    90730编辑于 2023-09-08
  • 来自专栏AI算法与图像处理

    CVPR 2021 Oral | Transformer又一新突破!华南理工和微信提出UP-DETR:无监督预训练检测器

    idea其实就这么简单,但具体实现上,我们其实遇到了两个主要的问题,在paper里,我们把它们总结为:multi-task learning和multi-query localization。 对于multi-query localization,主要是说对于DETR,decoder其实有100个object query,这100个object query其实是100个网络隐式学到的空间位置偏好的 我们从最简单的single-query开始介绍,把它拓展到了支持multi-query的预训练。 对于multi-query,我们认为有两个要满足的条件,第一个是 query之间框的预测是独立的,所以我们提出了一个放在decoder上的attention mask,保证query之间彼此不可见。

    1.4K30发布于 2021-03-12
  • 来自专栏DeepHub IMBA

    LLM 加速技巧:Muti Query Attention

    加了当前步长的Value张量,形状为[b, h, m+1, v] 维度表示如下: M:先前执行的步骤数 B:批量大小 D:输入和输出的尺寸 H:注意力头数 k:Q,K张量的另一个维度 v: v张量的另一个维度 Multi-Query MQA的方法是保持Q的初始头数,但K和V只有一个头,这意味着所有Q个头共享相同的K和V,因此称为Multi-Query,如下图所示: 从论文的解释中可以看到,MQA 让所有的头之间 共享 同一份 Key self.out_proj(context), attn_weights, past_key_value class MultiQueryAttention(nn.Module): """Multi-Query self.head_dim = d_model // n_heads self.Wqkv = nn.Linear( # Multi-Query

    1.3K10编辑于 2024-03-11
  • 来自专栏NewBeeNLP

    浅谈训练LLM的一些小技巧

    那同样实际测测看 红色是加了Early Dropout,可以看到随着训练,优势越来越明显 四、Multi-Query Attention 在Palm模型中,使用multi-query attention 但在multi-query attention,K、V仅生成一次(不是针对每个头),只有每个注意力头的Q不同。详细解释参见。

    1.2K20编辑于 2023-10-09
  • 来自专栏从流域到海域

    最强英文开源模型Llama2架构与技术细节探秘

    Group-Query Attention GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints 如上图: 左边是transformer原始的Multi-head Attention,它有H个query,key,value,即每个query单独配一个key和value 右边是其他研究者提出的Multi-query Open Foundation and Fine-Tuned Chat Models 大模型技术实践(二)|关于Llama 2你需要知道的那些事儿 GQA: Training Generalized Multi-Query

    3.2K30编辑于 2023-11-21
  • 来自专栏自然语言处理

    DMQR-RAG: 基于多样化查询重写的检索增强生成

    为了解决这个问题,该论文提出了一个名为DMQR-RAG(Diverse Multi-Query Rewriting for Retrieval-Augmented Generation)的框架,旨在通过多样化的多查询重写来改善文档检索和最终响应的性能 核心内容 论文通过提出**DMQR-RAG(Diverse Multi-Query Rewriting for Retrieval-Augmented Generation)**框架来解决上述问题,具体解决方案包括以下几个关键点 多查询重写策略(Multi-Query Rewriting Strategies) 论文提出了四种基于信息量的重写策略,以确保重写的查询具有多样性,并提供独特的信息,从而增加检索到真正相关文档的可能性:

    61910编辑于 2024-11-23
  • 来自专栏大大刺猬

    [翻译] MySQL Community Server 5.7.41 更新日志

    (Bug #33100586)server端的审计插件总是记录整个multi-query, 而不是记录特定部分. 设置查询长度即可 (Bug #107390, Bug #34207811)

    1.6K30编辑于 2023-01-21
  • 来自专栏JAVA

    ChatGLM2-6B和ChatGLM-6B:双语对话生成的领先之选

    更高效的推理:ChatGLM2-6B引入了Multi-Query Attention技术,在更低的显存资源下以更快的速度进行推理,相比第一代提升了42%2。 资源占用低:使用了Multi-Query Attention和INT4量化等技术,降低了显存占用和推理时间,提高了效率和便捷性。

    37810编辑于 2024-11-20
  • 来自专栏DeepHub IMBA

    LlamaIndex检索调优实战:分块、HyDE、压缩等8个提效方法快速改善答案质量

    Multi-query则是生成多个改写版本,从不同角度去检索。 product、version、date、author等) 检索阶段: 混合检索(vector + BM25)→ 相似度阈值过滤 → cross-encoder重排序 Query处理: 对模糊问题用HyDE + multi-query 后面再根据实际问题针对性地补充HyDE/multi-query(解决query不清晰)、metadata filter(限定范围)、compression(降噪)、adaptive k(提升置信度)。

    20110编辑于 2025-11-15
  • 来自专栏腾讯技术工程官方号的专栏

    主流大语言模型的技术原理细节

    大语言模型的细节 1.0 transformer 与 LLM 1.1 模型结构 1.2 训练目标 1.3 tokenizer 1.4 位置编码 1.5 层归一化 1.6 激活函数 1.7 Multi-query

    2.5K64编辑于 2023-09-13
  • 来自专栏个人博客

    speculative-sampling笔记 - plus studio

    因为speculative-sampling没有改变transformer的结构,所以可以和其他方法结合使用 ,例如量化,multi-query attention。

    52710编辑于 2024-02-29
  • 来自专栏自然语言处理

    【LLM系列之底座模型对比】LLaMA、Palm、GLM、BLOOM、GPT模型结构对比

    Multi-Query Attention:每个头共享键/值的映射,即“key”和“value”被投影到 [1, h],但“query”仍被投影到形状 [k, h],这种操作对模型质量和训练速度没有影响

    1.6K41编辑于 2023-08-25
  • 来自专栏开源服务指南

    ChatGPT 的平替们:开源的大语言模型推荐

    高效推理速度与低显存消耗:使用 Multi-query Attention 技术实现更快速、内存消耗更小 THUDM/ChatGLM2-6B[2] Stars: 3.9k License: NOASSERTION 更高效的推理:采用 Multi-Query Attention 技术,提高生成速度和降低显存占用。 此外,ChatGLM2-6B 还具有完全开放权重、商业使用授权等诸多优点。

    1.4K40编辑于 2023-08-10
  • 来自专栏加菲猫的VFP

    加菲猫的AI大模型初体验

    更高效的推理:基于 Multi-Query Attention 技术,ChatGLM2-6B 有更高效的推理速度和更低的显存占用:在官方的模型实现下,推理速度相比初代提升了 42%,INT4 量化下,6G

    34310编辑于 2024-04-11
  • 来自专栏NewBeeNLP

    盘点!Instruction Tuning 时代的大模型(下)

    激活函数,采用 RoPE,共享 input, output embedding,所有 layer 不用 biases,更改 Transformer Block 中 Layernorm 的并行方式,使用 multi-query

    67030编辑于 2023-08-29
  • 来自专栏机器之心

    终极「揭秘」:GPT-4模型架构、训练成本、数据集信息都被扒出来了

    12、Multi-Query Attention:OpenAI 和其他机构一样,也在使用 Multi-Query Attention(MQA)。

    1.5K40编辑于 2023-08-07
  • 来自专栏集智书童

    Backbone | 谷歌提出LambdaNetworks:无需注意力让网络更快更强(文末获取论文源码)

    4.2 减少复杂性的Multi-Query 由于输出维度比较大可能会带来比较大的计算复杂度,因此作者还设计了Multi-query Lambda Layer以减少复杂度,进而降低推理时间。 output = reshape(content output + position output, [b, n, d]) return output 虽然这类似于multi-head或multi-query

    1.5K30发布于 2021-05-28
  • 来自专栏自然语言处理

    【LLM系列之PaLM】PaLM: Scaling Language Modeling with Pathways

    self.fused_attn_ff_proj(x).split(self.fused_dims, dim=-1) # split heads # they use multi-query out = rearrange(out, "b h n d -> b n (h d)") return self.attn_out(out) + self.ff_out(ff) (3)Multi-Query

    1.4K20编辑于 2023-08-25
  • 来自专栏SimpleAI

    Google的 Pathways(理想)与 PaLM(现实)

    Model: A dense, decoder-only, full-attention Transformer model 使用 SwiGLU Activation,Parallel Layers,Multi-Query

    1K20编辑于 2022-11-30
  • 来自专栏张善友的专栏

    TechEmpower 21轮Web框架 性能评测 -- C# 的性能 和 Rust、C++并驾齐驱

    基准测试有许多场景(也称为测试类型),此次评测多了一个综合评分选项,把拥有完整测试覆盖的框架现在将具有综合分数,这反映了测试项目类型的总体性能得分:JSON serialization, Single-query, Multi-query

    3.7K30编辑于 2022-09-16
领券