暂无搜索历史
本文从常识出发、从自然语言的词性分析/句式分析的视角,深度探讨、推导得到Transformer 模型中 QKV 机制的本质,并据此给出目前流行的MQA/GQA/...
人们一直惊叹 于LLM/Transformer 的强大能力,但对它的核心能力-Attention 的内部原理/本质了解甚少或选择性忽略;
专注 LLM 可解释性
暂未填写公司和职称
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址