DeepSeek《认知之旅》记录了DeepSeek V3/R1相关的8篇核心论文,以及最新的原生可训练稀疏注意力机制NSA论文中描述的关键要点,以时间顺序按脑图的形式整理到白板文件中,供大家学习使用。
其中每篇论文的脑图都记录了对应的研究背景、核心贡献、研究方法、评估结果以及一些非常重要的讨论和洞见,用全局视角从这份文件中或可窥得DeepSeek获得如此巨大成功的一些小线索。
2025-02-24开源周项目FlashMLA相关信息已更新,FlashMLA成就:GPU带宽利用接近理论极限,算力利用效率翻倍。
需要知晓后续进展的关注文档变更即可。
白板链接:https://kcnrgc2yrax7.feishu.cn/docx/AJo5dVRS7ortyEx1OW8cX9KBngd?openbrd=1&doc_app_id=501&blockId=doxcncVubbqQeHtN9klREuWVgUQ&blockType=whiteboard&blockToken=KrGqwrZKDh2PkpbNR6hcWn2Rn7b#doxcncVubbqQeHtN9klREuWVgUQ
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。