AI 和 LLM 的进步通常归因于三个方面的持续改进:模型、数据、计算。三者互相关联。要跑起那些参数量庞大的模型,就需要足够的计算资源来支撑。Llama 3 最...
在指令集架构(ISA)层面,NVIDIA 和 AMD 几乎在所有核心设计上都分道扬镳。下面用通俗的语言,带你看懂两者底层最关键的差异,也明白为什么直接把 N 卡...
2026年3月3日,ollama v0.17.5版本正式发布。这一版本可谓一次重要升级,核心亮点在于新增了Qwen3.5系列模型,并全面改进了采样算法、GPU与...
作者: HOS(安全风信子) 日期: 2024-10-18 主要来源平台: GitHub 摘要: 本文深入分析uv包管理器在GPU PyTorch安装中的...
作者: HOS(安全风信子) 日期: 2026-02-16 主要来源: GitHub 摘要: 本文深入分析2026年AI工具生成代码在GPU上运行的常见问...
作者: HOS(安全风信子) 日期: 2026-01-01 主要来源平台: GitHub 摘要: 本文详细分析2026年使用uv和torch快速安装GPU...
作者: HOS(安全风信子) 日期: 2026-01-01 主要来源平台: GitHub 摘要: 本文详细分析2026年AI工具(如Copilot、Cla...
腾讯 | 高级工程师 (已认证)
当第一次体验到大模型带给你的惊喜时,你有没有想过,它到底是怎么思考的?你或许忙碌、疲惫,连思考“它是怎么思考的”都来不及去思考。可是在过去的很长时间里,模型参数...
对于国产 GPU 行业来说,没有哪个时间节点比当下更宝贵。在政策支持硬科技企业上市的背景下,国产 GPU 迎来了难得的上市黄金窗口期。但上市并非终点,在敲钟的那...
在AI、大数据、云计算等技术的广泛应用的背景下,企业如何应对图像处理、科学计算、深度学习等场景的高负载计算挑战?当算力成为高频诉求,怎样才能摆脱技术约束,走向算...
摘要:在AI的淘金热中,光有铲子(GPU)是不够的,你还需要水和电。美银证券(BofA)最新发布的74页深度报告揭示了一个被市场忽视的残酷现实:No Power...
这是卡内基梅隆大学助理教授、艾伦人工智能研究所研究科学家,蒂姆·德特默斯对 AGI 给出的判断,他用一篇文章 《通用人工智能为何不会成为现实》 直接把 AGI ...
GPU Direct RDMA是2009年由Nvidia和Mellanox共同研发的软硬件协同创新技术。
AI推理的内存挑战是多维度的。首先是模型权重本身的庞大体积。 以Llama 3.1 405B为例 ,使用FP16存储需要约810GB内存 ,即便是最新的H200...
作者:HOS(安全风信子) 日期:2026-01-19 来源平台:GitHub 摘要: 本文深入剖析vLLM框架中CPU/GPU协同计算的核心机制,重点探...
作者:HOS(安全风信子) 日期:2026-01-19 来源平台:GitHub 摘要: 本文深入剖析GPU显存碎片问题的成因、影响及解决方案,重点探讨vL...
通过https://docs.nvidia.cn/cuda/cuda-toolkit-release-notes/index.html找到与之对应的 CUDA ...
GPU的片上共享内存有限,完整的大矩阵的运算会导致内存溢出,对矩阵分块应用并行计算是必备的优化方法,那如何对矩阵分块,分块后如何并行计算?了解以上问题可以加深对...