搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏架构驿站
一文读懂开源 Llama 4 模型
Hello folks，我是 Luga，今天我们来聊一下人工智能领域的最新大模型技术进展 - 构建高效、灵活、以及开源的的大模型 - Llama 4 。作为 Llama 4 系列模型，Meta AI 推出的 Scout、Maverick 和 Behemoth——是一组高效能、开源且多模态的语言模型，标志着 AI 技术在性能与可访问性上的全新突破。更令人瞩目的是，这些模型支持高达 1000 万 token 的上下文长度，创下了当前所有开源权重 LLM 的最长记录。 2、Llama 4 Maverick：强大可靠的旗舰之选 Maverick 作为 Llama 4 家族的旗舰开源模型，专为高级推理、编码和多模态应用而生。在应用场景落地方面，尽管目前仅限内部使用，Behemoth 作为 Meta 的黄金评估标准，驱动了家族模型的性能提升，并为未来开源奠定了技术基础。
1.1K20编辑于 2025-04-07
来自专栏算法一只狗
首个超越GPT-4o的开源模型：LLAMA3.1开源了
今年4月份的时候，META发布了自己的第三代开源模型LLAMA3，并且在那次就说了LLAMA3目前还在训练当中。开源模型的几个亮点从官方放出的LLAMA3.1来看，有以下几个关键要点：模型上下文长度扩展：目前LLAMA3.1已经把模型上下文长度扩充到128K，对比于LLAMA2只有4k~8k，其提升幅度还是比较大模型开源版本覆盖同时LLAMA3.1模型还有开源的70B、8B，并且这较小模型与具有相似参数数量的其他模型对比来看，在多个测试集上效果也更强：目前可以在huggingface网站上下载LLAMA3.1，META提供了多个不同的版本虽然这个405B的大模型在一定程度上已经超越了GPT-4o，但是超越了目前的4o模型，并不代表能够超越OpenAI的GPT-4模型，要知道4o是在GPT-4的基础上优化了两个版本（GPT-4 TURBO OpenAI目前都在开始卷小模型市场，GPT-4o mini或许能够成为最具性价比的大模型。因此一直走开源路线的LLAMA3.1还需要不断继续优化，成为普通人都能用到的一个性价比更好的大模型才是关键。
1K20编辑于 2024-08-14
来自专栏周末程序猿
ChatGPT|开源大模型Llama3性能匹敌GPT4
4月18日，Meta正式发布Llama3，开源了包括8B和70B，在多个关键的基准测试中性能优于业界先进同类模型，其在代码生成等任务上实现了全面领先，能够进行复杂的推理，可以更遵循指令。开源地址下载链接：https://llama.meta.com/llama-downloads/ Github：https://github.com/meta-llama/ 开源地址体验地址：（1 ）https://llama3.replicate.dev/ （2）https://build.nvidia.com/explore/discover#llama3-70b，英伟达在这个平台上提供各种模型，其中包括现在流行的模型，建议收藏（3）https://huggingface.co/meta-llama/Meta-Llama-3-8B，huggingface地址如果有GPU可以尝试自己跑起来：，如同Llama3生成的诗一样：开源精神激发创新，人工智能的民主化，让所有人参与其中 .....
21010编辑于 2025-02-27
来自专栏程序随笔
聊聊GLM-4-9B开源模型的微调loss计算
概述 Github官方地址：GLM-4 网上已经有很多关于微调的文章，介绍各种方式下的使用，这里不会赘述。
48410编辑于 2024-06-13
来自专栏机器之心
英伟达开源最强通用模型Nemotron-4 340B
英伟达的通用大模型 Nemotron，开源了最新的 3400 亿参数版本。本周五，英伟达宣布推出 Nemotron-4 340B。这些模型经过优化，可与 NVIDIA NeMo 配合使用，后者是一个用于端到端模型训练的开源框架，包括数据管理、定制和评估。它们还针对开源 NVIDIA TensorRT-LLM 库的推理进行了优化。英伟达表示，Nemotron-4 340B 现已可从 Hugging Face 下载。研究人员还可以使用自己的专有数据，结合已包含的 HelpSteer2 数据集，来定制 Nemotron-4 340B 基础模型，从而创建自有的 Instruct 模型或奖励模型。该研究发现这样的模型在 RewardBench 上表现非常出色：用 NeMo 微调，用 TensorRT-LLM 优化推理使用开源的 NVIDIA NeMo 和 NVIDIA TensorRT-LLM
80710编辑于 2024-06-17
谷歌Gemma 4遇上国产顶流：开源模型哪家强？
题图摄于北京黄花水长城谷歌上周发布 Gemma 4 系列开源模型，首次采用 Apache 2.0 协议，从手机到服务器全场景覆盖，从“替代品” 战略转向“争夺基础设施层”。与此同时，国内 Kimi K2.5、MiniMax M2.5、Qwen 3.5、GLM-5 等高性能模型集体爆发，中外开源力量，在此刻“相遇”了。选开源模型如同选队友：能力要强、成本要低、好管理、无法律风险。接下来，我们从开源协议、硬件成本、代码能力、多模态表现、部署难度五个维度入手，把谷歌 Gemma 4 和国产顶流模型放在一起比一比。模型的开源许可协议，就是你和“AI员工”签的劳动合同。条款宽松还是苛刻，直接决定了你的商业应用会不会踩坑。结语 2026年的开源模型生态，就像一个热闹非凡的人才市场，各路“AI打工人”摆摊亮相：综合能力雷达图 • 谷歌Gemma 4 像海归精英——背景光鲜（谷歌出品）、能力全面（多模态+Agent）、适应各种岗位
33020编辑于 2026-04-13
来自专栏睡前机器学习
开源大模型到底开源什么？
但大语言模型的“开源”完全不是这么一回事。先别管OpenAI现在名叫钮钴禄氏·CloseAI，就算哪天良心发现，真的要找回自己做一个名副其实的OpenAI，洗心革面把GPT-4给开源了。先别着急着高兴，对于99%的人来说，GPT-4的源码毫无意义，对于剩下的1%里的99%，可能也就蹭一些研究论文。只有最后剩下的1%里的1%才会有真正帮助，不过，也只是有帮助，但不算很大。为什么？那么，现在很多研究者在呼吁的开源，到底是要开源什么呢？开源模型，具体来说，是开源训练好的模型参数。模型参数拿到手，基本上就能完整复现能力了。前面说过，模型这玩意距离能力复现就一步之遥，有很多人爱开源模型，也有很多人不爱开源模型，原因和上面差不多，还有一种是大公司大机构才敢用，官方辞令很多，譬如“出于社会责任考虑”，或者“安全伦理存在巨大风险这里为咱们的中文开源大语言模型打个Call吧，能讲中文还开源的大语言模型真的不多，清华放出来的ChatGLM-6B应该是佼佼者，而是真·单卡就能运行。这里说的是消费级显卡。
1.6K20编辑于 2023-09-09
来自专栏深度学习与python
微软也搞起了开源小模型！利用OpenAI的ChatGPT和GPT-4 训练，实力碾压当前最强开源模型
Orca 碾压开源模型，赶超 ChatGPT 现在，大多数开源模型的性能其实被故意夸大了。Vicuna、Alpaca 等开源模型的出色性能，可能是研究人员精心挑选的结果。虽然在大多数情况下，Orca 仍落后于无可争议的王者 GPT-4，但这种以小搏大、碾压其他开源同侪并偶尔超越老大哥的表现，究竟是怎么实现的？用大模型对小模型进行指令调优后的结果一般依靠 GPT-4 进行自动评估，例如使用 GPT-4 响应的结果进行指令调优后的模型倾向于生成更长的文本，同时 GPT-4 在候选响应的顺序上有偏差。从 Orca 凭借一点小技巧就能碾压众多开源模型来看，我们对于 AI 技术只能说还知之甚少。而作为已经凭借 ChatGPT 在市场上占据绝对优势的王者，微软率先出手，再将开源模型升级到新的维度。开源模型或将开启属于自己的新时代。
54170编辑于 2023-08-09
来自专栏机器之心
一次通过率73％，开源代码大模型WizardCoder超越最新GPT-4以外所有闭开源模型
机器之心报道编辑：杜伟、梓文在开源这件事上，Meta 不愧是业界良心。这几天，代码大模型领域又热闹了起来！先是 Meta 开源代码专用大模型 Code Llama，且免费商用。除了最新 API 的 GPT-4（该团队测试后得到的结果是 82.0%），该模型超越了所有闭源和开源模型，包括最新 API 的 ChatGPT（72.5%）和原始 GPT-4（67%）。因此，WizardCoder-Python-34B-V1.0 成为了最新的 SOTA 开源代码大模型。斯坦福发布的大语言模型排行榜 AlpacaEval 是一种基于 LLM 的全自动评估基准，且更加快速和可靠。很多著名的模型如 GPT-4、ChatGPT 等都在其上刷榜单。更值得一提的是，WizardCoder 还大幅度地提升了开源模型的 SOTA 水平，创造了惊人的进步，提高了 22.3% 的性能，成为了开源领域的新晋「领头羊」。
1.2K30编辑于 2023-09-08
来自专栏新智元
GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发
新智元报道编辑：Aeneas 【新智元导读】GPT-4V的开源替代方案来了！极低成本，性能却类似，清华、浙大等中国顶尖学府，为我们提供了性能优异的GPT-4V开源平替。国外的一位开发者Youssef Hosni为大家奉上了三种GPT-4V的开源替代方案，可访问性绝对可以保障。三种开源视觉语言模型LLaVa、CogAgent和BakLLaVA，在视觉处理领域具有极大的潜力。 LLaVa LLaVA是端到端训练的多模态大模型，来自威斯康星大学麦迪逊分校、微软研究院以及哥伦比亚大学的研究人员，最初的版本在4月发布。 CogAgent CogAgent是在CogVLM基础上改进的开源视觉语言模型，来自清华的研究者。 CogAgent-18B有110亿个视觉参数，和70亿个语言参数。
1.5K10编辑于 2024-01-04
来自专栏自然语言处理(NLP)论文速递
猛犸象大模型！MAmmoTH：目前最好的开源、通用数学大模型，现已超过GPT-4！
尽管目前很多大型语言模型(LLMs)在该领域取得了一定的进展，但与闭源的大模型相比，开源大模型的数学推理能力仍然有很大差距。个数学推理数据集上的性能显着优于现有开源模型，平均准确率提高了13%至29%；MAmmoTH-7B模型在竞赛级数据集上比最好的开源WizardMath-7B模型高出25%；MAmmoTH-34B模型超越了 GPT-4的CoT结果。尽管该领域取得了一定的进展，但是开源大模型和闭源大模型之间仍然存在明显的差距。目前一些比较流行的闭源LLM主要包括：GPT-4、PaLM-2、 Claude2，它们在主流的GSM8K、MATH数据集上面占据着了主导地位；而Llama、Falcon、OPT等开源大模型在所有基准上都大幅落后
1.7K20编辑于 2023-09-21
来自专栏程序猿DD
OpenAI 发布开源模型：GPT-OSS，效果媲美 o4-mini
开源大模型已经很多没有重磅消息了，没想到睡前看到一直被戏称为CloseAI的OpenAI居然发布了开源大模型：GPT-OSS 模型概述根据 OpenAI 的官方公告，GPT-OSS 系列包括两个变体：（这就非常棒了，一张16G显存的消费级显卡还是很容易获得的）这些模型采用混合专家（Mixture-of-Experts）架构，并使用 4 位量化方案（MXFP4），在保持资源使用低的同时实现快速推理。此外，该开源模型的另一大亮点是采用了宽松的Apache 2.0许可证，允许广泛的修改和商业用途，无需担心专利风险。不过这次OpenAI开源的大模型，在评测方面只给出了与自己模型的比较，并没有给出与其他厂商模型的评分对比。但用户可根据其自家模型水平来评估起能力，比如： • GPT-OSS-120B 接近 o4-mini • GPT-OSS-20B 接近 o3-mini 用户可根据o4-mini、o3-mini与其他厂商模型的能力对比来评估
2.4K10编辑于 2025-08-06
来自专栏深度学习与python
腾讯混元开源 4 个小尺寸模型，主打 Agent 和长文
8 月 4 日，腾讯混元宣布开源四款小尺寸模型，参数分别为 0.5B、1.8B、4B、7B，消费级显卡即可运行，适用于笔记本电脑、手机、智能座舱、智能家居等低功耗场景，且支持垂直领域低成本微调。腾讯表示，这四款模型的推出，是腾讯混元大模型持续开源的一大举措，也进一步丰富了混元开源模型体系，可为开发者和企业提供更多尺寸的模型选择。新开源的 4 个模型属于融合推理模型，具备推理速度快、性价比高的特点，用户可根据使用场景灵活选择模型思考模式——快思考模式提供简洁、高效的输出；而慢思考涉及解决复杂问题，具备更全面的推理步骤。最近，全球开源领域异常热闹，中国大模型表现抢眼。腾讯混元大语言模型也在持续推进开源，参与技术社区的共建之中，其开源模型已覆盖文本、图像、视频和 3D 生成等多个模态。腾讯表示，开源是腾讯混元大模型长期坚持的方向，未来腾讯混元也将不断提升模型能力，继续积极拥抱开源，推出更多尺寸、更多模特的模型，加速产业落地和应用，与开发者和合作伙伴共建大模型开源生态。
96910编辑于 2025-08-09
来自专栏OpenMMLab
距离GPT-4更近一步?Mistral AI开源Mixtral MoE模型
随着 ChatGPT 的发布，大模型进入快速发展期，2023 年 2 月 Llama 模型的开源更是为社区注入新的活力，推动相关技术快速进步。全球范围内的大模型开发呈现出井喷式增长。在国际舞台上，Falcon、Vicuna、Mistral 等模型也同样赢得了全球开发者的青睐，开源模型的创新和潜力不断激发着社区的探索热情。 Mistral AI：简单点，做开源的方式简单点在这场开源社区的"百模大战"中，Mistral AI 这家欧洲大模型初创企业，近期连续开源了 Mistral-7B 和 Mixtral-8x7B 两个模型在 Reddit 上的热烈讨论中，社区也普遍推测 GPT-4 可能也采用了 MoE（Mixture-of-Experts）架构。如果这一推断属实，MoE 架构或许成为开源模型性能接近 GPT-4 的桥梁。在过去的几年里，整个开源社区已经围绕 MoE 模型展开了深入的研究和探索，但鲜有性能优异的 MoE 开源模型问世。
73510编辑于 2023-12-13
来自专栏OpenMMLab
距离GPT-4更近一步?Mistral AI开源Mixtral MoE模型
随着 ChatGPT 的发布，大模型进入快速发展期，2023 年 2 月 Llama 模型的开源更是为社区注入新的活力，推动相关技术快速进步。全球范围内的大模型开发呈现出井喷式增长。在国际舞台上，Falcon、Vicuna、Mistral 等模型也同样赢得了全球开发者的青睐，开源模型的创新和潜力不断激发着社区的探索热情。 Mistral AI：简单点，做开源的方式简单点在这场开源社区的"百模大战"中，Mistral AI 这家欧洲大模型初创企业，近期连续开源了 Mistral-7B 和 Mixtral-8x7B 两个模型在 Reddit 上的热烈讨论中，社区也普遍推测 GPT-4 可能也采用了 MoE（Mixture-of-Experts）架构。如果这一推断属实，MoE 架构或许成为开源模型性能接近 GPT-4 的桥梁。在过去的几年里，整个开源社区已经围绕 MoE 模型展开了深入的研究和探索，但鲜有性能优异的 MoE 开源模型问世。
83310编辑于 2023-12-13
来自专栏GitHubDaily
MiniGPT-4 ，开源了！
不过，大家可别忘了，GPT-4 作为一个多模态大语言模型，它不仅能生成文字内容，还能理解图像输入内容，让用户直接与图片进行对话。，在以前的视觉 - 语言模型中很少见，因此认为，GPT-4 先进的多模态生成能力，主要原因在于利用了更先进的大型语言模型。拍一张菜品图片，让 AI 自动帮你生成菜谱：让 AI 描述图像内容：通过商品图，直接生成广告文案：根据实验结果表明，GPT-4 这些先进的能力，理论上可以归因于它使用了更先进的大语言模型。也就是说，未来在图像、声音、视频等领域，基于这些大语言模型所造出来的应用，其实际效果都不会太差。这个项目证实了大语言模型在图像领域的可行性，接下来应该会有不少开发者入场，将 GPT-4 的能力进一步往音频、视频等领域延伸，进而让我们得以看到更多有趣、令人惊艳的 AI 应用。
69541编辑于 2023-04-27
来自专栏Jack-Cui
MiniGPT4，开源了。
一个月前，我发布过一篇文章，讲解了 GPT4 的发布会。该项目名为 MiniGPT-4，是阿卜杜拉国王科技大学的几位博士做的。最主要的是，完全开源！： MiniGPT-4 是在一些开源大模型基础上训练得到的，fine tune 分为两个阶段，先是在 4 个 A100 上用 500 万图文对训练，然后再用一个一个小的高质量数据集训练，单卡 A100 本地部署也不复杂，根据官方教程直接配置环境： git clone https://github.com/Vision-CAIR/MiniGPT-4.git cd MiniGPT-4 conda env create -f environment.yml conda activate minigpt4 然后下载预训练模型：输入指令直接运行： python demo.py --cfg-path eval_configs
91040编辑于 2023-04-28
来自专栏Michael阿明学习之路
4. 训练模型
线性模型正则化 4. 早期停止法（Early Stopping）本文为《机器学习实战：基于Scikit-Learn和TensorFlow》的读书笔记。中文翻译参考 1. (100,1) y = 4+3*X+np.random.randn(100,1) plt.plot(X,y,"b.") plt.axis([0,2,0,15]) ? 上图显示训练集和测试集在数据不断增加的情况下，曲线趋于稳定，同时误差都非常大，欠拟合欠拟合，添加样本是没用的，需要更复杂的模型或更好的特征模型的泛化误差由三个不同误差的和决定：偏差：模型假设不贴合，高偏差的模型最容易出现欠拟合方差：模型对训练数据的微小变化较为敏感，多自由度的模型更容易有高的方差（如高阶多项式），会导致过拟合不可约误差：数据噪声，可进行数据清洗 3. ElasticNet(alpha=0.1, l1_ratio=0.5) elastic_net.fit(X, y) elastic_net.predict([[1.5]]) # array([4.99822842]) 4.
59940发布于 2021-02-19
来自专栏芯智讯
Meta开源大语言模型Llama 2，结盟微软、高通对抗GPT-4？
7月19日消息，Meta今天凌晨通过其官网正式发布了首个免费商用的开源大语言模型Llama 2。同时宣布，微软成为应用 Llama 2 的首选合作伙伴。另外，Llama-2-chat模型还接受了超过100万个人工标注训练。由于其强大的参数规模以及性能表现，被认为是最有实力挑战“GPT-4”的大模型。 Meta在新闻稿中解释称，其开源 Llama 2 的决定，是希望让企业、新创团队、研究人员能够取得更多 AI 工具，进行更多实验和尝试。为此 Llama 2 模型已经通过红队演练，或者通过内部和外部产生对抗性提示以促进模型微调，还披露了如何评估和调整模型。据介绍，开源的 Llama 2 将通过微软 Azure 平台提供给客户。值得一提的是，微软此前已经与OpenAI结盟，并投资了巨额资金，已发布的多款AI产品都导入了GPT-4。此番与Meta合作，微软似乎也是不想把鸡蛋放在一个篮子里。编辑：芯智讯-林子
25220编辑于 2023-08-09
来自专栏量子位
2000元训练比肩ChatGPT的开源大模型！GPT-4亲自盖章认证，模型权重均可下载
鱼羊编辑整理量子位 | 公众号 QbitAI 2000块，调教出一个达到ChatGPT九成功力的开源大模型。还是被GPT-4亲自盖章认证实力的那种。如图中所见，这个模型名叫Vicuna （小羊驼）。没错，熟悉的配方，熟悉的味道。Vicuna同样是基于Meta开源的LLaMA大模型（大羊驼）微调而来。更为特别的是，这一次，研究人员直接请来GPT-4本尊，给新模型“打分”。他们还提到：相比于Alpaca-13B等模型，GPT-4在绝大多数问题上偏向于Vicuna。他们会查看GPT-4的评估是否有道理，并总结各个模型的优缺点。这种人机协作的方式，比人类直接生成评估更高效。 One More Thing 说起来，Vicuna这个开源大模型，从里到外都挺AI的。比如LOGO，就是用Stable Diffusion 2.1生成的。
90720编辑于 2023-04-06

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

一文读懂开源 Llama 4 模型

首个超越GPT-4o的开源模型：LLAMA3.1开源了

ChatGPT|开源大模型Llama3性能匹敌GPT4

聊聊GLM-4-9B开源模型的微调loss计算

英伟达开源最强通用模型Nemotron-4 340B

谷歌Gemma 4遇上国产顶流：开源模型哪家强？

开源大模型到底开源什么？

微软也搞起了开源小模型！利用OpenAI的ChatGPT和GPT-4 训练，实力碾压当前最强开源模型

一次通过率73％，开源代码大模型WizardCoder超越最新GPT-4以外所有闭开源模型

GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发

猛犸象大模型！MAmmoTH：目前最好的开源、通用数学大模型，现已超过GPT-4！

OpenAI 发布开源模型：GPT-OSS，效果媲美 o4-mini

腾讯混元开源 4 个小尺寸模型，主打 Agent 和长文

距离GPT-4更近一步?Mistral AI开源Mixtral MoE模型

距离GPT-4更近一步?Mistral AI开源Mixtral MoE模型

MiniGPT-4 ，开源了！

MiniGPT4，开源了。

4. 训练模型

Meta开源大语言模型Llama 2，结盟微软、高通对抗GPT-4？

2000元训练比肩ChatGPT的开源大模型！GPT-4亲自盖章认证，模型权重均可下载

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐