Hello folks,我是 Luga,今天我们来聊一下人工智能领域的最新大模型技术进展 - 构建高效、灵活、以及开源的的大模型 - Llama 4 。 作为 Llama 4 系列模型,Meta AI 推出的 Scout、Maverick 和 Behemoth——是一组高效能、开源且多模态的语言模型,标志着 AI 技术在性能与可访问性上的全新突破。 更令人瞩目的是,这些模型支持高达 1000 万 token 的上下文长度,创下了当前所有开源权重 LLM 的最长记录。 2、Llama 4 Maverick:强大可靠的旗舰之选 Maverick 作为 Llama 4 家族的旗舰开源模型,专为高级推理、编码和多模态应用而生。 在应用场景落地方面,尽管目前仅限内部使用,Behemoth 作为 Meta 的黄金评估标准,驱动了家族模型的性能提升,并为未来开源奠定了技术基础。
今年4月份的时候,META发布了自己的第三代开源模型LLAMA3,并且在那次就说了LLAMA3目前还在训练当中。 开源模型的几个亮点从官方放出的LLAMA3.1来看,有以下几个关键要点:模型上下文长度扩展:目前LLAMA3.1已经把模型上下文长度扩充到128K,对比于LLAMA2只有4k~8k,其提升幅度还是比较大模型开源版本覆盖 同时LLAMA3.1模型还有开源的70B、8B,并且这较小模型与具有相似参数数量的其他模型对比来看,在多个测试集上效果也更强:目前可以在huggingface网站上下载LLAMA3.1,META提供了多个不同的版本 虽然这个405B的大模型在一定程度上已经超越了GPT-4o,但是超越了目前的4o模型,并不代表能够超越OpenAI的GPT-4模型,要知道4o是在GPT-4的基础上优化了两个版本(GPT-4 TURBO OpenAI目前都在开始卷小模型市场,GPT-4o mini或许能够成为最具性价比的大模型。因此一直走开源路线的LLAMA3.1还需要不断继续优化,成为普通人都能用到的一个性价比更好的大模型才是关键。
4月18日,Meta正式发布Llama3,开源了包括8B和70B,在多个关键的基准测试中性能优于业界先进同类模型,其在代码生成等任务上实现了全面领先,能够进行复杂的推理,可以更遵循指令。 开源地址 下载链接:https://llama.meta.com/llama-downloads/ Github:https://github.com/meta-llama/ 开源地址 体验地址: (1 )https://llama3.replicate.dev/ (2)https://build.nvidia.com/explore/discover#llama3-70b,英伟达在这个平台上提供各种模型 ,其中包括现在流行的模型,建议收藏 (3)https://huggingface.co/meta-llama/Meta-Llama-3-8B,huggingface地址 如果有GPU可以尝试自己跑起来: ,如同Llama3生成的诗一样: 开源精神激发创新, 人工智能的民主化, 让所有人参与其中 .....
概述 Github官方地址:GLM-4 网上已经有很多关于微调的文章,介绍各种方式下的使用,这里不会赘述。
英伟达的通用大模型 Nemotron,开源了最新的 3400 亿参数版本。 本周五,英伟达宣布推出 Nemotron-4 340B。 这些模型经过优化,可与 NVIDIA NeMo 配合使用,后者是一个用于端到端模型训练的开源框架,包括数据管理、定制和评估。 它们还针对开源 NVIDIA TensorRT-LLM 库的推理进行了优化。 英伟达表示,Nemotron-4 340B 现已可从 Hugging Face 下载。 研究人员还可以使用自己的专有数据,结合已包含的 HelpSteer2 数据集,来定制 Nemotron-4 340B 基础模型,从而创建自有的 Instruct 模型或奖励模型。 该研究发现这样的模型在 RewardBench 上表现非常出色: 用 NeMo 微调,用 TensorRT-LLM 优化推理 使用开源的 NVIDIA NeMo 和 NVIDIA TensorRT-LLM
题图摄于北京黄花水长城 谷歌上周发布 Gemma 4 系列开源模型,首次采用 Apache 2.0 协议,从手机到服务器全场景覆盖,从“替代品” 战略转向“争夺基础设施层”。 与此同时,国内 Kimi K2.5、MiniMax M2.5、Qwen 3.5、GLM-5 等高性能模型集体爆发,中外开源力量,在此刻“相遇”了。 选开源模型如同选队友:能力要强、成本要低、好管理、无法律风险。 接下来,我们从开源协议、硬件成本、代码能力、多模态表现、部署难度五个维度入手,把谷歌 Gemma 4 和国产顶流模型放在一起比一比。 模型的开源许可协议,就是你和“AI员工”签的劳动合同。条款宽松还是苛刻,直接决定了你的商业应用会不会踩坑。 结语 2026年的开源模型生态,就像一个热闹非凡的人才市场,各路“AI打工人”摆摊亮相: 综合能力雷达图 • 谷歌Gemma 4 像海归精英——背景光鲜(谷歌出品)、能力全面(多模态+Agent)、适应各种岗位
但大语言模型的“开源”完全不是这么一回事。先别管OpenAI现在名叫钮钴禄氏·CloseAI,就算哪天良心发现,真的要找回自己做一个名副其实的OpenAI,洗心革面把GPT-4给开源了。 先别着急着高兴,对于99%的人来说,GPT-4的源码毫无意义,对于剩下的1%里的99%,可能也就蹭一些研究论文。只有最后剩下的1%里的1%才会有真正帮助,不过,也只是有帮助,但不算很大。 为什么? 那么,现在很多研究者在呼吁的开源,到底是要开源什么呢?开源模型,具体来说,是开源训练好的模型参数。模型参数拿到手,基本上就能完整复现能力了。 前面说过,模型这玩意距离能力复现就一步之遥,有很多人爱开源模型,也有很多人不爱开源模型,原因和上面差不多,还有一种是大公司大机构才敢用,官方辞令很多,譬如“出于社会责任考虑”,或者“安全伦理存在巨大风险 这里为咱们的中文开源大语言模型打个Call吧,能讲中文还开源的大语言模型真的不多,清华放出来的ChatGLM-6B应该是佼佼者,而是真·单卡就能运行。这里说的是消费级显卡。
Orca 碾压开源模型, 赶超 ChatGPT 现在,大多数开源模型的性能其实被故意夸大了。Vicuna、Alpaca 等开源模型的出色性能,可能是研究人员精心挑选的结果。 虽然在大多数情况下,Orca 仍落后于无可争议的王者 GPT-4,但这种以小搏大、碾压其他开源同侪并偶尔超越老大哥的表现,究竟是怎么实现的? 用大模型对小模型进行指令调优后的结果一般依靠 GPT-4 进行自动评估,例如使用 GPT-4 响应的结果进行指令调优后的模型倾向于生成更长的文本,同时 GPT-4 在候选响应的顺序上有偏差。 从 Orca 凭借一点小技巧就能碾压众多开源模型来看,我们对于 AI 技术只能说还知之甚少。而作为已经凭借 ChatGPT 在市场上占据绝对优势的王者,微软率先出手,再将开源模型升级到新的维度。 开源模型或将开启属于自己的新时代。
机器之心报道 编辑:杜伟、梓文 在开源这件事上,Meta 不愧是业界良心。 这几天,代码大模型领域又热闹了起来! 先是 Meta 开源代码专用大模型 Code Llama,且免费商用。 除了最新 API 的 GPT-4(该团队测试后得到的结果是 82.0%),该模型超越了所有闭源和开源模型,包括最新 API 的 ChatGPT(72.5%)和原始 GPT-4(67%)。 因此,WizardCoder-Python-34B-V1.0 成为了最新的 SOTA 开源代码大模型。 斯坦福发布的大语言模型排行榜 AlpacaEval 是一种基于 LLM 的全自动评估基准,且更加快速和可靠。很多著名的模型如 GPT-4、ChatGPT 等都在其上刷榜单。 更值得一提的是,WizardCoder 还大幅度地提升了开源模型的 SOTA 水平,创造了惊人的进步,提高了 22.3% 的性能,成为了开源领域的新晋「领头羊」。
新智元报道 编辑:Aeneas 【新智元导读】GPT-4V的开源替代方案来了!极低成本,性能却类似,清华、浙大等中国顶尖学府,为我们提供了性能优异的GPT-4V开源平替。 国外的一位开发者Youssef Hosni为大家奉上了三种GPT-4V的开源替代方案,可访问性绝对可以保障。 三种开源视觉语言模型LLaVa、CogAgent和BakLLaVA,在视觉处理领域具有极大的潜力。 LLaVa LLaVA是端到端训练的多模态大模型,来自威斯康星大学麦迪逊分校、微软研究院以及哥伦比亚大学的研究人员,最初的版本在4月发布。 CogAgent CogAgent是在CogVLM基础上改进的开源视觉语言模型,来自清华的研究者。 CogAgent-18B有110亿个视觉参数,和70亿个语言参数。
尽管目前很多大型语言模型(LLMs)在该领域取得了一定的进展,但与闭源的大模型相比,开源大模型的数学推理能力仍然有很大差距。 个数学推理数据集上的性能显着优于现有开源模型,平均准确率提高了13%至29%;MAmmoTH-7B模型在竞赛级数据集上比最好的开源WizardMath-7B模型高出25%;MAmmoTH-34B模型超越了 GPT-4的CoT结果。 尽管该领域取得了一定的进展,但是开源大模型和闭源大模型之间仍然存在明显的差距。 目前一些比较流行的闭源LLM主要包括:GPT-4、PaLM-2、 Claude2,它们在主流的GSM8K、MATH数据集上面占据着了主导地位;而Llama、Falcon、OPT等开源大模型在所有基准上都大幅落后
开源大模型已经很多没有重磅消息了,没想到睡前看到一直被戏称为CloseAI的OpenAI居然发布了开源大模型:GPT-OSS 模型概述 根据 OpenAI 的官方公告,GPT-OSS 系列包括两个变体: (这就非常棒了,一张16G显存的消费级显卡还是很容易获得的) 这些模型采用混合专家(Mixture-of-Experts)架构,并使用 4 位量化方案(MXFP4),在保持资源使用低的同时实现快速推理。 此外,该开源模型的另一大亮点是采用了宽松的Apache 2.0许可证,允许广泛的修改和商业用途,无需担心专利风险。 不过这次OpenAI开源的大模型,在评测方面只给出了与自己模型的比较,并没有给出与其他厂商模型的评分对比。 但用户可根据其自家模型水平来评估起能力,比如: • GPT-OSS-120B 接近 o4-mini • GPT-OSS-20B 接近 o3-mini 用户可根据o4-mini、o3-mini与其他厂商模型的能力对比来评估
8 月 4 日,腾讯混元宣布开源四款小尺寸模型,参数分别为 0.5B、1.8B、4B、7B,消费级显卡即可运行,适用于笔记本电脑、手机、智能座舱、智能家居等低功耗场景,且支持垂直领域低成本微调。 腾讯表示,这四款模型的推出,是腾讯混元大模型持续开源的一大举措,也进一步丰富了混元开源模型体系,可为开发者和企业提供更多尺寸的模型选择。 新开源的 4 个模型属于融合推理模型,具备推理速度快、性价比高的特点,用户可根据使用场景灵活选择模型思考模式——快思考模式提供简洁、高效的输出;而慢思考涉及解决复杂问题,具备更全面的推理步骤。 最近,全球开源领域异常热闹,中国大模型表现抢眼。腾讯混元大语言模型也在持续推进开源,参与技术社区的共建之中,其开源模型已覆盖文本、图像、视频和 3D 生成等多个模态。 腾讯表示,开源是腾讯混元大模型长期坚持的方向,未来腾讯混元也将不断提升模型能力,继续积极拥抱开源,推出更多尺寸、更多模特的模型,加速产业落地和应用,与开发者和合作伙伴共建大模型开源生态。
随着 ChatGPT 的发布,大模型进入快速发展期,2023 年 2 月 Llama 模型的开源更是为社区注入新的活力,推动相关技术快速进步。全球范围内的大模型开发呈现出井喷式增长。 在国际舞台上,Falcon、Vicuna、Mistral 等模型也同样赢得了全球开发者的青睐,开源模型的创新和潜力不断激发着社区的探索热情。 Mistral AI:简单点,做开源的方式简单点 在这场开源社区的"百模大战"中,Mistral AI 这家欧洲大模型初创企业,近期连续开源了 Mistral-7B 和 Mixtral-8x7B 两个模型 在 Reddit 上的热烈讨论中,社区也普遍推测 GPT-4 可能也采用了 MoE(Mixture-of-Experts)架构。 如果这一推断属实,MoE 架构或许成为开源模型性能接近 GPT-4 的桥梁。在过去的几年里,整个开源社区已经围绕 MoE 模型展开了深入的研究和探索,但鲜有性能优异的 MoE 开源模型问世。
随着 ChatGPT 的发布,大模型进入快速发展期,2023 年 2 月 Llama 模型的开源更是为社区注入新的活力,推动相关技术快速进步。全球范围内的大模型开发呈现出井喷式增长。 在国际舞台上,Falcon、Vicuna、Mistral 等模型也同样赢得了全球开发者的青睐,开源模型的创新和潜力不断激发着社区的探索热情。 Mistral AI:简单点,做开源的方式简单点 在这场开源社区的"百模大战"中,Mistral AI 这家欧洲大模型初创企业,近期连续开源了 Mistral-7B 和 Mixtral-8x7B 两个模型 在 Reddit 上的热烈讨论中,社区也普遍推测 GPT-4 可能也采用了 MoE(Mixture-of-Experts)架构。 如果这一推断属实,MoE 架构或许成为开源模型性能接近 GPT-4 的桥梁。在过去的几年里,整个开源社区已经围绕 MoE 模型展开了深入的研究和探索,但鲜有性能优异的 MoE 开源模型问世。
不过,大家可别忘了,GPT-4 作为一个多模态大语言模型,它不仅能生成文字内容,还能理解图像输入内容,让用户直接与图片进行对话。 ,在以前的视觉 - 语言模型中很少见,因此认为,GPT-4 先进的多模态生成能力,主要原因在于利用了更先进的大型语言模型。 拍一张菜品图片,让 AI 自动帮你生成菜谱: 让 AI 描述图像内容: 通过商品图,直接生成广告文案: 根据实验结果表明,GPT-4 这些先进的能力,理论上可以归因于它使用了更先进的大语言模型。 也就是说,未来在图像、声音、视频等领域,基于这些大语言模型所造出来的应用,其实际效果都不会太差。 这个项目证实了大语言模型在图像领域的可行性,接下来应该会有不少开发者入场,将 GPT-4 的能力进一步往音频、视频等领域延伸,进而让我们得以看到更多有趣、令人惊艳的 AI 应用。
一个月前,我发布过一篇文章,讲解了 GPT4 的发布会。 该项目名为 MiniGPT-4,是阿卜杜拉国王科技大学的几位博士做的。 最主要的是,完全开源! : MiniGPT-4 是在一些开源大模型基础上训练得到的,fine tune 分为两个阶段,先是在 4 个 A100 上用 500 万图文对训练,然后再用一个一个小的高质量数据集训练,单卡 A100 本地部署也不复杂,根据官方教程直接配置环境: git clone https://github.com/Vision-CAIR/MiniGPT-4.git cd MiniGPT-4 conda env create -f environment.yml conda activate minigpt4 然后下载预训练模型: 输入指令直接运行: python demo.py --cfg-path eval_configs
线性模型正则化 4. 早期停止法(Early Stopping) 本文为《机器学习实战:基于Scikit-Learn和TensorFlow》的读书笔记。 中文翻译参考 1. (100,1) y = 4+3*X+np.random.randn(100,1) plt.plot(X,y,"b.") plt.axis([0,2,0,15]) ? 上图显示训练集和测试集在数据不断增加的情况下,曲线趋于稳定,同时误差都非常大,欠拟合 欠拟合,添加样本是没用的,需要更复杂的模型或更好的特征 模型的泛化误差由三个不同误差的和决定: 偏差:模型假设不贴合 ,高偏差的模型最容易出现欠拟合 方差:模型对训练数据的微小变化较为敏感,多自由度的模型更容易有高的方差(如高阶多项式),会导致过拟合 不可约误差:数据噪声,可进行数据清洗 3. ElasticNet(alpha=0.1, l1_ratio=0.5) elastic_net.fit(X, y) elastic_net.predict([[1.5]]) # array([4.99822842]) 4.
7月19日消息,Meta今天凌晨通过其官网正式发布了首个免费商用的开源大语言模型Llama 2。同时宣布,微软成为应用 Llama 2 的首选合作伙伴。 另外,Llama-2-chat模型还接受了超过100万个人工标注训练。由于其强大的参数规模以及性能表现,被认为是最有实力挑战“GPT-4”的大模型。 Meta在新闻稿中解释称,其开源 Llama 2 的决定,是希望让企业、新创团队、研究人员能够取得更多 AI 工具,进行更多实验和尝试。 为此 Llama 2 模型已经通过红队演练,或者通过内部和外部产生对抗性提示以促进模型微调,还披露了如何评估和调整模型。 据介绍,开源的 Llama 2 将通过微软 Azure 平台提供给客户。 值得一提的是,微软此前已经与OpenAI结盟,并投资了巨额资金,已发布的多款AI产品都导入了GPT-4。此番与Meta合作,微软似乎也是不想把鸡蛋放在一个篮子里。 编辑:芯智讯-林子
鱼羊 编辑整理 量子位 | 公众号 QbitAI 2000块,调教出一个达到ChatGPT九成功力的开源大模型。 还是被GPT-4亲自盖章认证实力的那种。 如图中所见,这个模型名叫Vicuna (小羊驼)。 没错,熟悉的配方,熟悉的味道 。Vicuna同样是基于Meta开源的LLaMA大模型(大羊驼)微调而来。 更为特别的是,这一次,研究人员直接请来GPT-4本尊,给新模型“打分”。 他们还提到: 相比于Alpaca-13B等模型,GPT-4在绝大多数问题上偏向于Vicuna。 他们会查看GPT-4的评估是否有道理,并总结各个模型的优缺点。 这种人机协作的方式,比人类直接生成评估更高效。 One More Thing 说起来,Vicuna这个开源大模型,从里到外都挺AI的。 比如LOGO,就是用Stable Diffusion 2.1生成的。