首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏云云众生s

    使用Llama-3生成PowerPoint

    译自 Generate PowerPoints using Llama-3 — A first step in automating slide decks,作者 Arslan Shahid。 Llama-Index 有多种 LLM 集成可供选择,对于此项目,我决定通过 Groq 使用开源模型 llama-3 70。您可以从 Groq 网站获取免费的 API。

    1.2K10编辑于 2024-04-30
  • 来自专栏机器之心

    阿里Qwen2正式开源,性能全方位包围Llama-3

    斯坦福团队套壳清华大模型的事件不断发酵后,中国模型在世界上开始得到了更多关注。不少人发现,原来中国已经有不少成熟的大模型正在赶超国外。

    74510编辑于 2024-06-17
  • 来自专栏机器之心

    微软发布Phi-3,性能超Llama-3,可手机端运行

    Llama-3 刚发布没多久,竞争对手就来了,而且是可以在手机上运行的小体量模型。 本周二,微软发布了自研小尺寸模型 Phi-3。

    30310编辑于 2024-04-26
  • Llama-3 70B后训练中语言混合比优化实践

    A Practice of Post-Training on Llama-3 70B with Optimal Selection of Additional Language Mixture Ratio 本文在Llama-3 8B和70B模型上进行CPT以增强其中文能力。研究了8B规模上额外语言混合比例(ALMR)与学习率(LR)之间的最优相关性,这直接指明了最佳实验设置。

    14300编辑于 2025-09-17
  • 来自专栏Datawhale专栏

    【独家】万字长文带你梳理Llama开源家族:从Llama-1到Llama-3

    北京时间4月19日凌晨,Meta在官网上官宣了Llama-3,作为继Llama-1、Llama-2和Code-Llama之后的第三代模型,Llama-3在多个基准测试中实现了全面领先,性能优于业界同类最先进的模型 3.3 Llama-3 系列 为了更好训练Llama-3,研究人员精心设计了预训练语料库,这些不仅关注数量,还特别强调了质量。 4.3 Llama-3系列 与Llama-2类似,Llama-3系列也有两个模型——预训练模型Llama-3和微调后的模型Llama-3-Instruct。 在这一过程中,Llama-3对扩展法则有了一些新的观察。 5.2 Llama-3 vs Llama-2 Meta官方数据显示,在各自参数规模上,Llama-3 8B和70B版本都取得了不错的成绩。

    17.9K53编辑于 2024-04-24
  • 来自专栏NewBeeNLP

    谈谈对 Llama3的个人看法

    作者 | 张俊林 https://www.zhihu.com/question/653373334/answer/3471466524 LLAMA-3的发布是大模型开源届的大事,蹭下热度,在这里谈下有关 LLAMA-3、大模型开源与闭源以及合成数据的一些个人看法 一、LLAMA-3的基本情况 模型结构与LLAMA-2相比没有大的变动,主要变化一点在于Token词典从LLAMA-2的32K拓展到了128K 最重要的改变是训练数据量的极大扩充,从LLAMA-2的2T Tokens,扩展了大约8倍到了15T Tokens,其中代码数据扩充了4倍,这导致LLAMA-3在代码能力和逻辑推理能力的大幅度提升。 LLAMA-3并未如很多人预期的那样,采取MOE结构,这也很正常。MOE的主要作用是降低模型训练及推理成本,从效果上比较的话,同等规模的MOE是肯定干不过Dense模型的。 感觉LLAMA-3制作8B模型的思路是非常非常正确的。

    63410编辑于 2024-04-26
  • 来自专栏云云众生s

    开发者:为NVIDIA基于NIM的AI应用商店做好准备

    Nvidia 不仅超越了自己的市场——它还将其微服务发布在合作伙伴市场上,就像它在 Hugging Face 上提供的 Llama-3 NIM 一样。 例如,NVIDIA 提供了一个容器,其中包含 Meta 的 Llama-3 模型,该模型有 700 亿个参数。 例如,一个完整的 Llama-3 70B 无法在内存不足的 NVIDIA GPU 上运行。 NVIDIA 使得无需担心 GPU,因为 CUDA 中有硬件管理工具,但了解硬件资源会有所帮助。 例如,您可以选择一个 Stable Diffusion XL NIM 容器 或一个 Llama-3 70B 容器。NVIDIA 目前共有约 24 个 NIM,未来还会增加。 例如,下载 Llama-3 70B 并将其在 Docker 容器中本地运行的脚本 在此处提供。请务必输入您的 API 密钥。

    43810编辑于 2024-06-13
  • 来自专栏我爱计算机视觉

    第一个基于 Llama-3 的多模态大模型, Bunny-Llama-3-8B-V 正式上线

    Bunny 团队推出第一个基于 Llama-3 的多模态大模型!Bunny-Llama-3-8B-V 正式上线,超越一众如 LLaVA-7B、LLaVA-13B、Mini-Gemini-13B 模型。 支持多种 Vision Encoders,如 EVA CLIP、SigLIP 等,以及多种 LLM Backbone,包括 Phi-1.5、Phi-2、StableLM-2、Llama-3 等。

    36810编辑于 2024-04-25
  • 来自专栏机器之心

    只需单卡RTX 3090,低比特量化训练就能实现LLaMA-3 8B全参微调

    通过结合低比特权重训练技术和低秩梯度技术,我们就能实现在单卡 RTX 3090 GPU 上对 LLaMA-3 8B 模型进行全参数微调(图 1)。 单卡 3090 实现 LLaMA-3 8B 全参微调 模型量化 大模型时代的显著特征之一便是模型对计算资源需求的大幅度攀升。 已支持低比特模型序列信息 以目前最新的开源大模型 Llama-3 8b base 模型为例,我们选择它的 2.2/2.5/3.0 bit 作为全参数量化监督微调 (Q-SFT) 对象,使用 huggingface

    67210编辑于 2024-06-04
  • 来自专栏技术人生黄勇

    普通电脑也能跑大模型,三步搞定私人AI助手 | LLaMA-3本地部署小白攻略

    动动手,三分钟就可以完成LLaMA-3的本地部署!” 01、LLaMA-3‍‍‍‍ 最近在试验检索增强生成(RAG)的项目,想试试换一个强点的模型试试看效果是否有改观,动手试了一下本地搭建一个私有大模型作为基模型,这次试试LLama3,下次搭阿里通义千问的 早在4月份,Meta开源了 LLaMA-3(Large Language Model Meta AI 3), 在多个关键的基准测试中性能优于业界先进同类模型,其在代码生成等任务上实现了全面领先,能够进行复杂的推理

    3.7K10编辑于 2024-07-19
  • Nat. Mach. Intell. | 面向材料科研的大语言模型家族:持续预训练揭示模型适应性的关键机制

    有趣的是,尽管LLaMA-3基础模型整体能力更强,但在材料领域适配后,LLaMat-2系列反而在多项材料任务中表现更优。这种反常现象提示模型规模与领域适配效果之间并非简单正相关。 适应刚性现象 系统比较显示,LLaMA-2在领域微调后的性能提升幅度远高于LLaMA-3。例如,在材料NLP任务中,LLaMA-2微调后性能提升超过600%,而LLaMA-3提升幅度仅约140%。 然而,在通用英语任务中,LLaMA-3仍保持优势。这表明,大规模预训练可能形成强烈的通用语言表征结构,从而在一定程度上限制模型向特定领域迁移的能力。研究人员将这一现象称为“适应刚性”。

    19820编辑于 2026-03-03
  • 来自专栏开源技术小栈

    Docker三分钟搞定LLama3开源大模型本地部署

    概述 LLaMA-3(Large Language Model Meta AI 3)是由Meta公司开发的大型开源生成式人工智能模型。它在模型结构上与前一代LLaMA-2相比没有大的变动。 LLaMA-3模型分为不同规模的版本,包括小型、中型和大型,以适应不同的应用需求和计算资源。

    8.5K30编辑于 2024-04-28
  • 来自专栏机器之心

    Llama 3超大杯有何惊喜?Meta会一直开源吗?当初为何笃信元宇宙?扎克伯格新访谈回应一切

    Llama-3 超大杯什么时候发布? Dwarkesh Patel:我们来谈谈刚发布的 Llama-3 和 Meta AI 吧。 Llama-3 能取代程序员吗? Dwarkesh Patel:所以 Llama-3 能解决所有这些用例吗?你认为这个版本足以替代程序员吗? LLama-3 70B 模型还有待发掘的潜力 Dwarkesh Patel:关于 GPU,我记得你说到年底会有 35 万块。 用 Llama-3 架构训练的 70B 模型可以变得更好,它可以持续改进。 但仍然存在这样一个情况,当你对像 Llama-3 70B 或 Llama-3 405B 这样的模型进行改进时,人们在此基础上可以构建的东西不能无限地进步。

    29310编辑于 2024-04-26
  • 来自专栏机器之心

    NeurIPS 2024 | 真实世界复杂任务,全新基准GTA助力大模型工具调用能力评测

    分析显示,GPT-4 与 Llama-3 的错误分布存在显著差异。 而 Llama-3 的大部分错误来自于格式错误,特别是调用工具或生成最终答案时。45.4% 的错误是由于参数未能遵循合法的 JSON 格式。 此外,在 16.5% 的情况下,Llama-3 试图同时调用多个工具,这并不被智能体系统支持。19.6% 的错误则源于生成冗余信息,导致参数解析不正确。

    27400编辑于 2025-02-14
  • 来自专栏计算机技术-参与活动

    大模型参数大小,占用多少字节,验证环节需要多少算力;“100B Token,支持8K上下文”是什么意思 ;Llama模型;

    Llama-3 发布时间:2024年4月 参数量版本:8B、70B(目前还有400B版本正在训练中) 特点:相比Llama-2,Llama-3支持8K长文本,并采用了一个编码效率更高的tokenizer 在预训练数据方面,Llama-3使用了超过15T token的语料,比Llama-2的7倍还多。Llama-3在性能上取得了巨大飞跃,并在相同规模的大模型中取得了最优异的性能。 此外,Llama-3的推理、代码生成和指令跟随等能力得到了极大的改进,使其更加可控。 参数的含义 在Llama模型中,“参数”通常指的是模型在训练过程中学习到的权重和偏置等数值。

    3.4K40编辑于 2024-11-15
  • 来自专栏AIGC新知

    浅谈宇宙最强开源大模型Llama3如何应用

    北京时间4月19日凌晨,Meta公司通过其官方网站宣布了Llama系列的最新开源大模型:Llama-3。 继Llama-1、Llama-2以及Code-Llama之后,Llama-3作为该系列的第三代模型,在众多关键的基准测试中取得了全面的进步,其性能在当前业界的同类模型中处于领先地位。 Llama-3 系列 2024年4月份,Meta发布了Llama 3系列,包括8B和70B两个版本,400B的Llama-3还在训练中,性能超优。 从Llama-1到Llama-3,每一代模型都在性能和应用范围上实现了显著的飞跃。

    94810编辑于 2024-10-08
  • 来自专栏AI进修生

    微软 Phi-3.1 Mini (3.8B):刚刚进行了疯狂升级(击败 Llama-3 和 Qwen2)

    Aitrainee | 公众号:AI进修生 这是一个新模型,据称可以击败 Llama-3、Qwen2、Deepseek 和其他开源 LLM 等模型,同时体积更小。我将在这篇文章中对其进行测试。

    30210编辑于 2024-12-02
  • 来自专栏机器之心

    大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4

    与当前闭源大模型进行比较时,MCTSr 可以有效提升小参数开源模型(如 LLaMa-3)的数学推理能力到相当的水平。 更多技术细节和实验结果请参阅原论文。

    34710编辑于 2024-06-17
  • 如何利用1%的数据优化特定领域LLM预训练? | EMNLP'24

    分词器适配为了推导目标词汇 $V(t)$ ,使用Llama-3分词器的词汇 $V{start}$ 作为起点,并将 $V{start}$ 与从任务数据 $D{task}$ 中学习到的 $V{task}$ 设置 $|v(t)| = 10k$ ,其中 $t=10$ ,而 $|v(0)|$ 是默认的Llama-3 tokenizer的词汇大小。

    24110编辑于 2024-11-15
  • 来自专栏IT大咖说

    使用 Llama3 和 Ollama 改进了 RAG

    Ollama 嵌入模型 mxbai-embed-large Ollama 量化Llama-3 8b 模型 本地托管的 Qdrant 向量数据库。 输出: ◆结论: 总之,通过利用 Meta 的大型语言模型等尖端技术的力量Llama-3,以及 等复杂的方法HyDE,并利用 的功能Ollama,我们准备构建无与伦比的 RAG 管道。

    1.5K10编辑于 2024-04-24
领券