搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏AI科技评论
独家｜非 Transformer 开源大模型 RWKV 元始智能已完成种子轮融资
RWKV是国产开源的首个非Transformer架构的大语言模型，目前已经迭代到第六代RWKV-6。彭博6岁开始编程，拥有30多年编程经验，迄今RWKV的基底模型都是由他一个人训练的。他认为，大模型被少数公司垄断会对于人类存在风险，所以训练出RWKV后便开源了，目的是想创建一个更开放的模型生态。他认为目前的OpenAI过于封闭，他希望做更开放的事情，所以给出的回复是“如果以后OpenAI愿意做开源的大模型，欢迎合作”。国内已经有一些公司在尝试用RWKV来训练模型，国外拿RWKV开源进行创业，拿到融资的，据罗璇了解已经超过10家。据罗璇透露，此次融资的钱主要用于工具栈建设、孵化生态、孵化应用，模型训练主要靠赞助和合作，现在最大的阻碍是需要更多算力，所以训练出千亿模型仍然是他们当前最具挑战性的任务。
1.8K10编辑于 2024-01-23
来自专栏社区动态
AI日报｜文生语音大模型国内外均有突破，Pika完成6亿新融资，视频大模型也不远了！
AI日报｜智谱AI再降价，同时开源9B系列模型；国内外气象大模型竞逐升级字节推出文本到语音模型家族Seed-TTS：擅长情感表达，与真人几乎无异字节跳动推出文本到语音模型家族——SEED TTS，其核心亮点在于生成的语音音色高度接近人类并且Stable Audio Open一大亮点是用户可基于个人音频资料微调模型，让生成的内容更加个性化。 https://techcrunch.com/2024/06/05/stability-ai-releases-a-sound-generator/Pika完成全新6亿融资，即将发布全新视频生成大模型AI 视频生成初创公司Pika日前已完成总额8000万美元的B轮融资，由Spark Capital领投，Greycroft、Lightspeed Venture Partners以及Jared Leto参投，截至目前，Pika总融资额已达1.35亿美元。Pika用户数达到数百万，每周生成数百万个视频。同时，Pika已租用数百个量级的GPU（图形处理器）芯片，用于模型训练和推理计算。
56110编辑于 2024-06-07
来自专栏创作是最好的自我投资
通用大模型VS垂直大模型
在人工智能这个充满无限可能的领域内，通用大模型和垂直大模型各有千秋。就我个人而言，在二者之间的选择上，并不存在偏向某一方的倾向。我觉得应当依据实际应用场景的具体需求，来挑选最为契合的大模型。通用大模型通用大模型，乃是旨在应对多种任务与数据类型的庞然大物级人工智能模型。在知识覆盖的广度方面，通用大模型无疑具有明显的优势。当我们对于当下所需模型所涉及的精确专业领域的界限感到模糊不清时，选择通用大模型无疑是一种明智之举。垂直大模型接下来谈谈垂直大模型。然而，由于垂直大模型的训练内容聚焦于当前行业，其涉猎的范围更集中，数据针对性更强，所以在提供专业咨询时往往更加精准、细致，这也正是垂直大模型的独特价值所在。因此，对于通用大模型或者垂直大模型，更倾向于哪一方不取决于个人想法，而是取决于用户需要。
85401编辑于 2024-12-30
来自专栏量子位
阿里领投Minimax 6亿美元融资，5家大模型独角兽集齐了
彭博社消息称，新一轮融资或将使MiniMax估值超25亿美元。据悉目前阿里和红杉已承诺将参与本轮融资，其余跟投者还在洽谈中，相关条款可能会有所调整。自大模型浪潮以来，阿里可谓研投并进，不仅自家正开发通义千问等大模型产品，且投资出手不是一般积极—— 大模型创业独角兽、有着“大模型五虎”之称的智谱、百川、月之暗面、零一万物，加上MiniMax，投了个遍 MiniMax员工最早给大模型起了个昵称叫 “ABAB”，以此模仿语言能力训练初期，模型像婴儿般口齿不清，只会“阿巴阿巴”。而阿里在国产大模型这一块，出手大方，智谱、百川、月之暗面、零一万物、MiniMax投了个遍。阿里上一次出手还是在上个月，被曝刚刚投资了月之暗面。月之暗面新一轮融资超10亿美元，估值已飙升至约25亿美元。可见，目前国内头部大模型企业融资依然畅开，“军备竞赛”仍在继续。
88110编辑于 2024-03-07
来自专栏学习
开源大模型与闭源大模型
在人工智能（AI）和机器学习（ML）的快速发展过程中，大模型（Large Models）已经成为推动技术进步的重要力量。当前，业界存在两种主要的大模型开发模式：开源大模型和闭源大模型。一、开源大模型开源大模型是指开发者将模型的代码和训练数据公开，使得任何人都可以访问、修改和使用这些资源。二、闭源大模型闭源大模型是指模型的代码和数据不对外公开，通常由商业公司开发和维护。代表性的闭源大模型包括OpenAI的GPT-3和Google的BERT。三、开源大模型与闭源大模型的对比 1.透明性与可控性：开源大模型的透明性更高，任何人都可以查看和验证其代码和数据，确保模型的行为符合预期。这对于学术研究和技术验证非常重要。闭源大模型通过控制代码和数据的访问，能够更好地保护用户隐私和数据安全，降低被恶意利用的风险。五、总结开源大模型和闭源大模型各有优缺点，适合不同的应用场景和需求。
1.9K10编辑于 2024-10-09
别再“为了大模型而大模型”了
最近这两年，在很多公司里，大模型成了一种奇妙的存在。它不像一个技术工具，更像是一只突然闯进会议室的大象。领导一拍桌子： “我们也要上大模型！” 业务同事一听： “我们这个流程能不能加个大模型？” 但现在有些项目会直接说： “让大模型来判断吧。” 乍一听很高级，仔细一想很浪费。大模型当然能判断，但它不一定最适合判断。大模型天然消耗昂贵的GPU和电力，成本更高；大模型的参数量巨大，运算速度更慢；大模型基于语言的概率给出答案，结果不稳定，大模型内核原理对业务就是一个黑盒，无法说明，解释更困难；出了错还不好定位，你只能靠经验去猜不需要梳理业务流程了，大模型会自己理解；不需要总结专家经验了，大模型会自己推理；不需要定义评价标准了，大模型会自己判断；不需要建设知识库了，大模型会自己知道。七、别把大模型当神仙，要把它当同事我一直觉得，企业用大模型最健康的心态，不是“请神”，而是“招人”。
15811编辑于 2026-06-01
来自专栏小洁叫你mysql
【AI大模型】训练Al大模型
大模型超越AI 目前所指的大模型，是“大规模深度学习模型”的简称，指具有大量参数和复杂结构的机器学习模型，可以处理大规模的数据和复杂的问题，多应用于自然语言处理、计算机视觉、语音识别等领域。本文将探讨大模型的概念、训练技术和应用领域，以及与大模型相关的挑战和未来发展方向。大模型是指具有庞大参数数量的机器学习模型。传统的机器学习模型通常只有几百或几千个参数，而大模型则可能拥有数亿或数十亿个参数。训练大模型的挑战训练大模型需要应对一系列挑战，包括：以下是与大模型相关的一些代码示例：计算资源需求： import tensorflow as tf # 指定使用GPU进行训练 with tf.device 更智能的模型压缩技术：模型压缩和加速技术将继续发展，以减小大模型的计算和存储开销。更好的计算平台支持：为了支持训练和部署大模型，计算平台将继续改进，提供更强大的计算资源和工具。
1.7K30编辑于 2023-10-10
来自专栏人工智能极简应用
【AI大模型】Transformers大模型库（八）：大模型微调之LoraConfig
一、引言这里的Transformers指的是huggingface开发的大模型库，为huggingface上数以万计的预训练大模型提供预测、训练等服务。你可以直接使用一个框架训练你的模型然后用另一个加载和推理。 LoRA是一种用于微调大型语言模型的轻量级方法，它通过添加低秩矩阵到预训练模型的权重上来实现适应性调整，从而在不显著增加模型大小的情况下提升特定任务的性能。 task_type: 指定任务类型，如'CAUSAL_LM'，以确保LoRA适应正确应用到模型的相应部分。 get_peft_model(model, config) print_trainable_parameters(model) 三、总结本文简要介绍LoraConfig的配置参数情况，具体的机遇peft对大模型进行微调后面单独开一页详细讲解
1K10编辑于 2024-08-13
来自专栏IT从业者张某某
大语言模型-1.2-大模型技术基础
简介 1.2 大模型技术基础大语言模型预训练阶段会得到base model，本质上就是一个互联网文本模拟器，这个阶段需要上万台服务器训练几个月的时间，这个生成的模型可以认为是互联网的有损压缩。构建一个大语言模型大语言模型预训练（Pre-training）使用与下游任务无关的大规模数据进行模型参数的初始训练 ➢ 基于Transformer解码器架构，进行下一个词预测 ➢ 数据数量、数据质量都非常关键人类对齐（Human Alignment） ➢ 将大语言模型与人类的期望、需求以及价值观对齐 ➢ 基于人类反馈的强化学习对齐方法（RLHF）大模型的研发已经成为一项系统工程扩展定律（ Scaling Law) ➢ 通过扩展参数规模、数据规模和计算算力，大语言模型的能力会出现显著提升 ➢ 扩展定律在本次大模型浪潮中起到了重要作用大语言模型采用了与小型预训练语言模型相似的神经网络结构，从而获得更可靠的答案涌现能力与扩展定律的关系 ➢ 涌现能力和扩展定律是两种描述规模效应的度量方法大模型核心技术 ➢ 规模扩展：扩展定律奠定了早期大模型的技术路线，产生了巨大的性能提升
63110编辑于 2025-03-15
来自专栏机器学习入门
【AI大模型】LLM主流开源大模型介绍
学习目标了解LLM主流开源大模型. 掌握ChatGLM、LLaMA、Bloom等基础大模型的原理 LLM主流大模型类别随着ChatGPT迅速火爆，引发了大模型的时代变革，国内外各大公司也快速跟进生成式AI市场，近百款大模型发布及应用目前，市面上已经开源了各种类型的大语言模型，本章节我们主要介绍其中的三大类： ChatGLM-6B：衍生的大模型（wenda、ChatSQL等） LLaMA：衍生的大模型（Alpaca、Vicuna BLOOM模型 BLOOM系列模型是由 Hugging Face公司的BigScience 团队训练的大语言模型。小结本小节主要介绍了LLM主流的开源大模型，对不同模型架构、训练目标、优缺点进行了分析和总结。
1.3K10编辑于 2024-09-24
来自专栏IT从业者张某某
大模型与大模型的幻觉问题
参考大模型中的涌现 OpenAI 科学家：幻觉是大模型与生俱来的特性，而非缺陷大模型「幻觉」，看这一篇就够了｜哈工大华为出品大模型什么是大模型大语言模型（LLM）是基于海量文本数据训练的深度学习模型大模型的模型发展如下图涌现参考：大模型中的涌现什么是涌现？先从蚂蚁开始说起。蚂蚁是自然界中一种个体非常简单，但是群体能力非常强大的生物。如何解决大模型的「幻觉」问题？方向一：什么是大模型「幻觉」大模型出现幻觉，简而言之就是“胡说八道”。用文中的话来讲，是指模型生成的内容与现实世界事实或用户输入不一致的现象。 OpenAI 科学家 Andrej Karpathy关于大模型幻觉在 Karpathy 看来：从某种意义上说，大语言模型的全部工作恰恰就是制造幻觉，大模型就是「造梦机」。只有大模型助手存在幻觉问题。方向二：造成大模型「幻觉」的原因那么致使大模型产生幻觉的原因都有哪些？
1.9K11编辑于 2024-01-04
来自专栏数据派THU
原创 | 大模型扫盲系列——初识大模型
为了提高模型的性能，研究者们不断尝试增加模型的参数数量，从而诞生了大模型这一概念。本文将从大模型的原理、训练过程、prompt和相关应用介绍等方面进行分析，帮助读者初步了解大模型。为了提高模型的性能，研究者们不断尝试增加模型的参数数量，从而诞生了大模型这一概念。本文讨论的大模型将以平时指向比较多的大语言模型为例来进行相关介绍。训练三步骤初步认识了大模型长什么样了，接下来一起来看看如何训练出一个大模型。除这些外还包括算法优化、隐私和数据安全以及模型可解释性等方面的研究和应用，每天还有很多大模型的应用正在不断涌现，大模型在未来仍然有很大的发展潜力，国内的优秀大模型代表例如百度文心大模型也正在搭建全系统产业化的大模型全景大模型挑战大模型也存在一些现实挑战： 1.数据安全隐患：一方面大模型训练需要大量的数据支持，但很多数据涉及到机密以及个人隐私问题，如客户信息、交易数据等。
21.4K29编辑于 2023-11-22
来自专栏AI科技评论
独家 | 多模态大模型初创企业“智子引擎”，近日完成千万元天使轮融资
作者 | 黄楠编辑 | 陈彩娴大模型在四五月份迎来“百家争鸣”，战况愈加激烈，有新玩家仍在陆续进场。 AI 科技评论获悉：近日，一家多模态大模型初创公司“智子引擎”完成了千万元天使轮融资。 “悟道”之后，唐杰、刘知远与黄民烈均基于大模型技术成立了公司，而人大的入局，为智源大模型“四大金刚”的创业阵容拉开了完满的序幕。期间，中国人民大学高瓴人工智能学组建了多模态大模型研发团队，专门从事图文多模态预训练模型的研究和开发，由文继荣牵头，其他核心成员包括宋睿华、卢志武等人，这也是国内最早从事多模态大模型研究的团队。 “悟道·文澜”团队，从事多模态大模型方向研究，卢志武任模型研发主力军。在 ChatGPT 的热浪下，卢志武和高一钊看到了多模态研究在大模型时代的新机遇，成立多模态大模型公司“智子引擎”。
96820编辑于 2023-08-08
来自专栏muller的测试分享
MetaLlama大模型
llama 大模型介绍我们介绍 LLaMA，这是一个基础语言模型的集合，参数范围从 7B 到 65B。我们在数万亿个Token上训练我们的模型，并表明可以专门使用公开可用的数据集来训练最先进的模型，而无需诉诸专有的和无法访问的数据集。特别是，LLaMA-13B 在大多数基准测试中都优于 GPT-3 (175B)，llama2 大模型介绍我们开发并发布了 Llama 2，这是一组经过预训练和微调的大型语言模型 (LLM)，其参数规模从我们经过微调的大语言模型（称为 Llama 2-Chat）针对对话用例进行了优化。 //huggingface.co/meta-llama/Llama-2-7bhttps://huggingface.co/docs/transformers/model_doc/llamallama 大语言模型提供的主要模型列表
52210编辑于 2024-09-02
本周10大融资：AI与自动驾驶领跑
本周十大融资事件：人工智能、自动驾驶与生物科技位居前列这是一份每周专题报道，盘点美国范围内已公布的十大融资轮次。本周，十大融资轮次中仅有一半的融资额超过1亿美元，这在风险投资巨型轮盛行的当下略显不同寻常。不过，仍然出现了一些大额投资，由某机构对Anthropic的50亿美元投资及合作协议领衔。其他较大规模的融资轮次涉及航空自动驾驶、视觉疗法和人工智能分析等领域的公司。 Orkes，6000万美元，工作流编排：人工智能软件工作流编排平台开发商Orkes获得了6000万美元的B轮融资。AVP领投了这家成立5年、总部位于硅谷的初创公司的本轮融资。方法论我们追踪了相关数据库中，在4月18日至24日期间由美国公司筹集的最大已公布融资轮次。尽管大多数已公布的融资轮次都收录在数据库中，但由于部分融资轮次在当周较晚时间才被报道，可能会存在少量时间延迟。
21010编辑于 2026-04-25
【大模型 RAG】
大模型 RAG（Retrieval-Augmented Generation）是指结合检索和生成技术的模型，在生成任务中引入了检索的过程。在学术界，研究者通常会在大模型 RAG 的基础上提出新的模型结构、训练方法和评估指标等方面的创新。他们会通过论文发表、学术研讨会等方式将研究成果传播给其他研究人员，推动该领域的发展。而在工业界，企业通常会将大模型 RAG 技术应用到实际的产品和应用中，解决一些实际问题。学术界与工业界可以进行合作研究项目，共同开展大模型 RAG 技术的研究与探索。学术界可以提供理论指导和算法创新，工业界可以提供实际数据和场景需求。总之，大模型 RAG 场景下的产学结合是学术界和工业界合作研究和应用大模型 RAG 技术的一种方式，通过合作与交流，推动该领域的发展和应用。
34810编辑于 2025-08-29
来自专栏服务端技术杂谈
特斯拉将搭载豆包大模型和DeepSeek大模型
8月22日，字节跳动方面发布消息称，特斯拉与火山引擎已于近日达成合作，在国内，火山引擎将为特斯拉提供大模型服务，助力特斯拉智能座舱交互体验升级。全新上市的特斯拉Model Y L车型将搭载豆包大模型与DeepSeek模型，两款模型均通过火山引擎接入。其中，豆包大模型将承担语音命令功能，如导航设定、媒体播放操控、空调温度调节等，同时，还具备车主手册查询功能；DeepSeek模型则提供AI语音闲聊服务。
24710编辑于 2026-03-11
来自专栏数据猿
大模型到底能有多“大”？
那我们沿着这条道路，进一步把神经网络规模做大，比如做到1万亿参数、10万亿参数、100万亿参数，会不会在某个节点实现第二次智能涌现，把现在大模型的能力再上一个台阶，甚至实现AGI，实现大模型神经网络的意识觉醒呢量变引起质变，大模型的“大” 深度学习的历史可以追溯到上世纪50年代，但真正的爆发是在过去的十年里，特别是随着计算能力的提升和数据量的增加。大模型到底可以做多大？我们不禁要问这样一个问题：大模型到底可以做多大？有哪些限制了大模型的规模？综上所述，大模型的发展面临着多方面的限制和挑战。只有这样，我们才能继续推进大模型的发展，同时确保这一技术的负责任和可持续使用。
55310编辑于 2024-02-23
【大模型】大模型备案的限定领域有哪些？
大模型是一种机器学习中的模型，它通常用于处理大模型的数据集和复杂的任务。大模型因其出色的性能和表现备受关注。接下来就讨论以下大模型的一些限定领域都有哪些。一、什么是限定领域大模型的限定领域是指通过通用大模型的基础上将特定领域或行业中经过训练和优化的大语言模型，与通用大模型相比垂直领域大模型更注重于某个特定领域的知识和技能，表现更精准、专业、具有更高的领域专业性和使用性二、通用大模型的特点与缺点通用大模型旨在覆盖广泛的任务和领域，具备较强的泛化能力。通常基于大量跨领域数据训练，能够处理语言理解、生成、推理等多种任务。通用大模型在企业级场景无法直接使用，比如以下几点：●缺乏企业知识●数据安全隐患●知识更新不及时●大模型的训练和部署普通企业无法承担●无法保证大模型的所有权三、限定大模型的特点与优势垂类大模型针对特别行业或场景优化财务报告分析、监管政策解读教育与科研●个性化学习：自适应教育内容推荐、习题解答、语言学习辅助●学术研究：文献综述生成、实验设计建议、论文写作辅助●科学计算：物理、化学、生物等领域的复杂模拟与数据分析五、申请限定大模型需要哪些前提条件医疗行业需要当地卫健委批准的红头文件教育行业需要当地教育局批注的红头文件以此内推
40710编辑于 2025-08-26
来自专栏人工智能极简应用
【AI大模型】Transformers大模型库（一）：Tokenizer
一、引言这里的Transformers指的是huggingface开发的大模型库，为huggingface上数以万计的预训练大模型提供预测、训练等服务。 Transformers 提供了数以千计的预训练模型，支持 100 多种语言的文本分类、信息抽取、问答、摘要、翻译、文本生成。它的宗旨是让最先进的 NLP 技术人人易用。 Transformers 提供了便于快速下载和使用的API，让你可以把预训练模型用在给定文本、在你的数据集上微调然后通过 model hub 与社区共享。你可以直接使用一个框架训练你的模型然后用另一个加载和推理。本文重点介绍Tokenizer类。 **编码**：将tokens转换为数字ID，这些ID是模型的输入。每个token在词汇表中有一个唯一的ID。 4.
1.9K12编辑于 2024-08-13

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

独家｜非 Transformer 开源大模型 RWKV 元始智能已完成种子轮融资

AI日报｜文生语音大模型国内外均有突破，Pika完成6亿新融资，视频大模型也不远了！

通用大模型VS垂直大模型

阿里领投Minimax 6亿美元融资，5家大模型独角兽集齐了

开源大模型与闭源大模型

别再“为了大模型而大模型”了

【AI大模型】训练Al大模型

【AI大模型】Transformers大模型库（八）：大模型微调之LoraConfig

大语言模型-1.2-大模型技术基础

【AI大模型】LLM主流开源大模型介绍

大模型与大模型的幻觉问题

原创 | 大模型扫盲系列——初识大模型

独家 | 多模态大模型初创企业“智子引擎”，近日完成千万元天使轮融资

MetaLlama大模型

本周10大融资：AI与自动驾驶领跑

【大模型 RAG】

特斯拉将搭载豆包大模型和DeepSeek大模型

大模型到底能有多“大”？

【大模型】大模型备案的限定领域有哪些？

【AI大模型】Transformers大模型库（一）：Tokenizer

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐