首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏唐国梁Tommy

    解锁 vLLM:语言模型推理的速度与效率提升

    LLM推理面临的内存挑战 1.1 的KV缓存 1.2 复杂的解码算法(decoding) 1.3 未知输入和输出长度的调度(scheduling) 1.4 现有系统中的内存管理问题 具体的内存管理挑战有如下三个方面: 1.1 的KV缓存 随着请求数量的不断增加,KV缓存的大小也在迅速扩大,这在处理大规模数据时尤为明显。 虽然有人提出使用压缩(compaction)作为解决碎片化问题的一个可能方案,但在一个对性能敏感的LLM服务系统中实施压缩是不切实际的,因为KV缓存的大小非常。 - Model Shard (模型分片):这表明模型被分成了多个分片,每个工作节点只处理其中的一个分片。 这是一种常见的方法来分布式地处理大型模型,因为它允许多个GPU同时工作,每个GPU只处理模型的一部分。

    7.3K10编辑于 2023-10-25
  • 来自专栏ooderAgent

    OneCode 引擎:携手代码模型,重塑代码开发科技新范式

    概述OneCode 源码解析引擎由源码解析引擎和反射读取引擎构成,二者从不同维度对 Java 代码进行处理。 结合当下热门的 AIGC(人工智能生成内容)技术,OneCode 引擎能发挥出更大的优势,为开发者提供全面且灵活的代码分析、操作以及智能辅助开发能力。 :源码解析引擎侧重静态代码分析,需源码文件且处理复杂;反射读取引擎侧重运行时动态操作,无需源码但性能开销、代码可读性差。 AIGC 在 OneCode 引擎中的应用及优势代码智能补全与生成结合源码解析引擎:AIGC 可以借助源码解析引擎提供的详细代码结构和语义信息,更精准地理解代码上下文。 综上所述,OneCode 的源码解析引擎与 AIGC 技术的结合,充分发挥了引擎的优势,为开发者提供了更智能、高效的代码开发和维护体验,有助于提高代码质量和开发效率,真正重塑了代码开发的科技新范式。

    66310编辑于 2025-02-16
  • 来自专栏大模型应用

    88-模型应用:Drools+混元模型:企业级智能决策的“规则+底线”引擎.88

    现在我们把Drools规则引擎和模型深度结合,搭一套“硬规则兜底、模型做柔性处理”的引擎决策架构:规则引擎管死合规底线,坚决不碰风险;模型专注优化业务体验,搞定那些柔性场景。 今天我们就从Drools的核心组件讲起,结合模型协同落地,把“规则管底线,模型管体验”这个实用的企业智能决策方式弄个清楚明白。二、核心基础1. 融合架构原理: 数据分离:结构化数据(金额、签约方)给 Drools 做规则匹配,非结构化文本(合同原文)给模型做柔性处理;决策触发:Drools 的输出作为模型的执行条件,仅规则通过时,模型才做优化 基于规则引擎+模型的合同审核我们采用的是混元模型,首先要配置好刚才启动的Drools调用地址DROOLS_API_URL,同时要申请混元模型的api_key;import osimport jsonimport 规则引擎管死底线,杜绝合规风险,这是根基;模型优化体验、补齐长尾场景,这是提升,两者结合的引擎架构,才是企业数字化转型中最实用的方案。

    3111编辑于 2026-04-26
  • 来自专栏创作是最好的自我投资

    通用模型VS垂直模型

    在人工智能这个充满无限可能的领域内,通用模型和垂直模型各有千秋。就我个人而言,在二者之间的选择上,并不存在偏向某一方的倾向。我觉得应当依据实际应用场景的具体需求,来挑选最为契合的模型。 通用模型通用模型,乃是旨在应对多种任务与数据类型的庞然物级人工智能模型。 在知识覆盖的广度方面,通用模型无疑具有明显的优势。当我们对于当下所需模型所涉及的精确专业领域的界限感到模糊不清时,选择通用模型无疑是一种明智之举。垂直模型接下来谈谈垂直模型。 然而,由于垂直模型的训练内容聚焦于当前行业,其涉猎的范围更集中,数据针对性更强,所以在提供专业咨询时往往更加精准、细致,这也正是垂直模型的独特价值所在。 因此,对于通用模型或者垂直模型,更倾向于哪一方不取决于个人想法,而是取决于用户需要。

    77601编辑于 2024-12-30
  • 来自专栏小洁叫你mysql

    【AI模型】训练Al模型

    模型超越AI 目前所指的模型,是“大规模深度学习模型”的简称,指具有大量参数和复杂结构的机器学习模型,可以处理大规模的数据和复杂的问题,多应用于自然语言处理、计算机视觉、语音识别等领域。 本文将探讨模型的概念、训练技术和应用领域,以及与模型相关的挑战和未来发展方向。 模型是指具有庞大参数数量的机器学习模型。传统的机器学习模型通常只有几百或几千个参数,而模型则可能拥有数亿或数十亿个参数。 训练模型的挑战 训练模型需要应对一系列挑战,包括: 以下是与模型相关的一些代码示例: 计算资源需求: import tensorflow as tf # 指定使用GPU进行训练 with tf.device 更智能的模型压缩技术:模型压缩和加速技术将继续发展,以减小模型的计算和存储开销。 更好的计算平台支持:为了支持训练和部署模型,计算平台将继续改进,提供更强大的计算资源和工具。

    1.5K30编辑于 2023-10-10
  • 来自专栏学习

    开源模型与闭源模型

    在人工智能(AI)和机器学习(ML)的快速发展过程中,模型(Large Models)已经成为推动技术进步的重要力量。当前,业界存在两种主要的模型开发模式:开源模型和闭源模型。 一、开源模型 开源模型是指开发者将模型的代码和训练数据公开,使得任何人都可以访问、修改和使用这些资源。 二、闭源模型 闭源模型是指模型的代码和数据不对外公开,通常由商业公司开发和维护。代表性的闭源模型包括OpenAI的GPT-3和Google的BERT。 三、开源模型与闭源模型的对比 1.透明性与可控性: 开源模型的透明性更高,任何人都可以查看和验证其代码和数据,确保模型的行为符合预期。这对于学术研究和技术验证非常重要。 闭源模型通过控制代码和数据的访问,能够更好地保护用户隐私和数据安全,降低被恶意利用的风险。 五、总结 开源模型和闭源模型各有优缺点,适合不同的应用场景和需求。

    1.7K10编辑于 2024-10-09
  • 来自专栏IT从业者张某某

    模型模型的幻觉问题

    参考 模型中的涌现 OpenAI 科学家:幻觉是模型与生俱来的特性,而非缺陷 模型「幻觉」,看这一篇就够了|哈工大华为出品 模型 什么是模型 语言模型(LLM)是基于海量文本数据训练的深度学习模型 模型模型发展如下图 涌现 参考:模型中的涌现 什么是涌现?先从蚂蚁开始说起。蚂蚁是自然界中一种个体非常简单,但是群体能力非常强大的生物。 如何解决模型的「幻觉」问题? 方向一:什么是模型「幻觉」 模型出现幻觉,简而言之就是“胡说八道”。 用文中的话来讲,是指模型生成的内容与现实世界事实或用户输入不一致的现象。 OpenAI 科学家 Andrej Karpathy关于模型幻觉 在 Karpathy 看来: 从某种意义上说,语言模型的全部工作恰恰就是制造幻觉,模型就是「造梦机」。 只有模型助手存在幻觉问题。 方向二:造成大模型「幻觉」的原因 那么致使模型产生幻觉的原因都有哪些?

    1.8K11编辑于 2024-01-04
  • 来自专栏数据派THU

    原创 | 模型扫盲系列——初识模型

    为了提高模型的性能,研究者们不断尝试增加模型的参数数量,从而诞生了模型这一概念。本文将从模型的原理、训练过程、prompt和相关应用介绍等方面进行分析,帮助读者初步了解模型。 为了提高模型的性能,研究者们不断尝试增加模型的参数数量,从而诞生了模型这一概念。本文讨论的模型将以平时指向比较多的语言模型为例来进行相关介绍。 训练三步骤 初步认识了模型长什么样了,接下来一起来看看如何训练出一个模型。 除这些外还包括算法优化、隐私和数据安全以及模型可解释性等方面的研究和应用,每天还有很多大模型的应用正在不断涌现,模型在未来仍然有很大的发展潜力,国内的优秀模型代表例如百度文心模型也正在搭建全系统产业化的模型全景 模型挑战 模型也存在一些现实挑战: 1.数据安全隐患:一方面模型训练需要大量的数据支持,但很多数据涉及到机密以及个人隐私问题,如客户信息、交易数据等。

    21.2K29编辑于 2023-11-22
  • 来自专栏人工智能极简应用

    【AI模型】Transformers模型库(八):模型微调之LoraConfig

    一、引言 这里的Transformers指的是huggingface开发的模型库,为huggingface上数以万计的预训练模型提供预测、训练等服务。 你可以直接使用一个框架训练你的模型然后用另一个加载和推理。 LoRA是一种用于微调大型语言模型的轻量级方法,它通过添加低秩矩阵到预训练模型的权重上来实现适应性调整,从而在不显著增加模型大小的情况下提升特定任务的性能。 task_type: 指定任务类型,如'CAUSAL_LM',以确保LoRA适应正确应用到模型的相应部分。 get_peft_model(model, config) print_trainable_parameters(model) 三、总结 本文简要介绍LoraConfig的配置参数情况,具体的机遇peft对模型进行微调后面单独开一页详细讲解

    96010编辑于 2024-08-13
  • 来自专栏育种数据分析之放飞自我

    GGE标图模型怎么看?

    GGE 标图定义 GGE 的意思是在主成分分析时, 分解的是G+GbyE,然后根据PC1和PC2作标图,称为GGE Biplot。 ? 1. 几种不同类型的GGE标图 1.1 基本图形1 单纯的将PC1和PC2投射到标图中,标清楚品种和地点。 ? 1.2 环境间的关系 ? 从中心到各个环境做一条线段,主要是评价环境的区分性和相似性。 把各个方向上距离最远的点用直线连接起来,构成一个多边形,通过中心对每条边做垂线,将标图分为几个扇区,品种在扇区分布 位于扇区内环境中,多边形顶角的品种产量最高 可以看出哪些品种在哪些地点表现好 1.4 通过统计查看品种表现对比标图结果 2.1 对品种计算平均值, 并排名 head(dat) cul_mean = aggregate(yield~ gen,data=dat,mean) cul_mean 相关阅读: AMMI模型怎么看? 参考: 严威凯. 标图分析在农作物品种多点试验中的应用[J]. 作物学报, 2010, 36(11):1805-1819.

    2.7K20发布于 2019-09-04
  • 来自专栏机器学习入门

    【AI模型】LLM主流开源模型介绍

    学习目标 了解LLM主流开源模型. 掌握ChatGLM、LLaMA、Bloom等基础模型的原理 LLM主流模型类别 随着ChatGPT迅速火爆,引发了模型的时代变革,国内外各大公司也快速跟进生成式AI市场,近百款模型发布及应用 目前,市面上已经开源了各种类型的语言模型,本章节我们主要介绍其中的三类: ChatGLM-6B:衍生的模型(wenda、ChatSQL等) LLaMA:衍生的模型(Alpaca、Vicuna BLOOM模型 BLOOM系列模型是由 Hugging Face公司的BigScience 团队训练的语言模型。 小结 本小节主要介绍了LLM主流的开源模型,对不同模型架构、训练目标、优缺点进行了分析和总结。

    1.2K10编辑于 2024-09-24
  • 来自专栏IT从业者张某某

    语言模型-1.2-模型技术基础

    简介 1.2 模型技术基础 语言模型 预训练阶段会得到base model,本质上就是一个互联网文本模拟器,这个阶段需要上万台服务器训练几个月的时间,这个生成的模型可以认为是互联网的有损压缩。 构建一个语言模型 语言模型预训练(Pre-training) 使用与下游任务无关的大规模数据进行模型参数的初始训练 ➢ 基于Transformer解码器架构,进行下一个词预测 ➢ 数据数量、数据质量都非常关键 人类对齐(Human Alignment) ➢ 将语言模型与人类的期望、需求以及价值观对齐 ➢ 基于人类反馈的强化学习对齐方法(RLHF) 模型的研发已经成为一项系统工程 扩展定律( Scaling Law) ➢ 通过扩展参数规模、数据规模和计算算力,语言模型的能力会出现显著提升 ➢ 扩展定律在本次大模型浪潮中起到了重要作用 语言模型采用了与小型预训练语言模型相似的神经网络结构 ,从而获得更可靠的答案 涌现能力与扩展定律的关系 ➢ 涌现能力和扩展定律是两种描述规模效应的度量方法 模型核心技术 ➢ 规模扩展:扩展定律奠定了早期模型的技术路线,产生了巨大的性能提升

    53110编辑于 2025-03-15
  • 来自专栏数据D江湖

    202211促复盘报告

    来源:魔镜市场情报 公众号后台回复: 报告 获取源文件 欢迎添加本站微信:datajh (可上下滑动或点单个图片放大左右滑动查看)

    11.6K21编辑于 2022-12-08
  • 来自专栏AI智能体从入门到实践

    构建AI智能体:剑合璧:模型在文生文、文生图中的搭配应用

    一、温故知新 回顾前面几篇文章,我们分别对文生图的案例演示和RAG Query改写做了详细介绍,今天我们再趣味性的强化一下两者的应用途径,结合两个模型Qwen-Turbo和Qwen-Image 你的任务是根据用户提供的关键词,生成一段150字以内的详细、生动、富有想象力的图像描述,用于AI文生图模型。 ,指导模型生成适合AI绘画的描述处理API响应并提取生成的提示词输入:用户选择的关键词和风格参数处理:构建API请求,调用Qwen-Turbo模型输出:生成的详细图像描述提示词3.2 图像生成函数 def 同时,应用场景也将进一步扩展,可能涵盖视频生成、3D模型创建等更复杂的视觉内容生产。 Qwen-Turbo与Qwen-Image的组合不仅是一次思维的风暴,也是AI内容创作的实际落地。 双模型架构不仅技术先进,更重要的是实用性强,能够真正解决实际创作中的痛点。

    52221编辑于 2025-11-14
  • 来自专栏人工智能极简应用

    【AI模型】Transformers模型库(十二):Evaluate模型评估

    一、引言 这里的Transformers指的是huggingface开发的模型库,为huggingface上数以万计的预训练模型提供预测、训练等服务。 你可以直接使用一个框架训练你的模型然后用另一个加载和推理。 本文重点介绍Evaluate模型评估。 二、Evaluate模型评估 2.1 概述 Transformers库中的evaluate API主要用于评估模型在特定数据集上的性能。 下面是一个使用Python和Transformers库进行模型评估的基本步骤,假设你已经有了一个预训练模型和相应的数据集处理器。 评估结果将包含各种指标,如准确率,具体指标还要取决于你的模型

    1.1K10编辑于 2024-08-13
  • 来自专栏muller的测试分享

    MetaLlama模型

    llama 模型介绍我们介绍 LLaMA,这是一个基础语言模型的集合,参数范围从 7B 到 65B。 我们在数万亿个Token上训练我们的模型,并表明可以专门使用公开可用的数据集来训练最先进的模型,而无需诉诸专有的和无法访问的数据集。 特别是,LLaMA-13B 在大多数基准测试中都优于 GPT-3 (175B),llama2 模型介绍我们开发并发布了 Llama 2,这是一组经过预训练和微调的大型语言模型 (LLM),其参数规模从 我们经过微调的语言模型(称为 Llama 2-Chat)针对对话用例进行了优化。 //huggingface.co/meta-llama/Llama-2-7bhttps://huggingface.co/docs/transformers/model_doc/llamallama 语言模型提供的主要模型列表

    45310编辑于 2024-09-02
  • 来自专栏量子位

    自研模型上车足机器人,西湖大学系具身智能曝光

    足机器人赛道,又迎来一名搭载AI模型的玩家。 西湖机器人,西湖大学机器智能实验室的转化项目,被曝将重点涉猎足机器人领域,并且是搭载GPT模型的版本,以行为/轨迹为核心那种。 还有来自市场的消息表示,因为转化自西湖大学,其迈向足及模型的道路拥有两条支线的诸多明星实验室加持。 但与现在的进军“足+AI模型”不同,西湖机器人成立之初,目标整体围绕四足机器人展开。 根据目前公开的宣传视频来看,其旗下四足机器人本体可以完成一些基础的灵巧行动。 也就是说,西湖机器人在这条赛道上面临的路并不是那么好走——尤其在今年具身智能爆发,诸多优秀选手纷纷入局的背景下。 而量子位打听来的消息,与四足机器人锚定科研、电力、商场、机场等领域不同,西湖机器人将推出的足机器人,重新选择了瞄准方向: 制造领域,或仓储搬运场景。

    85710编辑于 2023-12-28
  • 来自专栏muller的测试分享

    mixtral模型

    简介Mixtral 是一种具有开放权重的高质量稀疏专家混合模型 (SMoE)。根据 Apache 2.0 许可。 它是最强大的开放权重模型,具有宽松的许可证,也是成本/性能权衡方面的最佳模型。特别是,它在大多数标准基准测试中匹配或优于 GPT3.5。Mixtral 的特点可以优雅地处理 32k 令牌的上下文。 请为google编写web自动化测试用例,使用pytest page object设计模式,断言使用hamcrest') debug(r)总结Mixtral 是一种具有开放权重的高质量稀疏专家混合模型

    22610编辑于 2024-10-16
  • 来自专栏AI

    模型微调

    # 模型微调的主流方式、核心区别与底层原理 微调(Fine-tuning)的核心底层共性:基于预训练模型的知识迁移,冻结预训练模型的大部分通用特征参数,仅针对具体任务优化少量参数/引入轻量模块/设计提示特征 核心特点 优点:任务适配性最强,能充分挖掘任务数据的特征,效果理论上最优; 缺点:算力/数据需求极高(需千万级以上任务数据,模型全量微调需上百张GPU)、易过拟合、模型存储成本高(一个任务一个模型)、 核心特点:效果接近全量微调,是工业级模型的主流选择,参数量仍控制在5%以内。 特点:少样本适配(百/千级样本),效果优于硬提示,无推理延迟,适合超大规模模型。 ; 避免全量/部分微调:针对Transformer模型的两段式端到端架构,全量/部分微调的算力成本极高,且多任务适配时模型存储成本不可接受。

    58410编辑于 2026-02-09
  • 模型 RAG】

    模型 RAG(Retrieval-Augmented Generation)是指结合检索和生成技术的模型,在生成任务中引入了检索的过程。 在学术界,研究者通常会在模型 RAG 的基础上提出新的模型结构、训练方法和评估指标等方面的创新。他们会通过论文发表、学术研讨会等方式将研究成果传播给其他研究人员,推动该领域的发展。 而在工业界,企业通常会将模型 RAG 技术应用到实际的产品和应用中,解决一些实际问题。 学术界与工业界可以进行合作研究项目,共同开展模型 RAG 技术的研究与探索。学术界可以提供理论指导和算法创新,工业界可以提供实际数据和场景需求。 总之,模型 RAG 场景下的产学结合是学术界和工业界合作研究和应用模型 RAG 技术的一种方式,通过合作与交流,推动该领域的发展和应用。

    30310编辑于 2025-08-29
领券