首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大模型应用

    模型应用:构建智能模型运维体系:模型健康度监测系统实践.8

    引言 大型语言模型已成为各行各业的核心基础设施。从客户服务到内容创作,从代码生成到科学研究,模型正深度融入企业的核心业务流程。 传统的系统监控工具如Zabbix、Prometheus等虽然能监控基础硬件资源,但无法深入理解模型服务的特殊行为模式,无法感知模型推理的内在质量,更无法预测服务性能的潜在风险。 今天我们将以模型健康度监测系统为例,深度剖析现代模型运维平台的设计理念、技术实现与创新亮点。通过详细的流程分析、架构解读和实践场景说明,为构建智能化的模型运维体系提供完整的实践参考和技术路线图。 多层次监控体系 系统构建我们采用了四层级的立体化监控架构,每一层都针对模型服务的特定维度进行深度监控:系统资源层:基础硬件资源监控(CPU、内存、磁盘、网络),确保运行环境稳定模型运行层 ): """智能性能评分算法 - 基于模型服务特性的专业评分体系""" score = 100 # 基准分数 # CPU性能 (权重: 25%) - 考虑到模型推理对CPU

    25021编辑于 2026-02-05
  • 来自专栏token的技术分享

    基于.NET8的AI模型管理

    此外,AIDotNet API还支持多种AI模型,包括OpenAI、星火大模型、Claudia、智谱AI、Ollama、通义千问(阿里云)、AzureOpenAI以及腾讯混元模型,满足了用户对各种AI 模型的需求。 基于.NET Core 8实现使用EntityFrameworkCore对于数据库操作。基于MiniApis提供WebAPI服务。 功能实现 支持用户管理 支持渠道管理 支持token管理 提供数据统计预览 支持日志查看 支持系统设置 支持接入外部Chat链接 支持支付宝购买账号余额 AI模型支持列表 OpenAI (支持function ) 星火大模型(支持function) Claudia 智谱AI Ollama 通义千问(阿里云) AzureOpenAI(支持function) 腾讯混元模型 支持数据库 SqlServer 配置类型

    33610编辑于 2024-05-28
  • 来自专栏MavenTalk

    开源社区模型目前面临的8瓶颈问题

    但面对商业化的ClosedAI和OpenAI等语言模型,还存在一些瓶颈。 数据量不足,预训练数据有限 开源社区很难获得大规模高质量的数据集来进行模型预训练,导致其模型质量无法与业内巨头相提并论。 数据量的不足直接限制了模型的表达能力和推理能力。 算力资源有限,GPU/TPU数量相对较少 开源社区几乎没有足够的GPU/TPU来训练超大规模的模型参数,很难进行长时间的预训练,无法匹敌巨头公司拥有的算力优势。算力的缺乏是开源模型质量提升的硬限制。 商业化受限,收入有限,难以持续投入 开源社区很难直接通过模型商业化来获得持续的财务支持,长期投入会面临资金短缺问题。 模型泛化、可解释性与安全性等方面有待提高 开源模型的可解释性和安全性还需要加强,部署时存在不确定性,这也是限制其应用的一个因素。

    55630编辑于 2023-09-06
  • 来自专栏老张的求知思考世界

    全链路压测(8):构建三模型

    梳理核心链路的一个重要目的是获得流量模型。但在全链路压测中,除了流量模型,业务模型和数据模型一样重要。这篇文章,为大家介绍如何构建这三模型。 下图是一个常见的电商双11促时候的业务场景模型图,我以这个思维导图为例来做分析说明。 峰值流量模型 预估的流量模型要以峰值流量场景来预估,否则很可能由于错误的预估导致准备不足而致使促期间线上出现问题。这不仅是一个技术和监控的问题,还要综合考虑本次大促期间业务目标以及业务转化率的因素。 预估促时的支付转化率为60%,则可得:促峰值订单支付QPS为(200/40%)*60%*(200W/50W)=1200QPS。 ,确认以下信息: 是否有热点数据相关的操作:比如说所有用户秒杀同一件商品; 不同类型数据处理逻辑有差异时,需通过测试数据多样化提高性能测试代码覆盖率; 缓存数据:要确认是否有缓存,缓存大小为多少(排除key

    1.5K30编辑于 2022-05-17
  • 来自专栏MavenTalk

    8家国产AI模型开放使用,人手一个模型的时代来临

    什么是模型 先做个扫盲,AI模型是“人工智能预训练模型”的简称。语言模型是一种人工智能模型,它被训练成理解和生成人类语言。 这8家分别是谁 百度(文心一言) 抖音(云雀模型) 智谱AI(GLM模型) 中科院(紫东太初模型) 百川智能(百川模型) 商汤(日日新模型) MiniMax(ABAB模型) 上海人工智能实验室 (书生通用模型) 书生通用模型与云雀模型我确实是第一次听说,国内模型再现当年百团「团购」大战的身影,截至2023年7月,中国累计已经有130个模型问世。 MiniMax(ABAB模型) https://www.sensetime.com/ 商汤(日日新模型) https://intern-ai.org.cn 上海人工智能实验室(书生通用模型) 至于这8家的AI模型的能力如何,交给你来评判吧。不过至今为止,依旧是无人能挑战ChatGPT的霸主地位。 祝你早日用上AI模型,帮助自己提升工作、生活、学习效率。

    2.9K40编辑于 2023-09-06
  • 来自专栏创作是最好的自我投资

    通用模型VS垂直模型

    在人工智能这个充满无限可能的领域内,通用模型和垂直模型各有千秋。就我个人而言,在二者之间的选择上,并不存在偏向某一方的倾向。我觉得应当依据实际应用场景的具体需求,来挑选最为契合的模型。 通用模型通用模型,乃是旨在应对多种任务与数据类型的庞然物级人工智能模型。 在知识覆盖的广度方面,通用模型无疑具有明显的优势。当我们对于当下所需模型所涉及的精确专业领域的界限感到模糊不清时,选择通用模型无疑是一种明智之举。垂直模型接下来谈谈垂直模型。 然而,由于垂直模型的训练内容聚焦于当前行业,其涉猎的范围更集中,数据针对性更强,所以在提供专业咨询时往往更加精准、细致,这也正是垂直模型的独特价值所在。 因此,对于通用模型或者垂直模型,更倾向于哪一方不取决于个人想法,而是取决于用户需要。

    71401编辑于 2024-12-30
  • 来自专栏小洁叫你mysql

    【AI模型】训练Al模型

    模型超越AI 目前所指的模型,是“大规模深度学习模型”的简称,指具有大量参数和复杂结构的机器学习模型,可以处理大规模的数据和复杂的问题,多应用于自然语言处理、计算机视觉、语音识别等领域。 本文将探讨模型的概念、训练技术和应用领域,以及与模型相关的挑战和未来发展方向。 模型是指具有庞大参数数量的机器学习模型。传统的机器学习模型通常只有几百或几千个参数,而模型则可能拥有数亿或数十亿个参数。 训练模型的挑战 训练模型需要应对一系列挑战,包括: 以下是与模型相关的一些代码示例: 计算资源需求: import tensorflow as tf # 指定使用GPU进行训练 with tf.device 更智能的模型压缩技术:模型压缩和加速技术将继续发展,以减小模型的计算和存储开销。 更好的计算平台支持:为了支持训练和部署模型,计算平台将继续改进,提供更强大的计算资源和工具。

    1.5K30编辑于 2023-10-10
  • 来自专栏学习

    开源模型与闭源模型

    在人工智能(AI)和机器学习(ML)的快速发展过程中,模型(Large Models)已经成为推动技术进步的重要力量。当前,业界存在两种主要的模型开发模式:开源模型和闭源模型。 一、开源模型 开源模型是指开发者将模型的代码和训练数据公开,使得任何人都可以访问、修改和使用这些资源。 二、闭源模型 闭源模型是指模型的代码和数据不对外公开,通常由商业公司开发和维护。代表性的闭源模型包括OpenAI的GPT-3和Google的BERT。 三、开源模型与闭源模型的对比 1.透明性与可控性: 开源模型的透明性更高,任何人都可以查看和验证其代码和数据,确保模型的行为符合预期。这对于学术研究和技术验证非常重要。 闭源模型通过控制代码和数据的访问,能够更好地保护用户隐私和数据安全,降低被恶意利用的风险。 五、总结 开源模型和闭源模型各有优缺点,适合不同的应用场景和需求。

    1.5K10编辑于 2024-10-09
  • 来自专栏数据派THU

    原创 | 模型扫盲系列——初识模型

    为了提高模型的性能,研究者们不断尝试增加模型的参数数量,从而诞生了模型这一概念。本文将从模型的原理、训练过程、prompt和相关应用介绍等方面进行分析,帮助读者初步了解模型。 为了提高模型的性能,研究者们不断尝试增加模型的参数数量,从而诞生了模型这一概念。本文讨论的模型将以平时指向比较多的语言模型为例来进行相关介绍。 训练三步骤 初步认识了模型长什么样了,接下来一起来看看如何训练出一个模型。 除这些外还包括算法优化、隐私和数据安全以及模型可解释性等方面的研究和应用,每天还有很多大模型的应用正在不断涌现,模型在未来仍然有很大的发展潜力,国内的优秀模型代表例如百度文心模型也正在搭建全系统产业化的模型全景 模型挑战 模型也存在一些现实挑战: 1.数据安全隐患:一方面模型训练需要大量的数据支持,但很多数据涉及到机密以及个人隐私问题,如客户信息、交易数据等。

    21.1K29编辑于 2023-11-22
  • 来自专栏IT从业者张某某

    模型模型的幻觉问题

    参考 模型中的涌现 OpenAI 科学家:幻觉是模型与生俱来的特性,而非缺陷 模型「幻觉」,看这一篇就够了|哈工大华为出品 模型 什么是模型 语言模型(LLM)是基于海量文本数据训练的深度学习模型 模型模型发展如下图 涌现 参考:模型中的涌现 什么是涌现?先从蚂蚁开始说起。蚂蚁是自然界中一种个体非常简单,但是群体能力非常强大的生物。 什么是模型中的涌现?在较小的模型中不出现,而在较大的模型中出现的能力,称为涌现。 我们看这张图片,它包含8张子图。分别在是八个不同的子任务下测试模型的few-shot的能力。 如何解决模型的「幻觉」问题? 方向一:什么是模型「幻觉」 模型出现幻觉,简而言之就是“胡说八道”。 用文中的话来讲,是指模型生成的内容与现实世界事实或用户输入不一致的现象。 只有模型助手存在幻觉问题。 方向二:造成大模型「幻觉」的原因 那么致使模型产生幻觉的原因都有哪些?

    1.7K11编辑于 2024-01-04
  • 来自专栏自然语言处理(NLP)论文速递

    ICLR2024 | 分享 8篇Spotlight论文,涉及多模态模型模型优化、RLHF等热门话题!

    今天给大家整理了8篇值得阅读的Spotlights论文,其中主要涉及多模态模型、Transformer多头注意力、上下文预训练、安全RLHF、LLM指令微调、模型数据隐私、生成流网络等热门方向。 多模态模型框架 https://openreview.net/attachment? 对不同规模和类型的模型进行的大量实验表明,现有的模型仍然缺乏事实知识,并且存在各种虚假相关性。本文认为这是实现可信人工智能的关键瓶颈。数据集 Pinocchio 和我们的代码将公开。 该技术在提高中等规模的模型性能方面显示出特别的优势,有时甚至可以与更大的模型变体相媲美。本文提出了两个问题: 1、指令调整模型对指令的特定短语有多敏感? 2、如何使它们对这种自然语言变化更加鲁棒? 我们证明这种方法持续提高了指令调整模型的稳健性。 模型数据隐私 https://openreview.net/attachment?

    3.3K10编辑于 2024-01-20
  • 来自专栏人工智能极简应用

    【AI模型】Transformers模型库(八):模型微调之LoraConfig

    一、引言 这里的Transformers指的是huggingface开发的模型库,为huggingface上数以万计的预训练模型提供预测、训练等服务。 你可以直接使用一个框架训练你的模型然后用另一个加载和推理。 LoRA是一种用于微调大型语言模型的轻量级方法,它通过添加低秩矩阵到预训练模型的权重上来实现适应性调整,从而在不显著增加模型大小的情况下提升特定任务的性能。 task_type: 指定任务类型,如'CAUSAL_LM',以确保LoRA适应正确应用到模型的相应部分。 get_peft_model(model, config) print_trainable_parameters(model) 三、总结 本文简要介绍LoraConfig的配置参数情况,具体的机遇peft对模型进行微调后面单独开一页详细讲解

    90710编辑于 2024-08-13
  • 来自专栏运维开发故事

    探索AI+k8s:如何使用Deepseek模型增强k8s-dashboard

    基于 AMIS 构建,并通过 kom 作为 Kubernetes API 客户端,k8m 内置了 Qwen2.5-Coder-7B 模型交互能力,同时支持接入您自己的私有化模型,比如deepseek模型 "sk-xxxxxxx") -m, --chatgpt-model string 模型的自定义模型名称 (default "Qwen/Qwen2.5-7B-Instruct OPENAI_API_URL "" 模型的 API URL OPENAI_MODEL Qwen/Qwen2.5-7B-Instruct 模型的默认模型名称,如需DeepSeek,请设置为deepseek-ai AI诊断报告呈上,有没有感觉很酷~ 4.4 AI智检 智检功能主要是引用了k8s_gpt工具中预置的规则使用模型,进行集群的智能巡检,目前平台支持集群,节点,部署,有状态集,容器组,svc,ingress 无论是需要快速查看集群状态,还是解决复杂的配置和运行问题,k8m 都能为开发者和运维团队提供可靠支持。同时,它兼容本地化模型部署,有效解决了数据安全和访问效率问题,为企业提供更高的自主性。

    70710编辑于 2025-03-27
  • 来自专栏流川疯编写程序的艺术

    《书生模型实战营第3期》基础岛 第2关 :8G 显存玩转书生模型 Demo

    模型。 LMDeploy 部署 InternLM-XComposer2-VL-1.8B 模型 InternLM-XComposer2 是一款基于 InternLM2 的视觉语言模型,其擅长自由形式的文本图像合成和理解 LMDeploy 部署 InternVL2-2B 模型 InternVL2 是上海人工智能实验室推出的新一代视觉-语言多模态模型,是首个综合性能媲美国际闭源商业模型的开源多模态模型。 InternVL2 系列从千亿模型到端侧小模型全覆盖,通专融合,支持多种模态。 后台等了三分多钟还是没有结果,我也不太看明白log 啥意思 其他学习内容 参考文献 模型实战营 地址 https://openxlab.org.cn/models/InternLM/subject

    37910编辑于 2024-08-11
  • 来自专栏IT从业者张某某

    语言模型-1.2-模型技术基础

    简介 1.2 模型技术基础 语言模型 预训练阶段会得到base model,本质上就是一个互联网文本模拟器,这个阶段需要上万台服务器训练几个月的时间,这个生成的模型可以认为是互联网的有损压缩。 构建一个语言模型 语言模型预训练(Pre-training) 使用与下游任务无关的大规模数据进行模型参数的初始训练 ➢ 基于Transformer解码器架构,进行下一个词预测 ➢ 数据数量、数据质量都非常关键 人类对齐(Human Alignment) ➢ 将语言模型与人类的期望、需求以及价值观对齐 ➢ 基于人类反馈的强化学习对齐方法(RLHF) 模型的研发已经成为一项系统工程 扩展定律( Scaling Law) ➢ 通过扩展参数规模、数据规模和计算算力,语言模型的能力会出现显著提升 ➢ 扩展定律在本次大模型浪潮中起到了重要作用 语言模型采用了与小型预训练语言模型相似的神经网络结构 ,从而获得更可靠的答案 涌现能力与扩展定律的关系 ➢ 涌现能力和扩展定律是两种描述规模效应的度量方法 模型核心技术 ➢ 规模扩展:扩展定律奠定了早期模型的技术路线,产生了巨大的性能提升

    46010编辑于 2025-03-15
  • 来自专栏机器学习入门

    【AI模型】LLM主流开源模型介绍

    学习目标 了解LLM主流开源模型. 掌握ChatGLM、LLaMA、Bloom等基础模型的原理 LLM主流模型类别 随着ChatGPT迅速火爆,引发了模型的时代变革,国内外各大公司也快速跟进生成式AI市场,近百款模型发布及应用 目前,市面上已经开源了各种类型的语言模型,本章节我们主要介绍其中的三类: ChatGLM-6B:衍生的模型(wenda、ChatSQL等) LLaMA:衍生的模型(Alpaca、Vicuna 显存(推理) 最低GPU显存(高效参数微调) FP16(无量化) 13GB 14GB INT8 10GB 9GB INT4 6GB 7GB 2.5 模型特点 优点: 较低的部署门槛: INT4 精度下 BLOOM模型 BLOOM系列模型是由 Hugging Face公司的BigScience 团队训练的语言模型

    1.1K10编辑于 2024-09-24
  • 来自专栏AIGC 先锋科技

    Eir-8B 专为医学领域打造的先进语言模型

    为此,作者引入了Eir-8B,这是一个起初基于LLaMA 3.1 Instruct-8B进行修改的8亿参数模型[5]。 模型合并 Fine-tuning之后,作者采用了一种模型合并策略将LaMA-3.1-8B-instruct模型与fine-tuned模型合并。 4 Evaluation 为了评估Eir模型(Enhanced IR Model)的潜力,作者开发了两种变体:专门针对阅读电子健康记录(EHR)数据的Eir-8B模型 [Eir-8B,专门用于文本分类任务 Eir-8B-prob],以及关注问题回答任务的Eir-8B-prob模型。 而Eir-8B模型在得分上比Typhoon-v1.5x-8B-instruct 高2.8%,比GPT-3.5 Turbo 1106 高5.3%。

    45110编辑于 2024-09-29
  • 来自专栏人工智能极简应用

    【AI模型】Transformers模型库(十二):Evaluate模型评估

    一、引言 这里的Transformers指的是huggingface开发的模型库,为huggingface上数以万计的预训练模型提供预测、训练等服务。 你可以直接使用一个框架训练你的模型然后用另一个加载和推理。 本文重点介绍Evaluate模型评估。 二、Evaluate模型评估 2.1 概述 Transformers库中的evaluate API主要用于评估模型在特定数据集上的性能。 下面是一个使用Python和Transformers库进行模型评估的基本步骤,假设你已经有了一个预训练模型和相应的数据集处理器。 评估结果将包含各种指标,如准确率,具体指标还要取决于你的模型

    99310编辑于 2024-08-13
  • 来自专栏muller的测试分享

    MetaLlama模型

    llama 模型介绍我们介绍 LLaMA,这是一个基础语言模型的集合,参数范围从 7B 到 65B。 我们在数万亿个Token上训练我们的模型,并表明可以专门使用公开可用的数据集来训练最先进的模型,而无需诉诸专有的和无法访问的数据集。 特别是,LLaMA-13B 在大多数基准测试中都优于 GPT-3 (175B),llama2 模型介绍我们开发并发布了 Llama 2,这是一组经过预训练和微调的大型语言模型 (LLM),其参数规模从 我们经过微调的语言模型(称为 Llama 2-Chat)针对对话用例进行了优化。 //huggingface.co/meta-llama/Llama-2-7bhttps://huggingface.co/docs/transformers/model_doc/llamallama 语言模型提供的主要模型列表

    41710编辑于 2024-09-02
  • 来自专栏AI

    模型微调

    # 模型微调的主流方式、核心区别与底层原理 微调(Fine-tuning)的核心底层共性:基于预训练模型的知识迁移,冻结预训练模型的大部分通用特征参数,仅针对具体任务优化少量参数/引入轻量模块/设计提示特征 核心特点:效果接近全量微调,是工业级模型的主流选择,参数量仍控制在5%以内。 特点:少样本适配(百/千级样本),效果优于硬提示,无推理延迟,适合超大规模模型。 ; 避免全量/部分微调:针对Transformer模型的两段式端到端架构,全量/部分微调的算力成本极高,且多任务适配时模型存储成本不可接受。 补充 全量微调:需64卡以上超大规模GPU集群,仅适合大厂; 部分微调:需8-32卡,中等算力; LoRA(PEFT):仅需1-8卡,单卡即可完成小模型微调,完全贴合中小算力场景的研究与实验,也是你论文中

    18810编辑于 2026-02-09
领券