首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 腾讯云TI-ONE:面向实战的模型推理平台

    一、产品定位与核心亮点 腾讯云TI-ONE是腾讯云推出的模型开发平台,核心定位为面向实战的企业级推理平台。 该平台通过提供完整的工具链和强大的技术内核,帮助企业用户高效完成大模型与部署,构建高质量AI基座。 二、产品应用场景 目标用户:具备一定算法知识和开发能力的AI工程师 业务场景与痛点: 启动阶段: 痛点:不知如何基于R1蒸馏模型进行开发;开源框架繁多,选择困难 解决方案:内置蒸馏方案开箱即用,内置全系模型一键模型支持:内置主流开源模型,DeepSeek全系模型支持部署 推理框架:内置自研Angel推理加速框架,具备业内第一梯队的模型加速效果 算力管理:X86+ARM异构算力纳管,极致满足多厂商AI 平台通过完整的企业级工具链和强大的技术内核,为模型部署提供全流程解决方案。

    11710编辑于 2026-05-30
  • 腾讯云:率先支持DeepSeek全系模型推理

    近日,腾讯云旗下TI平台宣布支持DeepSeek「全系模型」的企业级推理,帮助开发者更好解决「数据预处理难」、「模型训练门槛高」、「在线部署及运维复杂」等问题。 目前,用户可以根据个性化需求,灵活使用两种模式://模式一:直接满血版DeepSeek适用于希望直接对原始DeepSeek模型进行微调的用户,两步走即可完成。 ● 步骤二:一键发起模型调在“模型广场”或者“任务式建模”模块选择DeepSeek模型;选择步骤一中准备的数据路径,设置学习率、迭代步数等参数,即可发起训练任务。 TI平台支持基于R1蒸馏其他较小尺寸模型,可将R1的能力迁移至较小尺寸的“学生”模型中。三步走迅速实现。 ● 步骤三:调较小尺寸的“学生模型”在“模型广场”或者“任务式建模”模块选择Llama等其他较小尺寸的“学生模型”;选择步骤二中准备的数据路径,设置学习率、迭代步数等参数,即可发起训练任务。

    83210编辑于 2025-02-20
  • 腾讯混元模型体系与TI平台企业级推理能力概要

    功能框架:腾讯云TI平台(TI-ONE) TI-ONE定位为面向实战的模型开发平台,核心架构包含: 实用工具链:覆盖全链路开发。 高效数据准备:支持多模标注与自动化构建。 训练保障:故障主动恢复的长时任务保障;内置100+场景的调配比数据。 调度能力:支持训推一体潮汐调度,在线推理闲时算力用于离线训练;支持严格先进先出与灵活开启抢占策略。 解决方案: AI搜索:集成R1优化阅读理解能力,同时使用DeepSeek coder训练Text2SQL模型。 角色扮演:基于V3模型进行SFT(监督微调)专属模型。 成效: 安全可控:回答安全可控,不做过度推理推理高效:模型推理过程简洁高效(对比前冗长的思维链,后直接输出结论)。 3. 五、混元模型全系矩阵更新 模型系列 定位与特性 关键数据/更新 混元 TurboS 旗舰快思考模型(创新混合Mamba MoE架构) Arena排名#8;代码能力提升24%;竞赛数学提升39%。

    16310编辑于 2026-05-30
  • 腾讯云TI平台TI-ONE:面向实战的模型推理平台

    AI工程师提供工具,以更高效率并部署可真正落地的模型。 核心差异化卖点: 解决通用模型痛点:针对DeepSeek等强大通用模型存在的过度推理、指令遵循弱、推理效率低等问题,提供企业级方案。 模型服务层: 支持 DeepSeek系列模型、腾讯云知识模型、混元系列模型。 支持 客户专属模型(全参/LoRA SFT、蒸馏)。 成效: 回答安全可控,不做过度推理前:模型自行推断“型号A保修期为一年”(基于B系列文档推测)。 推理过程:模型推理过程简洁高效,直接定位标准(如GB_T 20626.1-2017),不再进行无依据的发散联想。

    15210编辑于 2026-05-30
  • 离线推理全流程&模型

    整体概述小模型推理方案:ATC转换架构图:ModelZoo-PyTorch指导文档:https://gitee.com/ascend/ModelZoo-PyTorch/blob/master/ACL_PyTorch /docs/README.md模型推理离线推理导出Onnx参考链接:ONNX的导出Onnx转om参考链接1:Onnx转Om参考链接2:ATC工具介绍离线推理参考链接:离线推理Chinese_CLIP上机操作 Chinese_CLIP模型介绍参考链接传统模型基于昇腾迁移适配全流程模型支持度分析msit analyze安装msit: https://gitee.com/ascend/msit/blob/master (onnx->om)atc工具使用指导:链接AOE自动优(onnx->om)使用指导:链接模型压缩:官方指导文档:链接离线推理Chinese_CLIP模型推理指导ais_bench使用安装:链接推理执行 :在线推理torch_npu单算子推理:开源样例 vs torch_npu适配版本 图片 执行在线推理:跑了一把cpu版本和npu版本,发现最后返回logits有差异,需要进一步做精度对齐分析。

    28400编辑于 2025-06-20
  • 模型,获得自己的翻译姬

    随着模型技术的发展,个人/业务获取自己专属的翻译模型专属词汇已经变的越来越容易,本文旨在记录并使用模型步骤以及遇到的坑模型选型选取了一个专门用作翻译的小模型:MarianMThttps:// ,此时模型还是未经过调过的模型确认transforms版本: https://huggingface.co/Helsinki-NLP/opus-mt-zh-en/blob/main/config.jsongit ,而是接着,修改这个模型位置export m=Helsinki-NLP/opus-mt-zh-enexport MAX_LEN=128export MAX_TGT_LEN=128export DATA_DIR /test_data/zh_eng # 这是用于的数据位置torchrun finetune_trainer.py \ --tokenizer_name $m --model_name_or_path ,会被挡住进行bash train_distil_marian_enro.sh结束后由于指定的输出目录是--output_dir opus-mt-zh-en所以会在同级目录下生成一个模型使用后的模型

    97610编辑于 2024-04-29
  • 来自专栏山河已无恙

    如何高效使用DeepSeek-R1:推理模型优指南

    ^_^ 如何高效使用DeepSeek-R1:推理模型提示工程优指南 LLM 中 DeepSeek-R1 与传统非推理模型的交互方式存在本质差异。 但与通用模型不同,推理模型需要特殊的交互策略,博文内容列举几个常见的优化手段,帮助开发者构建高效的交互范式。 ,并按照特定的方式进行回应,比如 你是一个技术博主 少量示例: 这些示例可以帮助语言模型更好地理解任务,并生成更准确的响应,{Q:分布式锁实现方式有哪些? 用户输人:用户的输人可以直接引导语言模型生成特定的答案,用户输入的问题 {QUESTION} 高级交互 数学推理增强模式 要求:请通过逐步推导证明勾股定理,并将最终答案用Latex公式框起 示例响应: 建议生成3-5个候选方案后,采用以下评估维度: 答案正确性(70%权重) 推理过程完整性(25%权重) 表达简洁度(15%权重) 掌握深度推理模型的交互范式,本质上是构建精准的需求映射关系。

    1.1K10编辑于 2025-03-04
  • 模型削减文档AI成本90%

    停止为你不会用到的人工智能付费:模型的价值每日通过GPT或Claude处理10,000份文档,年成本为5万美元。模型:5千美元。相同准确率。更低延迟。数据永不离开你的控制。 这些工作流需要本地推理。当网络故障时,系统继续运行。基于API的提取制造了一个单点故障,会导致运营中断。这就要求本地精模型到位。 基于合同数据库训练的模型能识别这些模式。前沿模型将其视为普通文本。某法律助手构建于GPT-4之上,但专门针对法律语料库进行了。 前沿模型将文本作为普通语言进行评估。基于已批准和已拒绝索赔训练的模型能学习保险公司接受哪些文档模式。 文档类型差异巨大,以至于维护多个独立的模型不切实际。这些场景看重能力广度而非单次推理成本。切换到本地部署的模型当: 工作流是高容量、固定模式的提取。应付账款自动化中的发票处理。

    12510编辑于 2026-04-09
  • 腾讯云TI平台以技术攻克模型行业落地难题

    提供模型全生命周期解决方案 腾讯云TI平台构建了覆盖模型选型、数据准备、训练共建到应用联的一体化方法论。 该方案通过平台化工具链,将复杂的调过程简化为可配置、可监控的标准流程。 实现训练效率与模型性能的显著提升 平台通过自研技术实现了关键指标的优化。 在模型性能上,针对特定行业数据后的10亿参数行业大模型,其任务性能可媲美千亿参数通用模型,极大降低了训练资源需求。 解决方案基于模型对长篇原文的理解,自动重新组织语言,输出概括性内容。 平台底层采用超2万亿token语料训练的自研混元模型,在信通院测评中,模型开发与模型能力综合评级均获4+级(当前最高分)。

    11010编辑于 2026-05-31
  • 模型推理 DPTPPPEP 理解

    TP:Tensor Parallel,张量并行 2.1 直观理解 2.2 TP 的基本图示 2.3 TP 的计算流程 2.4 TP 为什么常用于模型推理? GPU2 局部结果 GPU3 局部结果 │ ↓ AllReduce 汇总 │ ↓ 每张 GPU 得到完整或所需结果 2.4 TP 为什么常用于模型推理 四种并行方式的核心区别 可以用这张总图理解: 模型多 GPU 推理并行 │ ┌───── 张卡才能放下 建议: TP=8 DP=1 结构: GPU0-7 一起跑一个模型副本 适合: Dense 模型 单副本推理 缺点: 只有一个副本,并发能力主要靠 continuous batching 和 KV Cache 的关系 模型推理时,KV Cache 非常关键。

    49710编辑于 2026-05-06
  • 来自专栏测试开发技术

    基于 vLLM 的模型推理服务部署与性能优实战

    一、概述 1.1 背景介绍 vLLM 是 UC Berkeley 开源的高性能语言模型推理引擎,专为生产环境的 LLM 服务设计。 传统推理框架在处理大规模并发请求时,存在显存利用率低、吞吐量受限等问题。 在实际生产环境中,模型推理服务面临三核心挑战:GPU 显存碎片化导致的资源浪费、动态批处理的调度复杂度、以及高并发场景下的请求排队延迟。 NV12 NV12 X NV12 # GPU3 NV12 NV12 NV12 X # 如果显示 PHB(PCIe Host Bridge),性能会严重下降 ❗ 不要混用不同精度的模型权重和推理 FP32 --dtype bfloat16 # 推理用 BF16,会导致精度损失 # 正确做法:转换模型 python -c " from transformers import AutoModelForCausalLM

    2.6K10编辑于 2026-01-13
  • 来自专栏新智元

    推理AI致命弱点,模型变「杠」!被带偏后死不悔改

    一旦被无关或错误信息干扰,模型可能变成固执杠,连纠正提示都救不回! 这会不会是模型表现的如同「聪明的汉斯」那样,依赖提示词中的表面模式,而非真正具有了推理能力,DeepMind的最新研究揭示了模型推理能力令人担忧的一面。 论文链接:https://arxiv.org/abs/2506.10979 模型无法识别推理中犯的错 首先将模型的的无效思考进行了分类,第一类称为无信息内容,例如当我们使用推理模型时,偶然会发现模型的思路跑偏 ,其识别准确性都不到三成,这意味着推理模型目前无法处理自身推理中的错误,也无法独立验证其推理过程是否正确。 当不怀好意者在思考过程中加入无关内容后,即使模型能够识别出问题,也会被带偏,而越大的模型有更多的模版库,因此更有可能在思考过程跑偏(走神)后成为犯错却死不回头的杠

    30710编辑于 2025-07-04
  • 腾讯云TI平台(TI-ONE):构建多元模型企业级推理的AI基座

    一、 产品定位与核心亮点 技术定义:腾讯云TI平台(TI-ONE)是一款面向实战的模型开发与部署平台。 平台内聚了自研Angel推理加速框架,并纳管了X86与ARM异构算力集群,专为模型(特别是DeepSeek全系等主流开源模型)的推理提供底层工程化支持。 商业差异化卖点:针对开源模型在业务落地中普遍存在的“过度推理、指令遵循弱、推理效率低”等问题,平台提供从全参/LoRA SFT微调到模型蒸馏的完整企业级工具链。 场景数据储备:内置 100+场景 的调配比数据,实现 4类场景 全面支持。 工程保障机制:模型训练具备 3层机制 保障减少中断,评测体系实现 3阶段评测 全面覆盖。 3. 成效:指令遵循能力大幅增强,回答变得安全可控,完全消除过度推理现象;同时模型实现了高效推理推理过程更加简洁高效。 4.

    13310编辑于 2026-05-30
  • 来自专栏spring-ai 系列

    语言模型推理框架调研

    引言语言模型(LLM)的迅猛发展及其在自然语言处理、代码生成、多模态交互等领域的广泛应用,对底层推理基础设施提出了前所未有的挑战。 本文主要对当前主流的语言模型推理框架进行系统性调研与分析,将深入探讨各个框架的核心架构、设计理念、关键技术特点,并结合性能基准测试数据,分析其在不同模型规模和部署场景下的适用性。 这些优化方向的有效结合,是现代 LLM 推理框架提升效率的关键。III. 主流模型推理框架当前,业界涌现了多款主流的模型推理框架,它们在设计理念、核心技术和适用场景上各有侧重。 DeepSpeed-Inference:作为微软 DeepSpeed 库的一部分,DeepSpeed-Inference 专注于模型推理加速。 这可能会驱动未来推理框架在数据和资源管理方面向更统一的设计演进。IX. 总结与建议语言模型推理框架是释放 LLM 潜能、将其应用于实际生产的关键技术。

    4.3K20编辑于 2025-06-03
  • 来自专栏NLP/KG

    中文LLaMA模型和指令的Alpaca模型:中文数据进行二次预训练

    中文LLaMA模型和指令的Alpaca模型:中文数据进行二次预训练,进一步提升了中文基础语义理解能力 图片 以ChatGPT、GPT-4等为代表的语言模型(Large Language Model 然而,由于语言模型的训练和部署都极为昂贵,为构建透明且开放的学术研究造成了一定的阻碍。 为了促进模型在中文NLP社区的开放研究,本项目开源了中文LLaMA模型和指令的Alpaca模型。 同时,中文Alpaca模型进一步使用了中文指令数据进行,显著提升了模型对指令的理解和执行能力。详细内容请参考技术报告(Cui, Yang, and Yao, 2023)。 链接 手动转换 离线方式转换,生成不同格式的模型,以便进行量化或进一步 链接 具体内容请参考本项目 >>> GitHub Wiki 3.本地推理与快速部署 本项目中的模型主要支持以下量化、推理和部署方式 5.训练细节 整个训练流程包括词表扩充、预训练和指令三部分。

    2.9K00编辑于 2023-07-29
  • 腾讯云TI平台与混元模型企业级能力概览

    一、 产品定位与核心亮点 腾讯云TI平台(TI-ONE) 是一个面向AI工程师的模型实战开发平台,核心定位为提供企业级、全流程的模型推理服务。 腾讯混元模型是腾讯自研的基础模型系列,其技术演进沿着“深度”和“广度”两个维度展开: 深度(认知与思考):持续增强模型的复杂推理与认知能力,代表模型为深度思考模型混元T1。 解决方案: AI搜索:集成R1模型优化阅读理解能力,并使用DeepSeek coder训练Text2SQL模型。 角色扮演:基于V3模型进行SFT,训练角色扮演专属模型。 成效: 回答安全可控,不做过度推理后的模型能严格依据提供的文档内容作答,避免了基于自身先验知识的过度推理模型高效推理推理过程简洁高效:后的模型推理输出过程显著简化,效率提升。 总结 腾讯云通过TI平台提供强大的企业级推理基础设施,结合持续演进的混元模型家族,为企业应对“指令遵循”、“过度推理”、“推理效率”等实际应用挑战提供了完整的解决方案。

    14110编辑于 2026-05-30
  • 腾讯混元多元模型与云TI平台:企业级推理与AI基座构建解析

    报告人: 程雪璨丨腾讯云智能解决方案专家(腾讯全球数字生态大会 | 城市峰会) 一、 产品定位与核心亮点 腾讯混元模型体系结合腾讯云TI平台(TI-ONE),定位为面向实战的企业级模型开发与推理平台 二、 产品应用场景 该平台主要面向具备一定算法知识和开发能力的AI工程师,旨在解决模型在企业落地探索期、启动期与稳定期面临的实际业务痛点: 模型应用痛点:解决标准模型在实际应用中出现的“过度推理”、 三、 应用框架和功能介绍 3.1 功能框架 腾讯云TI平台(TI-ONE)的架构包含两核心维度: 强大内核: 模型:内置主流开源模型,支持混元 + DeepSeek 模型部署。 模型部署:提供可自动弹缩的分布式部署,稳定支持高并发。支持全面升级的训练能力,包含蒸馏、强化学习(Ray 分布式计算框架)及自驾模型训练(BEVFormer/FastBEV)。 解决方案:基于 TI 平台集约管理算力,充分运用 GPU 虚拟化技术和分布式计算能力;使用工具链免除繁琐开发环境配置,支持训推一体潮汐调度。

    14800编辑于 2026-05-30
  • 来自专栏机器学习与统计学

    纯离线安装模型推理引擎,部署量化模型

    大家好,我是 Ai 学习的老章 继续介绍模型推理引擎+Llama.cpp,前文我写了# 内网部署 llama.cpp,运行量化模型,详细介绍了 llama.cpp 这个推理引擎,内网离线 cmake 本文我们用个更省事儿的内网离线部署方式——Docker,然后用其部署量化模型,其中踩坑若干,才有如此精炼、极简教程 1、联网环境拉取 llama.cpp 镜像并保存 选择镜像最好是官方,比如 llama.cpp server-cuda https://github.com/ggml-org/llama.cpp/blob/master/docs/docker.md 市面上有很多个人打包的镜像,大多都是阉割版 费老大劲搞进去,发现模型无法加载 /dir 再传入内网: llama.cpp 服务需要模型文件才能运行,在你的 Linux 服务器上创建一个目录,用来存放 GGUF 格式的模型文件。 5、启动模型 docker run --rm --runtime nvidia -e TZAsia/Shanghai --gpus "device=2" -v /opt/data/ai/GGUF:/models

    1.9K10编辑于 2025-10-11
  • 来自专栏未来先知

    哈工程大学提出参数高效多模式语言模型,用于医学视觉落地!

    多模态大型语言模型(MLLMs)继承了语言模型的优越文本理解能力,并将这些能力扩展到多模态场景。这些模型在多模态任务的一般领域中取得了出色结果。 近年来在多模态语言模型(MLLMs)方面取得了显著的进展,极大地提升了基础模型的能力。这些模型推动了基于图像的交互式通信,在视觉任务和复杂内容理解和生成方面表现出色。 MLLMs深入地将跨模态(图像和文本)信息融合,提高了医学知识的表示和推理。它们可以识别微妙的图像细节,如病变特征,并理解复杂的文本描述,如病理报告。 相比之下,尽管视觉预训练语言模型(VLP)可以处理视觉和语言数据,但它们的跨模态理解和推理相较于MLLMs,特别是在专业医学图像和术语方面,显然较弱。 这种方法不仅显著提高了模型训练过程的效率,而且最大限度地减少了资源消耗,确保了与医学视觉-文本知识的更精确对齐。 值得注意的是,作者的模型在MS-CXR数据集上表现出色,显著优于GPT-4v模型

    48610编辑于 2024-11-27
  • 传媒专属模型建设:突破知识幻觉与算力瓶颈的工程实践

    企业在尝试通过模型(Fine-tuning)解决上述问题时,普遍遭遇三工程挑战,导致理想规划与实际落地的巨大鸿沟: 专业人才稀缺:开发和落地对技术人才储备及能力要求高,资源缺失直接拖慢产业落地与持续优化进程 数据质量差:需要大量高质量数据进行优化,数据源的各类缺陷导致模型训练的最终效果和效率无法得到保障。 计算资源门槛:模型训练与推理对计算和存储资源需求极高,多数企业难以独立支撑高昂的算力成本。 综合技术干预手段 (RAG vs FT 协同) 摒弃单一的技术路线,采用综合手段提升模型表现:通过 RAG(检索增强生成) 引入外部动态数据抑制幻觉并提升透明度;同时利用 FT() 调整模型的特定语气 “公有云训练 + 私有化推理”交付模式 降低企业从零起步的门槛:腾讯提供基础模型模型训练工具;客户在TI-ONE公有云利用脱敏数据进行 Fine-tuning;生成的专属模型部署至本地环境执行私有化推理 以下为评估模型投入产出比(ROI)的三个关键指标与数据支撑: 指标一:训练和推理性能提升 30%+。依托腾讯云模型底座及 太极Angel加速组件 的平台框架加速能力,将整体算力利用效率拔高。

    10910编辑于 2026-05-31
领券