首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏机器学习与推荐算法

    OpenGraph: 通用图基座模型

    TLDR: 港大发布通用图基座模型OpenGraph,巧妙地从语言模型(LLM)中蒸馏零样本以增强图泛化能力。 尽管上述工作推进了图神经模型的泛化能力,但这些模型全都假设:训练数据和测试数据有相同的节点集合和特征空间。这极大地限制了预训练图模型的应用范围。因此,本文探索进一步提升图模型泛化能力的方法。 模型介绍 模型整体架构如下图所示,可以分为三个部分,分别为1)统一图Tokenizer,2)可扩展的图Transformer,3)语言模型知识蒸馏。 语言模型知识蒸馏 由于数据隐私等原因,获取各个领域的数据来训练通用图模型是很有挑战性的。 通过在多个基准数据集上进行的大量实验,我们验证了模型的杰出泛化能力。本研究在图基座模型方向作出了初步探索的尝试。

    42010编辑于 2024-03-15
  • 来自专栏新智元

    首个科学计算基座模型BBT-Neutron开源!突破科学装置数据分析瓶颈

    新智元报道 编辑:LRST 【新智元导读】语言模型能否解决传统语言模型在大规模数值数据分析中的局限性问题,助力科学界科学装置设计、高能物理领域科学计算? 其中,研究人员从粒子对撞实验出发,探索了语言模型科学装置数据分析与科学计算领域的全新应用场景—— 具体来说,团队将其最新研发的科学基座模型BBT-Neutron应用于粒子对撞实验,模型采用了全新的二进制分词方法 通俗而言,当数据规模逐步增加时,该模型在性能上出现了显著跃迁。这一发现验证了通用模型在大规模科学计算任务中的可扩展性,即该模型有望成为跨领域的科学计算基座模型。 该论文研究标志着模型在多模态数据处理与科学计算任务中的巨大潜力。随着人工智能技术与科学装置的深度融合,在未来或许能够加速中国大对撞机CEPC等前沿科研项目的实施落地。 BBT模型发展历程 2022年:发布BBT-1,10亿参数的金融预训练语言模型; 2023年:发布BBT-2,120亿参数的通用语言模型; 2024年:发布BBT-Neutron,1.4亿参数的科学基座语言模型

    46110编辑于 2025-02-15
  • 腾讯“云基座+AI模型”重构公积金核心系统与业务闭环纪要

    公众服务体验的体验落差:公众对政务服务提出“秒批秒办”、“无感漫游”的期待,但传统模式仍停留在“可办”阶段,缺乏以AI模型驱动的智能客服、智能审批及智能风控等前沿技术支撑,难以向“好办智办”跃升。 TI/ADP智能体开发平台:支持混元、DeepSeek等多模型纳管、RAG(检索增强生成)与Multi-Agent工作流编排。 深度植入公积金五AI业务场景: 智能审批与风控:引入AI视觉与OCR技术自动提取核验征信与贷款材料,构建多维风险特征图谱实现骗提骗贷事前预警。 AI模型精准度:系统上线首周,智能客服的AI解答准确率即达到 82%,显著降低了人工客服接线压力。 行业前沿的AI专利与产品矩阵:累计获得5000+项AI相关专利,全球互联网企业专利榜排名第2;主导的智能体开发平台(ADP)及模型矩阵深度集成RAG体系,已被多家头部政企采用,确保技术红利直接转化为政务生产力

    13410编辑于 2026-04-15
  • 来自专栏程序随笔

    聊聊GLM基座模型的理论知识

    概述 模型有两个流程:预训练和推理。 预训练是在某种神经网络模型架构上,导入大规模语料数据,通过一系列的神经网络隐藏层的矩阵计算、微分计算等,输出权重,学习率,模型参数等超参数信息。 掩码处理 GLM统一了自编码模型与自回归模型,主要是在该处理过程实现的。该过程也被成为自回归空格填充。 掩码的目的是让模型学习预测那些被掩码的词语。让模型能够在预训练过程中更好地学习语言规律和上下文信息。 这意味着在预测[mask]中原来的词的同时,模型可以参考之前片段的信息。 上下文信息利用:为了让模型能够更好地理解上下文信息,GLM模型将被掩码的片段的顺序打乱。 这样,模型在预测时需要参考更广泛的上下文信息,从而提高其语言理解能力。 预训练任务:通过这种方式,GLM模型实现了自监督训练,让模型能够在不同的任务(如NLU、NLG和条件NLG)中表现更好。

    1.6K10编辑于 2023-12-18
  • 来自专栏DrugOne

    字节Seed团队冷冻电镜基座模型新突破

    一个自然的问题是:能否训练一个模型,从这些真实实验数据中学习“什么样的密度图是合理的”,并在数据处理过程中真正发挥作用? CryoFM:用生成式模型,真正“帮实验数据说话” 近日,字节跳动 Seed 团队提出了 cryoFM ——一个直接在冷冻电镜密度图空间中训练的生成式基础模型。 不只是 cryo-EM 更重要的是,这项工作展示了一种生成式模型的不同用法。 相比于将生成模型用于“设计”或“生成”结构,cryoFM 证明了生成式模型也可以作为实验推断中的概率先验,直接参与对实验数据的解析过程。 CryoFM 提供了一种思路:将生成式模型嵌入到推断流程中,用数据驱动的先验帮助实验数据“说清楚它真正支持什么”。

    20510编辑于 2026-01-26
  • 2026 RAG 全景:从模型基座到 Agent 记忆中枢——万字长文吃透全栈落地

    为什么你必须搞懂 RAG 2023 年是模型“百模大战”年,所有人都在刷榜单、比参数。2024 年起,战场转移了——谁能把模型真正用起来,谁才有价值。 这就是 模型的两大致命缺陷: ① 知识截止(Knowledge Cutoff) 所有模型都有训练截止日期。GPT-4 的训练数据截止到某个时间点,之后发生的事情它一概不知。 ② 幻觉(Hallucination) 幻觉就是模型生成看似合理但实际是错误的回答,是模型在 “一本正经地胡说八道”。 模型是在海量数据上训练出来的玩“文字接龙”的概率预测机器,模型没有思想,只是在做极致的数学计算。当它被问到不知道的事情时,它不会说“我不知道”,而是会“合情合理地编造”一个听起来像真的答案。 1.2 RAG 的核心思路 RAG 的核心思路极其简单,用一句话概括: 在让模型作答之前,先去外部知识库找到相关信息,然后把这些信息连同问题一起交给模型

    94610编辑于 2026-04-14
  • 来自专栏技术汇总专栏

    智能体预训练模型选型指南-通用基座与任务专用模型的适配之道

    一、核心概念:通用基座与任务专用模型的技术边界1.1通用基座模型:泛化能力的底层支撑通用基座模型通过在万亿级无标注数据上进行自监督预训练,学习语言、逻辑、世界知识等通用能力,其核心特征包括:架构通用性: 两者的核心差异可总结为:维度通用基座模型任务专用模型训练数据广谱无标注数据(通用领域)垂直领域数据+任务标注数据能力范围多任务泛化单/窄任务专精推理效率较低(参数规模)较高(参数聚焦)适配成本低(Prompt ,核心评估维度如下:2.1任务特性维度任务复杂度:低复杂度任务(如文本摘要、简单问答)可选用轻量通用模型;高复杂度任务(如逻辑推理、领域决策)需专用模型参数量通用基座。 2.2资源约束维度计算资源:训练阶段,专用模型微调需较少GPU资源(单卡/多卡即可);通用基座全量微调需千卡级GPU集群;推理阶段,专用模型(如7B/13B参数)可在边缘设备部署,通用模型(如70B+ 总之,智能体预训练模型选型的核心是“场景与模型的匹配优化”,无需盲目追求参数量通用模型,也无需过度依赖专用模型的精度优势。

    50710编辑于 2025-12-17
  • 来自专栏创作是最好的自我投资

    通用模型VS垂直模型

    在人工智能这个充满无限可能的领域内,通用模型和垂直模型各有千秋。就我个人而言,在二者之间的选择上,并不存在偏向某一方的倾向。我觉得应当依据实际应用场景的具体需求,来挑选最为契合的模型。 通用模型通用模型,乃是旨在应对多种任务与数据类型的庞然物级人工智能模型。 在知识覆盖的广度方面,通用模型无疑具有明显的优势。当我们对于当下所需模型所涉及的精确专业领域的界限感到模糊不清时,选择通用模型无疑是一种明智之举。垂直模型接下来谈谈垂直模型。 然而,由于垂直模型的训练内容聚焦于当前行业,其涉猎的范围更集中,数据针对性更强,所以在提供专业咨询时往往更加精准、细致,这也正是垂直模型的独特价值所在。 因此,对于通用模型或者垂直模型,更倾向于哪一方不取决于个人想法,而是取决于用户需要。

    76301编辑于 2024-12-30
  • 来自专栏小洁叫你mysql

    【AI模型】训练Al模型

    模型超越AI 目前所指的模型,是“大规模深度学习模型”的简称,指具有大量参数和复杂结构的机器学习模型,可以处理大规模的数据和复杂的问题,多应用于自然语言处理、计算机视觉、语音识别等领域。 本文将探讨模型的概念、训练技术和应用领域,以及与模型相关的挑战和未来发展方向。 模型是指具有庞大参数数量的机器学习模型。传统的机器学习模型通常只有几百或几千个参数,而模型则可能拥有数亿或数十亿个参数。 训练模型的挑战 训练模型需要应对一系列挑战,包括: 以下是与模型相关的一些代码示例: 计算资源需求: import tensorflow as tf # 指定使用GPU进行训练 with tf.device 更智能的模型压缩技术:模型压缩和加速技术将继续发展,以减小模型的计算和存储开销。 更好的计算平台支持:为了支持训练和部署模型,计算平台将继续改进,提供更强大的计算资源和工具。

    1.5K30编辑于 2023-10-10
  • 来自专栏学习

    开源模型与闭源模型

    在人工智能(AI)和机器学习(ML)的快速发展过程中,模型(Large Models)已经成为推动技术进步的重要力量。当前,业界存在两种主要的模型开发模式:开源模型和闭源模型。 一、开源模型 开源模型是指开发者将模型的代码和训练数据公开,使得任何人都可以访问、修改和使用这些资源。 二、闭源模型 闭源模型是指模型的代码和数据不对外公开,通常由商业公司开发和维护。代表性的闭源模型包括OpenAI的GPT-3和Google的BERT。 三、开源模型与闭源模型的对比 1.透明性与可控性: 开源模型的透明性更高,任何人都可以查看和验证其代码和数据,确保模型的行为符合预期。这对于学术研究和技术验证非常重要。 闭源模型通过控制代码和数据的访问,能够更好地保护用户隐私和数据安全,降低被恶意利用的风险。 五、总结 开源模型和闭源模型各有优缺点,适合不同的应用场景和需求。

    1.7K10编辑于 2024-10-09
  • 来自专栏数据派THU

    原创 | 模型扫盲系列——初识模型

    为了提高模型的性能,研究者们不断尝试增加模型的参数数量,从而诞生了模型这一概念。本文将从模型的原理、训练过程、prompt和相关应用介绍等方面进行分析,帮助读者初步了解模型。 为了提高模型的性能,研究者们不断尝试增加模型的参数数量,从而诞生了模型这一概念。本文讨论的模型将以平时指向比较多的语言模型为例来进行相关介绍。 训练三步骤 初步认识了模型长什么样了,接下来一起来看看如何训练出一个模型。 除这些外还包括算法优化、隐私和数据安全以及模型可解释性等方面的研究和应用,每天还有很多大模型的应用正在不断涌现,模型在未来仍然有很大的发展潜力,国内的优秀模型代表例如百度文心模型也正在搭建全系统产业化的模型全景 模型挑战 模型也存在一些现实挑战: 1.数据安全隐患:一方面模型训练需要大量的数据支持,但很多数据涉及到机密以及个人隐私问题,如客户信息、交易数据等。

    21.2K29编辑于 2023-11-22
  • 来自专栏IT从业者张某某

    模型模型的幻觉问题

    参考 模型中的涌现 OpenAI 科学家:幻觉是模型与生俱来的特性,而非缺陷 模型「幻觉」,看这一篇就够了|哈工大华为出品 模型 什么是模型 语言模型(LLM)是基于海量文本数据训练的深度学习模型 模型模型发展如下图 涌现 参考:模型中的涌现 什么是涌现?先从蚂蚁开始说起。蚂蚁是自然界中一种个体非常简单,但是群体能力非常强大的生物。 如何解决模型的「幻觉」问题? 方向一:什么是模型「幻觉」 模型出现幻觉,简而言之就是“胡说八道”。 用文中的话来讲,是指模型生成的内容与现实世界事实或用户输入不一致的现象。 OpenAI 科学家 Andrej Karpathy关于模型幻觉 在 Karpathy 看来: 从某种意义上说,语言模型的全部工作恰恰就是制造幻觉,模型就是「造梦机」。 只有模型助手存在幻觉问题。 方向二:造成大模型「幻觉」的原因 那么致使模型产生幻觉的原因都有哪些?

    1.8K11编辑于 2024-01-04
  • 来自专栏人工智能极简应用

    【AI模型】Transformers模型库(八):模型微调之LoraConfig

    一、引言 这里的Transformers指的是huggingface开发的模型库,为huggingface上数以万计的预训练模型提供预测、训练等服务。 你可以直接使用一个框架训练你的模型然后用另一个加载和推理。 LoRA是一种用于微调大型语言模型的轻量级方法,它通过添加低秩矩阵到预训练模型的权重上来实现适应性调整,从而在不显著增加模型大小的情况下提升特定任务的性能。 task_type: 指定任务类型,如'CAUSAL_LM',以确保LoRA适应正确应用到模型的相应部分。 get_peft_model(model, config) print_trainable_parameters(model) 三、总结 本文简要介绍LoraConfig的配置参数情况,具体的机遇peft对模型进行微调后面单独开一页详细讲解

    95110编辑于 2024-08-13
  • AI 语言模型及服务平台:用智能基座让千行百业“接得住、用得好、长得快”

    在人工智能迈向产业落地的关键阶段,许多组织面临“有需求、无能力,想应用、难集成”的现实困境:自研模型成本高昂、技术门槛高筑;通用模型“水土不服”,无法理解行业术语与业务逻辑;即便调用 API,也常因缺乏适配工具而难以嵌入现有流程 而 AI 语言模型及服务平台的出现,正以“开箱即用的模型 + 灵活可配的服务引擎”,打造企业智能化转型的“水电煤”式基础设施——无需从零造轮子,也能拥有专属智能能力,真正实现“低门槛接入、高价值产出 该平台的核心逻辑,构建于“基座—适配—应用—进化”的全栈服务体系,深度融合通用智能与垂直场景。 首先是“多模态模型基座层”,平台预集成经过千亿级高质量语料训练的通用语言模型(LLM),并针对政务、金融、医疗、教育、制造等重点行业,提供领域精调版本。 未来,随着多智能体协作、跨模态推理、自主规划等能力成熟,这一平台将从“工具提供者”升级为“业务共创者”,助力企业在智能时代抢占先机——因为真正的智能化,不是拥有模型,而是让模型为你所用。

    27310编辑于 2025-11-19
  • |给酶匹配“对象”,基座模型EnzymeCAGE破解酶招募难题

    Catalysis》发表题为“A Geometric Foundation Model for Enzyme Retrieval with Evolutionary Insights”的研究工作,提出酶催化基座模型 模型架构 EnzymeCAGE的核心创新在于其多模态的几何增强架构 。该模型利用蛋白质语言模型捕获酶的全局进化信息,同时采用AlphaFill提取催化口袋的局部几何特征,并以图神经网络进行精确编码。 此外,在与CLEAN和GraphEC等基于 EC 编号预测的模型对比中,EnzymeCAGE在处理具体酶-反应特异性设置时表现出更强的排除负样本能力,且在六类 EC 分级中均展现了更高的预测精度 。 这些结果有力地证明了 EnzymeCAGE不仅是一个通用的基座模型,更是一个能通过微调精准捕捉家族特性、有效应对生物工程中各类复杂酶学挑战的高精度定制工具 。 这些结果充分证明了EnzymeCAGE作为一种通用基座模型,在加速先进生物催化剂发现、重构代谢网络以及推动合成生物学创新方面的巨大潜力 。

    9420编辑于 2026-03-03
  • 来自专栏机器人技术与系统Robot

    漂浮基座机器人

    1 机器人DH 单臂空间机器人的模型如图所示,由n个自由度机械臂和作为其基座的航天器平台组成。 对于卫星基座存在姿态控制系统并且实时控制卫星姿态的机器人,机械臂对卫星基座的反作用力矩是加载到基座姿态控制系统的负载,较大的反作用力矩会影响卫星基座姿态控制系统的动态性能。 对于卫星基座的机器人,如果机器人处于自由漂浮状态,机械臂的运动会对卫星基座产生影响,因此其控制难度也会增加,有必要采取合适的控制律使得机械臂在跟踪目标轨迹的过程中减小对基座的扰动;当基座姿态控制系统起作用的时候 此外对于自由漂浮空间机器人,本文采用六维空间矢量建立其反作用力矩模型,由于对于自由漂浮空间机器人其动量守恒,且关节加速度可以转化为关节角速度的形式,进而可以得到其速度级别的反作用力矩优化控制律。 且反作用力/机器人的优化控制算法中,下面采用基于牛顿欧拉法推导空间机器人处于不同模式下的反作用力/力矩模型

    4.2K111111发布于 2020-09-11
  • 来自专栏新智元

    20B量级模型性能媲美Llama2-70B!完全开源,从基座到工具全安排明白了

    性能「同级领先」,门槛「开箱即用」,InternLM-20B,就是模型走向千行百业的催化剂和新支点! 这股模型的浪潮,将惠及每个人。 我们用的,全部开源 众所周知,在模型的整个研发体系中,有串在一起的多个环节,这是十分复杂的一套闭环。 如何用更规范的代码方式去组织?拿到基座模型该怎么用?落地到应用的一步步过程中,有哪些注意事项? - 评测:OpenCompass一站式、全方位模型评测平台 评测部分,开源的模型评测平台OpenCompass提供了学科、语言、知识、理解、推理五维度的评测体系。 模型,从来都不是大厂的专利 模型浪潮掀起后,我们需要关注的,不仅仅是在测评榜单上拔得头筹,还有如何让模型从「AI皇冠上的明珠」,成为千行百业都可用的「全新生产力」。 对于全球范围内活跃的开发者和研究者,书生·浦语会提供一个体量适中、但能力非常强的基座

    72010编辑于 2023-09-22
  • 来自专栏深度学习与python

    BigBang-Proton: 自回归基座模型统一语言、科学和物质世界

    作者 | 超对称技术 审校 | 赵赵 GPT-5,DeepSeek 这些语言模型能不能直接执行 Alphafold 这样的专业科学任务? 近日,专注于研发物质世界基座模型的公司超越对称(上海)技术有限公司(超对称)发布了新版基座模型 BigBang-Proton,成功实现多个真实世界的专业学科问题与 LLM 的统一预训练和推理,挑战了 Sam 超对称公司 2024 年发布的 BigBang-Neutron(首个科学计算基座模型 BBT-Neutron 开源,助力突破科学装置数据分析瓶颈)是首个专注于理解大规模实验数值的 LLM, 提出用二进制块编码 不做微调,直接使用零样本推理,通用语言模型(LLMs)在 11 类粒子喷注分类任务上的表现极为不足,所有模型的性能都接近随机猜测水平(10%)。 马龙教授说:“相比于现有的生物基础模型,BigBang-Proton 这样的多学科基座模型天然适合全细胞模拟,细胞不仅包含 DNA, RNA, 蛋白质,还涉及细胞液,细胞核,离子通道等物理化学动力学过程

    27610编辑于 2025-11-26
  • 来自专栏IT从业者张某某

    语言模型-1.2-模型技术基础

    简介 1.2 模型技术基础 语言模型 预训练阶段会得到base model,本质上就是一个互联网文本模拟器,这个阶段需要上万台服务器训练几个月的时间,这个生成的模型可以认为是互联网的有损压缩。 构建一个语言模型 语言模型预训练(Pre-training) 使用与下游任务无关的大规模数据进行模型参数的初始训练 ➢ 基于Transformer解码器架构,进行下一个词预测 ➢ 数据数量、数据质量都非常关键 人类对齐(Human Alignment) ➢ 将语言模型与人类的期望、需求以及价值观对齐 ➢ 基于人类反馈的强化学习对齐方法(RLHF) 模型的研发已经成为一项系统工程 扩展定律( Scaling Law) ➢ 通过扩展参数规模、数据规模和计算算力,语言模型的能力会出现显著提升 ➢ 扩展定律在本次大模型浪潮中起到了重要作用 语言模型采用了与小型预训练语言模型相似的神经网络结构 ,从而获得更可靠的答案 涌现能力与扩展定律的关系 ➢ 涌现能力和扩展定律是两种描述规模效应的度量方法 模型核心技术 ➢ 规模扩展:扩展定律奠定了早期模型的技术路线,产生了巨大的性能提升

    51810编辑于 2025-03-15
  • 来自专栏机器学习入门

    【AI模型】LLM主流开源模型介绍

    学习目标 了解LLM主流开源模型. 掌握ChatGLM、LLaMA、Bloom等基础模型的原理 LLM主流模型类别 随着ChatGPT迅速火爆,引发了模型的时代变革,国内外各大公司也快速跟进生成式AI市场,近百款模型发布及应用 目前,市面上已经开源了各种类型的语言模型,本章节我们主要介绍其中的三类: ChatGLM-6B:衍生的模型(wenda、ChatSQL等) LLaMA:衍生的模型(Alpaca、Vicuna BLOOM模型 BLOOM系列模型是由 Hugging Face公司的BigScience 团队训练的语言模型。 小结 本小节主要介绍了LLM主流的开源模型,对不同模型架构、训练目标、优缺点进行了分析和总结。

    1.2K10编辑于 2024-09-24
领券