首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大模型&AIGC

    6模型微调技术

    值得一提的是,通过使用T5模型进行模型大小的消融实验,我们展示了提示微调随着规模的增加变得更加具有竞争力:当模型参数超过数十亿时,我们的方法“缩小了差距”并达到了模型微调(即调整所有模型权重)的强大性能 input和target,则使用原始的input embedding(5) 使用方式离散和连续template token混合时,显示地插入一下anchor(离散的token)有助于template的优化(6) ,无需verbalizer(4) 特点在小、模型上,效果均优于P-tuning。 当参数量达10B,效果相当于FT6.LoRA(2021)(1) 论文信息来自论文:《LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS》(2)摘要自然语言处理的一个重要范式包括在通用领域数据上进行大规模预训练 Model),学习目标为而加入LoRA后,学习目标为:(6) 配置在多个部位$(Q/K/V/Output)$同时添加$\bigtriangleup W$ ,会比只在单一部分上添加权重$\bigtriangleup

    2.6K00编辑于 2025-05-08
  • AI模型知识

    而基于AI模型构建的知识库系统,通过自然语言处理技术和深度学习算法,能够自动完成文本解析、语义关联与智能检索,使分散的知识资源形成有机网络,为企业知识管理带来革命性变革。 相较于传统方案,AI模型知识库在技术特性上展现出显著优势:语义理解深度方面,传统方案依赖关键词匹配,误差率高,而AI方案具备上下文感知能力,准确率超92%;更新维护成本上,传统方案人工录入月均耗时120h 二、典型应用场景落地AI模型知识库在多场景落地应用,创造显著价值:智能问答机器人可7×24小时解答员工关于政策制度、操作流程的咨询,某金融机构部署后人力咨询量下降47%,提升咨询响应效率;辅助决策沙盘整合市场动态 三、实施路径规划建议成功部署AI模型知识库需经历三个阶段:首先是领域定制化训练,使用企业专属语料对基座模型进行调优,确保模型适配企业业务场景;其次是人机协同校验机制建立,通过人工复核保障输出内容的合规性与准确性 五、未来演进方向展望随着多模态融合技术的发展,下一代AI模型知识库将突破文本局限,实现图纸三维模型与操作视频的联动检索,拓展知识呈现与应用形式。

    51410编辑于 2025-10-16
  • 来自专栏哆哆Excel

    Thinkphp66模型学习与知识总结(二)

    Thinkphp66模型学习与知识总结(二)   上一次学习了模型,对模型有一点小认识,今天再来学习一下,我一开始是没有想到要学习模型,原因是CURD(增删改查)中很多可以用Db类在控制器中完成,其实模型有很多好东西的 位字符型的数字以方便测试用的      public function numStr($num)       {             static $seed = array(0,1,2,3,4,5,6,7,8,9 *知识点一:测试一下静态方法create **1,代码如下 //静态更新数据的方法create public function mcreate() { $i=random_int(1,43); 第一步,你要在数据表中有一个字段是delete_time, 第二步要在模型中引入类:use think\model\concern\SoftDelete;, 第三步在模型中开启//开了软删除功能     =true; 第三,你的CURD都不用理会它们的,它们会自动的 第四、从上面的查询可以看出用Db类查询出来是数字,用模型查询出来是自动会变成时间的格式,这也是模型类的好处哦

    1.2K30编辑于 2022-10-25
  • 来自专栏6G

    6G,AI , 与模型?

    6G与AI融合的未来方向 6G 网络的内生 AI 设计将赋能网络的AI模型,同时使网络能够支持 AI 模型的训练和服务。 6G 网络将承担数据采集、预处理等数据服务,为云AI训练提供更好的支持。此外,6G 网络的分布式部署将使得 AI 模型更靠近用户侧,从而在时延方面具有潜在优势。 在数据获取和处理方面,与 ChatGPT 不同,网络中存在大量结构化数据,且网络不同问题间的共性不清晰,网络 AI 模型面临较大挑战。6G 网络面临如何有效采集适合AI模型训练的数据的挑战。 而在构建 AI 模型的路径上,需要分阶段探索,从离线小规模模型开始,逐步过渡到实时大规模模型,最终实现统一的网络 AI 模型。 本文摘自于中国移动的“6G内生AI架构及AI模”汇报材料。 参考下载: 6G 网络 AI 相关主题文档集 从NTN国际标准看5G-A / 6G空天地一体化技术演进 从需求到实践: 6G超大规模天线的技术演进 天线基础知识与原理 新型天线产品及方案 超大规模天线技术研究报告

    40810编辑于 2024-04-24
  • 来自专栏机器学习与统计学

    基于模型、SKills 的知识管理

    整个系统的架构可以拆成五个模块: Karpathy 知识库系统:五模块 1. 数据导入(Data Import) 把各种原始素材——论文、文章、代码库、数据集、图片——统统丢进 raw/ 目录。 这点我必须插一嘴——40 万字对现在的长上下文模型来说真不算什么。 Gemini 的百万 token 窗口,Claude 的 200K 上下文,处理这个量级的知识库绑绑有余。 这种场景下知识库方法的优势更明显——你不可能把所有领域的知识都记在脑子里。 搭的是一个知识积累与检索系统——把数据灌进去,编译成知识,然后查询和输出。 40 万字知识库微调一个专属的小模型,让它从骨子里"理解"你的领域知识和思考方式。

    21720编辑于 2026-04-13
  • 来自专栏深度学习自然语言处理

    FuseLLM:语言模型知识融合!

    虽然模型集成需要并行部署多个模型,但权重合并通常仅限于具有相同架构的模型。相反,本文提出的方法通过将多个LLM的知识和能力明确地转移到目标LLM,支持将多个具有不同架构的LLM融合。 Knowledge Distillation:知识蒸馏最初被提出用于模型压缩,包括在一个或多个教师模型的指导下训练学生模型。在NLP中已有较为广泛的应用。本文的方法与传统的知识蒸馏有显著的区别。 首先,在传统的知识蒸馏中,学生模型通常被限制为比教师更小的尺寸。然而,在本文的场景中,目标模型的大小没有限制。其次,传统的知识蒸馏通常会导致学生模型在蒸馏后落后于教师的表现。 相比之下,本文预计在融合之后,目标模型将超过任何源模型的性能。 方法 模型架构 上图展示了传统模型融合技术和本文的LLM知识融合方法(FUSELLM)的对比。不同的动物图标代表不同的LLM。 这表明FuseLLM 通过通过连续训练集成三个具有不同架构的7B模型来实现的卓越性能超过了简单地从单个13B模型中提取知识的好处。

    1.2K11编辑于 2024-01-31
  • 模型的2025:6个关键洞察

    以下为卡帕西年度回顾全文:《2025年语言模型年度回顾》2025年是语言模型领域大步跨越且充满变数的一年。 通过在数学、代码谜题等大量可自动验证奖励的环境中训练语言模型模型会自发形成人类视角下近似“推理”的策略。 2025 年,行业内围绕这一新应用层的“厚度”展开了大量讨论:语言模型实验室是否会通吃所有应用场景?还是说垂直领域的语言模型应用仍有广阔蓝海? 我个人的观点是,语言模型实验室更倾向于培育“通识能力极强的大学生”式模型,而语言模型应用则通过整合私有数据、传感器、执行器及反馈闭环,对这些“大学生”进行针对性组织、微调,最终驱动它们成为特定垂直领域的 更重要的是,其核心价值不仅在于图像生成能力本身,而在于模型权重中深度融合的文本生成、图像生成与世界知识的联合建模能力。核心总结:2025年是语言模型领域充满惊喜与突破的一年。

    57910编辑于 2025-12-24
  • AI 模型知识管理平台:让企业知识“活”起来

    基于 AI 模型知识管理平台正彻底改变这一现状,让知识真正流动起来,成为驱动企业创新的活水源头。图片什么是 AI 模型知识管理平台? 核心技术:RAG 如何让模型更“懂”企业?AI 知识管理平台的核心技术是检索增强生成(RAG)。这一技术巧妙结合了信息检索和语言模型生成的优势。 当用户提问时,平台会先在知识库中检索相关信息,然后将这些信息作为上下文提供给模型,最终生成精准可靠的答案。 这种方法既利用了模型的强大理解能力,又确保了回答内容基于企业权威知识,有效避免了常见的模型“幻觉”问题。例如,潍柴集团通过此类平台,在客服场景中实现了94% 的问答准确率,大幅提升了工作效率。 结语AI 模型知识管理平台不仅是技术工具,更是企业智能化转型的核心基础设施。它让知识从静态存储变为动态资源,从成本中心转化为价值引擎。对于技术社区而言,这一领域充满创新机遇。

    41610编辑于 2025-10-11
  • 来自专栏哆哆Excel

    Thinkphp6学习(5)模型知识总结(一)

    Thinkphp6学习(5)模型知识总结(一) 一、创建模型: 一个模型对应一个数据表,规则:驼峰式的 如:下表 图片 1、单项目模型创建 第一步:创建一个跟控制器平级的目录,目录名:model 第二步 :在 model 创建 Tp6Student.php 文件 2、多项目模型创建 第一步:在 index 项目中创建目录,目录名:model 第二步:在 model 创建 Admins.php 文件 二 php namespace app\model; use think\Model; class Tp6Student extends Model { //设置模型名 protect $name ='Tp6Student '; //设置主键 protect $pk='id'; //设置数据表名 protect $table ='tp6_student'; } 三、模型的应用 1.实例化 用$stu=new Tp6Student () ;或$stu=new \app\model\Tp6Student(); 也可以给它起一个别名: 在控制器app\controller中新建一个DataStudent.php 2.模型的CRUD方法

    1.8K30编辑于 2022-10-25
  • 来自专栏创作是最好的自我投资

    知识蒸馏:让模型“瘦身”的魔法

    AI界的“知识浓缩术”核心定义蒸馏模型(Distillation Model)是一种通过“师生教学”的方式,将庞大复杂的模型(教师模型)中的核心知识,“浓缩”到轻量级小模型(学生模型)中的技术。 传统训练 vs 知识蒸馏传统训练:学生模型就是直接从数据中学习(如同自学),需要模型自己从海量数据中提取自己需要的信息,就像你想上学,但是没有资金支持,只能自己通过书籍来学习,那么在没有人指导的情况下 对于模型来说,通常的数据训练只能保证在通常情景下的问题回答,在涉及到一些相对专业的领域往往回答效果就不是太好,这个时候就需要进行微调优化,比如对特定领域进行特定数据的训练,从而提高在特定领域的回答准确性 未来展望:蒸馏模型将如何改变AI?边缘计算革命:智能音箱、摄像头等设备将具备本地大模型能力。就像把模型拆解成无数"小模型",从而在手机、摄像头、工厂机器人甚至红绿灯里就地处理数据。 通过在智能终端增加大模型能力,从而使得智能家居不联网也能听懂指令。这也就意味着让数据不再拥堵在"云端高速公路",从而既保护隐私又省电,像给模型装上会思考的"神经末梢"。

    1K30编辑于 2025-04-09
  • 模型+知识库rag项目架构

    在AI领域,“模型”通常指的是具有大量参数的深度学习模型,它们能够处理复杂的任务,如自然语言处理(NLP)、图像识别等。 而“知识库”则是指存储大量结构化或半结构化数据的系统,这些数据可以用于支持决策、提供信息查询等服务。 将模型知识库结合的项目架构(RAG项目架构)可能指的是一种结合了检索(Retrieval)和生成(Generation)的架构,即RAG(Retrieval-Augmented Generation RAG架构的一般流程如下:检索阶段(Retrieval):首先,系统会从知识库中检索出与输入查询相关的信息。这可以通过关键词匹配、语义搜索或其他相关性度量来实现。 例如,检索系统可以使用不同的搜索引擎或推荐系统,而生成模型可以是传统的语言模型,也可以是专门为特定任务训练的模型

    1K10编辑于 2024-04-19
  • 来自专栏技术丛林大冒险

    基于语言模型构建知识问答系统

    本文探索使用语言模型(Large Language Model, LLM),通过其对自然语言理解和生成的能力,揣摩用户意图,并对原始知识点进行汇总、整合,生成更贴切的答案。 从语言模型(Large Language Model, LLM)角度而言,上面的需求是在两阶段训练模式下,面向下游场景进行适配的问题。 与普通搜索结合,使用基础模型对搜索结果加工。Fine-Tuning使用下游特定领域的知识对基础模型进行微调,改变神经网络中参数的权重。 消耗的资源量虽然相对模型预训练减少,但还是不容小觑的。比如Alpaca 的微调,据作者介绍他们使用8 个 显存80GB A100 ,花费了 3 个小时。 在尝试使用ADGEN数据集微调后,模型对“广告词生成”任务的确变好,但其他任务的回答均不如原始模型。基于 Prompt将特定领域的知识作为输入消息提供给模型。类似于短期记忆,容量有限但是清晰。

    7K85编辑于 2023-05-08
  • 来自专栏老张的求知思考世界

    性能测试知识科普(六):三模型

    今天的这篇文章是性能测试知识科普的第六篇,我会聊聊在实际工作中开展性能测试,前期最核心的工作。即业务模型、流量模型和数据模型这三模型,该如何评估和建立。 为了便于大家理解三模型,我会以电商业务下单的场景来举例说明,如下图: 业务模型 大家可以将业务模型看作功能测试中的业务场景。 生产环境全链路压测场景 针对生产集群的全链路压测,常见的案例就是双11电商促。 ; 构建流量模型 下面是之前我实际工作中一次双11促时的流量模型构建案例,仅供参考。 预估促时的支付转化率为60%,则可得:促峰值订单支付QPS为(200/40%)*60%*(200W/50W)=1200QPS。

    1.6K20编辑于 2023-03-01
  • 来自专栏《活动征集》

    DeepSeek模型的基础知识解析!

    作为一款国产模型,DeepSeek不仅在技术上做出了突破,还承载着国产AI的雄心壮志。很多人对模型可能还抱有一丝困惑,尤其是像 DeepSeek 这样的模型。那么,DeepSeek究竟是什么? 前言:DeepSeek,国产模型的代表   近年来,随着深度学习的迅猛发展,模型成为人工智能领域的主流。 DeepSeek 作为国产模型的佼佼者,不仅仅代表了技术上的创新,也象征着中国在 AI 领域日益崛起的竞争力。 但许多人可能会疑问,“什么是模型?” “DeepSeek 怎么与我们常见的 AI 模型不同?” “它到底是怎么工作的?” 别担心!在这篇文章中,我们将带你一探究竟。 预训练与微调:模型的“养成”之路   DeepSeek 采用了 预训练 + 微调 的训练方式。首先,模型在大规模的无标签数据上进行 预训练,学习通用的知识和规律。

    82321编辑于 2025-02-08
  • 来自专栏NLP/KG

    LLM 模型学习必知必会系列(一):模型基础知识

    1.前言 1.1 基础模型研究 2023 年,随着 LLM 技术的发展,中国模型研究机构的开源模型迎来了爆发式的增长: 2023 年 3 月,智谱 AI 首先在魔搭社区发布了 ChatGLM-6B 系列 结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。 2023 年 6 月,百川首先在魔搭社区发布了百川 - 7B 模型,baichuan-7B 是由百川智能开发的一个开源的大规模预训练模型。 然而,针对语言模型,我们希望更好的使用 LLM,让 LLM 更好的遵循我们的指令,按照我们可控的方式和特定行业的知识输出答案。 检索增强生成 (RAG) 通过整合来自外部数据库的知识成为一个有前途的解决方案,这增强了模型的准确性和可信度,特别是对于知识密集型任务,并且允许知识的不断更新和整合特定领域的信息。

    4.3K512编辑于 2024-05-11
  • 来自专栏从流域到海域

    模型基础知识 - 语言模型及其演进 公开版

    接下来我们来从0到1了解一下语言模型背后的基础知识。 导语 通过本节课程,希望大家能够了解: 语言模型的数学基础:概率语言模型 (25分钟) 神经网络语言模型的发展历史:即语言模型是如何发展而来的 (10分钟) GPT训练流程:语言模型是如何训练的 ( 和ChatGLM2-6B,在C-Eval上测试是目前最好的中文模型: https://cevalbenchmark.com/static/leaderboard.html GPT发展史 如果我们单看 ,语言模型的雏形出现。 随着神经网络语言模型的参数量继续增大到一个千亿级别,开始表现出强大的涌现能力,辅以instruction fituning和RLHF的(语言模型)训练流程改进,突破性的语言模型ChatGPT出现,模型时代来临

    77630编辑于 2023-10-12
  • 来自专栏啄木鸟软件测试

    多模态模型技术原理及实战(6)

    中小型公司模型构建之路 如何选择 自己建立 二次开发 重新训练,消耗非常巨大 现有的模型体系已经非常丰富 对话模型已经白热化 •三天产生一个小应用 •两天产生一个新模型 中小公司的技术实力相对薄 微调 用 LoRA((Low-Rank Adaptation低秩适配) 2022年 Edward J.Hu PLM(Pre-trained Language Model 预训练语言模型) 步骤 •1、训练一个原始模型,该模型具有较高的性能但运行速度较慢。 •2、确定哪些参数对输出结果的贡献较小,并将其设置为零。 •4、评估模型的大小、速度和效果等指标,如果不符合要求,那么继续进行剪枝操作直至满意为止。 •权值剪枝 •神经元剪枝 •结构化剪枝 •又名:滤波器剪枝 •分类 •Filter-wise •Channel-wise •Shape-wise KD(Knowledge Distillation知识蒸馏

    29810编辑于 2024-09-10
  • 来自专栏猫头虎博客专区

    ChatGLM-6B 模型的前世今生

    ChatGLM-6B 开源模型旨在与开源社区一起推动模型技术发展,恳请开发者和大家遵守开源协议,勿将开源模型和代码及基于开源项目产生的衍生物用于任何可能给国家和社会带来危害的用途以及用于任何未经过安全评估和备案的服务 ,运行内存只需要 4G 基于或使用了 ChatGLM-6B 的开源项目: langchain-ChatGLM:基于 langchain 的 ChatGLM 应用,实现基于可扩展知识库的问答 闻达:大型语言模型调用平台 支持 ChatGLM-6B 和相关应用在线训练的示例项目: ChatGLM-6B 的部署与微调教程 ChatGLM-6B 结合 langchain 实现本地知识库 QA Bot 第三方评测: Measuring 将模型下载到本地之后,将以上代码中的 THUDM/chatglm-6b 替换为你本地的 chatglm-6b 文件夹的路径,即可从本地加载模型。 Optional 模型的实现仍然处在变动中。 在面对许多事实性知识任务时,ChatGLM-6B 可能会生成不正确的信息;它也不擅长逻辑类问题(如数学、编程)的解答。

    1.4K10编辑于 2024-04-08
  • AI 语言模型知识图谱:让模型“更懂知识、更聪明、更可信”

    在传统的模型训练方式中,知识依赖海量语料“读出来”,但容易出现知识碎片化、逻辑断层、更新不及时的问题;模型回答看似流畅,却可能犯事实性错误或在复杂推理上“卡住”。 而 AI 语言模型知识图谱,就是用结构化、逻辑化、可计算的技术体系,为模型安装一套“知识骨架”,让模型不仅会说,还真正“懂知识、会推理、能更新”。 知识不再是散乱的语句,而是能够被计算机理解和逻辑推演的网络。二是知识图谱 + 模型协同推理,让模型“更准、更稳、更懂逻辑”。 ,模型在聊天、问答、检索、写作等场景都能调用同一套知识图谱,实现一致的知识标准。 AI 语言模型知识图谱,用知识抽取、结构建模、图谱推理和动态更新,让模型从“会说话”走向“会理解”。它不仅提升模型的准确性与稳定性,也为专业场景提供真正可用的 AI 智能。

    55610编辑于 2025-11-18
  • 来自专栏哆哆Excel

    Thinkphp6(7)模型学习与知识总结(三)

    Thinkphp6(7)模型学习与知识总结(三) 继续学习模型知识,上节课已学习到的知识有查询、软删除、自动时间戳。 今天来学习: 1.数据更新, 2. 1); // post数组中只有name和email字段会写入 $data = Request::only(['name','email']); $user->save($data); 6. 直接更新(静态方法) 使用模型的静态update方法更新: User::update(['name' => 'thinkphp'], ['id' => 1]); 模型的update方法返回模型的对象实例 ,打印输出的是修改后的数据了,那我想输出原来的数据,怎么办呢:用getData方法 ◆模型的修改器 模型修改器的作用,就是对模型设置对象的值进行处理比如,我们要新増数据的时候,对数据就行格式化、过滤、 strtoupper(Svalue)} .除了新增,会调用修改器,修改更新也会触发修改器 .模型修改器只对模型方法有效,调用数据库的方法是无效的, 比如-> insert(); ===学习测试===

    1.2K20编辑于 2022-10-25
领券