首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏IT从业者张某某

    语言模型-1.2-模型技术基础

    简介 1.2 模型技术基础 语言模型 预训练阶段会得到base model,本质上就是一个互联网文本模拟器,这个阶段需要上万台服务器训练几个月的时间,这个生成的模型可以认为是互联网的有损压缩。 构建一个语言模型 语言模型预训练(Pre-training) 使用与下游任务无关的大规模数据进行模型参数的初始训练 ➢ 基于Transformer解码器架构,进行下一个词预测 ➢ 数据数量、数据质量都非常关键 Scaling Law) ➢ 通过扩展参数规模、数据规模和计算算力,语言模型的能力会出现显著提升 ➢ 扩展定律在本次大模型浪潮中起到了重要作用 语言模型采用了与小型预训练语言模型相似的神经网络结构 ,从而获得更可靠的答案 涌现能力与扩展定律的关系 ➢ 涌现能力和扩展定律是两种描述规模效应的度量方法 模型核心技术 ➢ 规模扩展:扩展定律奠定了早期模型技术路线,产生了巨大的性能提升 需要设计对齐技术减少模型使用风险,并进一步提升模型性能 ➢ 工具使用:使用外部工具加强模型的弱点,拓展其能力范围

    51410编辑于 2025-03-15
  • 来自专栏云数据库技术

    语言模型技术原理

    除了自然语言本身的优势外,语境的上下文学习能力、迁移学习和文字总结能力也有很大的发挥空间,带着这些思考,我们有必要了解一下语言模型背后的发展及其技术原理。 一、语言模型的发展 语言模型作为一个被验证可行的方向,其“”体现在训练数据集广,模型参数和层数,计算量大,其价值体现在通用性上,并且有更好的泛化能力。 1.6 当前的技术局限性 专业的领域,缺乏语料训练的情况下,GPT无法生成合适的回答。 可信度问题,缺乏答案的具体来源。 时效性问题,模型底层训练数据是过往数据,再一次训练的成本很高。 最后,语言模型作为一个被验证可行的方向,其“”体现在数据集广泛,参数和层数,计算量大,其价值体现在通用性上,有广泛的应用场景。 语言模型能够发展,主要还是模型具备很好的并行扩展性,随着数据量和计算量的增加,主要挑战在工程和调优上。

    2.3K45编辑于 2023-05-30
  • 来自专栏Java技术

    AI技术模型技术LLM

    -CoderOilStation(程序员编程助手科技股份有限责任公司)AI技术模型技术LLM人工智能技术AI是美国高等院校哈佛大学的一种原型框架技术。AI技术西方和全球的部署研发和运用。 AI人工智能引领全球技术的更新和迭代监控不同的区域。相信知识不要服从于命运。美国麻省理工学院MIT会同步不同的领域模型驱动技术DDD(DomainDrivenDesign)。 领域模型驱动技术西方发达社会更注重不同想法和设计的美学应用。协会institute是定义技术标准的国际性知识传播组织。亚洲的工程师杰作Agent智能体应用于基本的搜索应用和广告商品推荐。 私有用户和公众的开放平台用户一小一意味着平台的设计开始运行正常。模型LLM(LargeLanguageModel)模型开放基础框架的模型搭建方式。很多的应用逻辑都是有编程范式和编程方法学。

    22110编辑于 2026-03-08
  • 来自专栏澜舟科技 NLP

    模型落地实践:同花顺模型技术应用及优化

    文内从业务角度介绍了模型技术在同花顺业务上的应用以及未来探索的方向。众所周知,模型参数量大,通用能力强,综合性能好。 所以最初在业务角度并不够重视,然而近期随着模型技术的快速发展,我们也在逐步尝试将模型在业务中落地,目前模型在自然语言处理相关的业务里都取得了比传统模型更优的效果,下面详细介绍相关工作。 确实在我们的业务模型里,规则占比非常,也是因为涉及用户财产问题,技术上会比较保守。下面具体介绍问答系统里模型应用的经验和取得的成果。 Continue-Train为了进一步提升模型在实际业务中的效果,同花顺与澜舟科技合作,引入孟子Mengzi 模型中的技术 ,针对模型进行 Continue-Train 训练,让模型更适用于金融相关的 总结模型技术在同花顺业务中的应用基本都有比较好的通用性,并且带来了比较好的性能提升,我们也希望在医疗、法律、教育等领域的子公司业务中推广,同时和澜舟科技以及学术界的老师们合作,把模型用得更好,谢谢大家

    3K20编辑于 2022-08-11
  • 来自专栏京东技术

    模型技术及趋势总结

    •对模型进行加固,提高其抗攻击能力。 •采用加密存储和差分隐私技术来保护数据隐私。 •增强模型的可解释性,以便更好地理解和控制模型行为。 之所以叫zero-shot,是因为我们直接用模型做任务而不给其参考示例。这也被视为评测模型能力的重要场景之一。 RAG(Retrieval-Augmented Generation) 什么是RAG ‍RAG(Retrieval-Augmented Generation)技术是一种结合检索和生成的方法,用于提升语言模型 随着技术的进步,RAG 及其变体在处理复杂的认知任务方面展现出了巨大的潜力。 多模态模型是人工智能领域的重要进展,它们通过整合多种类型的数据,显著提升了模型的表现力和鲁棒性。这不仅使得人工智能系统能够更好地理解复杂的现实世界,也为未来的技术发展带来了无限可能。

    88010编辑于 2024-07-04
  • 来自专栏大模型&AIGC

    6种模型微调技术

    当我们想在用特定领域的数据微调模型时,如果想要full-tuning所有模型参数,看着是不太实际,一来需要相当多的硬件设备(GPU),二来需要相当长的训练时间。 值得一提的是,通过使用T5模型进行模型大小的消融实验,我们展示了提示微调随着规模的增加变得更加具有竞争力:当模型参数超过数十亿时,我们的方法“缩小了差距”并达到了模型微调(即调整所有模型权重)的强大性能 这一发现尤为重要,因为大型模型的共享和部署成本高昂,而能够重用一个冻结的模型来执行多个下游任务可以减轻这一负担。 ,无需verbalizer(4) 特点在小、模型上,效果均优于P-tuning。 随着我们预训练更大的模型,全面微调(即重新训练所有模型参数)变得不太可行。以GPT-3 175B为例,部署独立的微调模型实例,每个实例都有175B参数,成本是极其昂贵的。

    2.5K00编辑于 2025-05-08
  • 来自专栏架构之巅

    模型相关技术-初识RAG

    简单来讲就是让用户的问题先经过一个提前预置的专业知识库,先检索知识库,将知识库的响应提交给模型,让模型总结输出,或者直接就输出了,不经过大模型总结。 为什么需要RAG 模型在没有答案的情况下提供幻象数据,也就是胡说八道。 当用户需要特定的当前响应时,提供过时或通用的信息,模型提供的最新信息为训练模型时的数据。 图片 向量(vector)是在语言模型、知识库交互、计算过程中的重要指标。它可以将文本和知识表示为数学向量,实现文本相似度计算、知识库检索和推理等功能。 是的,整体的流程是和es类似,哪思考一个问题为 什么不用es,反而用这么复杂的模型来实现呢? - 哔哩哔哩 (bilibili.com) 我正在参与2024腾讯技术创作特训营最新征文,快来和我瓜分大奖!

    71241编辑于 2024-04-28
  • 模型技术之Python基础

    Python,作为人工智能时代的通用语言,正是连接模型技术与商业价值的那座桥梁。用 Python 基础打底,不仅能让你学得更稳,更能让你在变现之路上跑得更快。 一、 穿透技术黑盒,从“调包侠”进阶为“应用构建者”在当前的模型应用层开发中,Python 占据着绝对统治地位。 三、 驾驭 AI 生态工具,构建不可替代的职场护城河模型技术迭代极快,今天流行 LangChain,明天可能就有新的框架出现。 结语AI 时代,机会属于那些既能仰望星空懂技术,又能脚踏实地写代码的人。Python 不是模型学习的障碍,而是助飞的翅膀。 与其在概念的海洋中漂浮,不如沉下心来,用 Python 基础打底,构建起坚实的技术底座。当你用一行行代码将模型转化为解决实际问题的产品时,你会发现,变现不再是焦虑的等待,而是水到渠成的必然。

    12410编辑于 2026-03-20
  • 来自专栏xiaosen

    模型Prompt-Tuning技术入门

    」的范式,如Bert+fine-tuning的NLP任务,相比于第二范式,模型准确度显著提高,模型也随之变得更大,但小数据集就可训练出好模型; 第四范式:基于「预训练模型+Prompt+预测」的范式,如 4 Prompt-Tuning技术发展历程 Prompt-Tuning自GPT-3被提出以来,从传统的离散、连续的Prompt构建、走向面向超大规模模型的In-Context Learning、Instruction-tuning 因此我们总结人工设计方法的缺陷: 采用人工构建的方法成本高,需要与领域任务相关的先验知识; 人工设计的Pattern和Verbalizer不能保证获得最优解,训练不稳定,不同的PVP对结果产生的差异明显,方差; )方法为每一个输入文本假设一个固定前缀提示,该提示表由神经网络参数化,并在下游任务微调时进行更新,整个过程中预训练的模型参数被冻结。 Prompt Tuning特点: 优点: 模型的微调新范式 模型参数规模了之后,可以将模型参数固定,指定附加参数来适配下游任务,而且适配性能基本和全参数微调相当。

    1.4K30编辑于 2024-06-05
  • 来自专栏深度学习与python

    Hugging Face 语言模型优化技术

    作者 | Sergio De Simone 译者 | 明知山 策划 | 丁晓昀 语言模型的生产部署存在两个主要的挑战,一个是需要大量的参数,一个是需要处理非常长的用于表示上下文信息的输入序列 Hugging Face 基于他们提供模型服务的经验分享了一些克服这些障碍的技术语言模型需要大量的 VRAM 来加载,从几十 (bigcode/starcoder) 到数百 GB (Llama、Bloom、GPT3)。 在生产环境中部署语言模型的第三项优化措施是选择正确的架构,让它们能够有效地处理长文本输入。 位置嵌入通过将每个标记的位置编码为数字表示来帮助语言模型理解序列顺序。对于需要处理大型文本输入任务的语言模型,应该使用 RoPE 和 ALiBi 等相对位置嵌入技术进行训练。

    48110编辑于 2023-10-09
  • 模型技术之Linux及Shell

    模型环境搭建靠 Linux,技能越硬,升职加薪越快在人工智能浪潮席卷全球的今天,模型(LLM)已然成为技术圈最耀眼的明珠。 那些能够深入 Linux 底层,熟练驾驭模型环境搭建的工程师,正在用最“硬核”的基础能力,通过技术杠杆,撬动着职场升职加薪的最快路径。 然而,模型时代的到来,为 Linux 教育赋予了全新的现实意义。模型的训练与推理,对计算资源有着极致的渴求。 如果你不懂得如何通过 Linux 参数优化内核性能,不懂得如何排查环境依赖的深层错误,那么面对模型这一庞然物,你只能停留在“会调用”的浅层,无法触及技术的内核。 二、 祛魅与实战:环境搭建能力检验真功夫在当下的技术培训市场中,充斥着各种“速成”课程,鼓吹几行代码即可玩转模型。这种教育泡沫掩盖了真实的工程难度。然而,真正到了企业级的生产环境,情况截然不同。

    14910编辑于 2026-03-20
  • 来自专栏运维开发王义杰

    AI: 了解模型降维技术

    模型开发过程中,降维是一个关键的步骤。它可以帮助我们处理和分析高维数据,降低计算复杂度,提高模型性能。下面,我们将详细介绍降维的基本概念、常用方法以及在模型开发中的应用。 主成分分析(PCA) 主成分分析是一种线性降维技术,通过将数据投影到方差最大的方向上,找到数据的主成分,从而实现降维。 三、降维在模型开发中的应用 在模型开发过程中,降维可以在以下几个方面发挥重要作用: 1. 可视化 降维技术,如t-SNE,可以将高维数据投影到二维或三维空间,便于我们进行数据可视化和探索。这有助于我们理解数据的分布和结构,发现数据中的模式和异常。 四、总结 降维是模型开发过程中不可或缺的一部分。通过适当的降维技术,我们可以有效地处理高维数据,提高模型的性能和稳定性。

    72710编辑于 2024-07-10
  • 来自专栏防止网络攻击

    模型技术的发展与实践

    直到以chatGPT为标志性事件的模型技术的出现,这一愿望才变得可能。 例如,最近网络上非常热火的ChatGPT技术,也是模型的一种应用。 既然大家都这么看好大模型技术,那么模型的价值体现在什么地方呢? 五、总结与体会 我们对模型相关的发展历史、openAI技术的发展脉络、当前国内外主流的语言模型进行了简单的介绍,同时针对模型区别于之前模型的核心技术原理进行了简单讲解,本章提到的预训练、指令微调、 未来模型一定会革新所有的行业和场景的。读者需要对模型相关的技术及行业、场景应用保持敏感,在工作中要将模型相关的技术用起来。

    2.5K10编辑于 2023-12-05
  • 来自专栏老张的求知思考世界

    模型技术浪潮的潮汐效应

    最近这段时间深度体验了一波模型应用,老实说给我带来的震撼,远超预期。 以前有很多同学咨询我,如何提高自己的技术能力。 当然类似的变革还有很多,比如自从我体验模型上瘾后,搜索引擎已经被我置之高阁,以前的“百度一下,你就知道”,现在是遇事不懂问模型,简单粗暴还精准快捷。 比如号称年轻人的宝藏聚居地小红书,现在很多文案、图片、视频都是几个提示词,其他都是模型生成的。 种种变革稍加观察就能发现,甚至这篇文章的部分内容,都是模型通过我的提示词告诉我的。 当然,不能事事都靠模型,毕竟模型目前还处于初级阶段,只能根据特定的提示词辅助你做一些事情,市场上目前也没有很好的基于模型的应用,而提示词,来自于每一个普通个体。 放到此刻,则是模型不会取代你,但不会利用模型提高效率和产出价值的人,一定会被取代。 质疑模型,理解模型,加入模型

    41310编辑于 2023-11-28
  • 来自专栏AI+运维:智能化运维的未来

    模型技术:优化服务的利器

    模型技术:优化服务的利器在现代运维领域,模型技术正逐渐成为优化服务的强大工具。从改进预测性维护到提升用户体验,模型的应用范围广泛且效果显著。 今天,我将以通俗易懂的方式,带大家了解模型技术如何在服务优化中大展拳脚,并分享一些实际的代码示例来说明其应用。 一、模型技术的背景模型(Large Model),通常指的是基于深度学习的大规模神经网络模型。这些模型具备强大的学习能力和推理能力,能够处理复杂的任务,例如自然语言处理、图像识别和预测分析等。 而模型技术可以通过分析历史数据,预测设备和系统可能出现的故障,从而实现预测性维护,降低停机时间和维护成本。 六、结语模型技术在运维中的应用潜力巨大。从预测性维护、智能客服,到资源调度和安全防护,模型都展现出了强大的能力。通过合理应用模型技术,运维人员可以大幅提升工作效率,降低成本,提升服务质量。

    42810编辑于 2025-02-14
  • 模型网关:模型时代的智能交通枢纽|得物技术

    一、导语在人工智能技术快速演进的时代,大型语言模型和AI智能体已成为各类应用的核心组件,引发AI相关API流量的指数级增长。而模型网关,正是这场变革中应运而生的智能交通枢纽。 六、创新亮点:模型网关的核心技术突破模型网关瞄准“效率-成本-稳定性-安全&合规”着力平台建设,并继续在成本管控、模型接入效率、服务稳定性、模型监控/告警等方面持续创新:构建全流程成本管控体系。 结语:未来的技术方向已经清晰——模型网关不是API网关的替代品,而是其演进形态。随着AI逐步嵌入各类应用,企业选择可扩展的模型网关平台,将避免被孤立在特定AI生态中,获得技术架构的长期竞争优势。 往期回顾1.从“人治”到“机治”:得物离线数仓发布流水线质量门禁实践2.AI编程实践:从ClaudeCode实践到团队协作的优化思考|得物技术3.入选AAAI-PerFM|得物社区推荐之基于语言模型的新颖性推荐算法 4.Galaxy比数平台功能介绍及实现原理|得物技术5.得物App智能巡检技术的探索与实践文/禹极关注得物技术,每周更新技术干货要是觉得文章对你有帮助的话,欢迎评论转发点赞~未经得物技术许可严禁转载,否则依法追究法律责任

    46610编辑于 2026-02-03
  • 来自专栏架构之巅

    模型相关技术-embedding与分词

    接上一篇文章模型相关技术-初识RAG-腾讯云开发者社区-腾讯云 (tencent.com),我们已经对RAG(搜索增强)有了一定的了解,知道了为什么需要RAG和RAG的技术基石,本篇我们将详细学习一下 分词是将文本切分为单词或词汇单元的过程,而Embedding入则是将这些词汇转换为可供机器学习模型处理的数值向量。下面将结合分词技术,详细解释模型中Embedding入技术。 分词技术分词是将连续的文本序列分割成一个个独立的词汇单元的过程。 在模型中,Embedding通常是模型的第一层,负责将输入的文本数据转换为可供后续层处理的数值形式。 我正在参与2024腾讯技术创作特训营最新征文,快来和我瓜分大奖!

    1.4K10编辑于 2024-04-30
  • 来自专栏xiaosen

    模型Prompt-Tuning技术进阶

    超大规模模型进入新的纪元,而这些轰动世界的产物,离不开强大的Prompt-Tuning技术。 Instruction-Tuning(指令学习) 面向超大规模模型第二个Prompt技术是指令学习。 ,x2,y2,…xtest作为输入来让模型补全输出ytest),思维链多了中间的中间的推导提示。 PEFT(模型参数高效微调) 目前在工业界应用模型主流方式:参数高效微调方法(Parameter-Efficient Fine-Tuning,PEFT),PEFT 方法仅微调少量或额外的模型参数,固定大部分预训练参数 基本原理:LoRA技术冻结预训练模型的权重,并在每个Transformer块中注入可训练层(称为秩分解矩阵),即在模型的Linear层的旁边增加一个“旁支”A和B。

    88210编辑于 2024-06-06
  • 来自专栏大模型应用

    模型应用:混合专家模型(MoE):模型性能提升的关键技术拆解.37

    总的来说,MoE就像一个智能专家会诊团队,用“分工协作+按需激活”的方式,解决了传统模型越大越慢、越贵的痛点,是当前通用模型的非常核心架构之一。二、基础概念1. 四、MoE对模型的意义MoE 不是一个锦上添花的技术,而是推动模型走向实用化的关键突破,核心作用可以总结为 3 点:1. 解决模型的通用能力难题 传统模型的一个痛点是 “全能但不专精”,虽然能处理很多任务,但在某些细分领域(比如医疗、法律、代码)的表现不如专业模型。 降低模型的部署门槛模型的落地最大的障碍之一是部署成本太高,传统千亿参数模型需要昂贵的 GPU 集群才能运行。 原来的模型不行吗?老师:原来的模型像“一个骑手送全城”——要想送得全(能力强),就得让这个骑手记全城市地图(加参数),但记的越多,骑车越慢(推理慢)、耗体力越多(计算成本高)。

    80343编辑于 2026-03-06
  • 来自专栏机器之心

    苹果创新模型压缩技术模型有机会塞进手机里了

    机器之心报道 编辑:赵阳 模型的内容安全问题使得人们希望可以在终端设备上完成模型训练及运行。对于手机来说,模型的权重数据显得尤为庞大。 本文使用的技术包括跨设备张量编排和权重矩阵唯一化及分片。 在使用 eDKM 对 LLaMA 7B 模型进行微调并将其压缩为每个权重因子占位 3bit 时,研究者实现了解码器堆栈约 130 倍的内存占用减少,优于现有的 3bit 压缩技术。 提高 DKM 的内存效率 如图 1 所示,剪枝、量化和归一化都是较为流行的权重优化技术,这些方法将原始权重 W,优化后得到权重 ,以优化推理延迟、精度或模型大小。 因此,研究者需要利用 CPU 内存来处理如此的内存需求,也就是先将信息存储至到 CPU 内存,然后在需要时再复制回 GPU。

    69260编辑于 2023-09-25
领券