首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大模型应用

    模型应用:稀疏注意力 vs 滑动窗口:模型技术完全解析.58

    而滑动窗口和稀疏注意力,就是给模型宽视野的两个核心妙招:一个让模型用放大镜看长文本,只看局部,快但短视,一个让模型跳着看长文本,注重局部和重点,稍慢但全面。 强化“注意力机制” 当我们读这句话的时候,应该要有一种似曾相识的感觉,应该会不自觉地关联前面的内容,比如看到“技术”,会想起前文所说的“模型视野有限”。 10 厘米,但移动放大镜就能看完整个画快,但看的时候不知道画的整体布局;关键特点: 计算快、省内存,手机/普通显卡都能运行;短视,比如第 1000 个字,看不到第 100 个字的关键信息;实现最简单,模型入门级方案 技术的核心价值是:1. 整体意义:推动模型更贴合实际应用技术降低了模型的使用门槛,降低硬件成本、时间成本;拓展了模型的应用场景,从短文本聊天到长文本处理;是模型从理论阶段走向实际应用的关键技术之一。

    26443编辑于 2026-03-27
  • 来自专栏啄木鸟软件测试

    多模态模型技术原理及实战(5)

    国内外多模态模型对比 国内 LLaMA-Adapter V2 香港中文大学 双语输出 输入 •图像 •语音 •文本 •视频 • 3D 点云 起源:LLaMA-Adapter •在线性层上进行偏差调整 •4、ChatGLM-6B 在 GLM 框架下,专门针对中文问答和对话进行了优化 mPLUG-Owl 阿里巴巴达摩研究院 2023年5月 架构 •视觉基础模块(采用开源的VTL-L) •视觉抽象模块 多模态模型评测数据集 国内评测数据集 OwlEval •基于mPLUG-Owl模型发布 • 包含 •50 张图片 •82 个回题 •功能 •故事生成 •广告生成 •代码生成 MME •开发 •结构 •265 016张图片 •每张图片至少有 3 个问题(平均 5.4个每个问题) •每个问题 •有 10 个基本事实答案 •有 3 个合理(但可能不正确)的答案 多模态模型的评测标准 国内评测标准 KROCC( Kendall Rank Order Correlation Coefficient,肯德尔秩相关系数) •RMSE( Root Mean Square Error,均方根误差 ) 多模态模型对比

    36310编辑于 2024-09-10
  • 来自专栏IT从业者张某某

    语言模型-1.2-模型技术基础

    简介 1.2 模型技术基础 语言模型 预训练阶段会得到base model,本质上就是一个互联网文本模拟器,这个阶段需要上万台服务器训练几个月的时间,这个生成的模型可以认为是互联网的有损压缩。 Scaling Law) ➢ 通过扩展参数规模、数据规模和计算算力,语言模型的能力会出现显著提升 ➢ 扩展定律在本次大模型浪潮中起到了重要作用 语言模型采用了与小型预训练语言模型相似的神经网络结构 通过针对更大范围的模型规模(70M 到 16B 参数)和数据规模(5B 到 500B 词元)进行实验,研究 其中 = 1.69, = 406.4, = 410.7, = 0.34 和 = ,从而获得更可靠的答案 涌现能力与扩展定律的关系 ➢ 涌现能力和扩展定律是两种描述规模效应的度量方法 模型核心技术 ➢ 规模扩展:扩展定律奠定了早期模型技术路线,产生了巨大的性能提升 需要设计对齐技术减少模型使用风险,并进一步提升模型性能 ➢ 工具使用:使用外部工具加强模型的弱点,拓展其能力范围

    53710编辑于 2025-03-15
  • 来自专栏帅云霓的技术小屋

    模型与AI底层技术揭秘 (5) 战争恶魔的末路

    源于公元前1290年希伯来人走出埃及,本是一个象征和平与爱的节日,然而,被撒旦驱使的以色列人却丧心病狂地做出了这件事—— 1956年,美国赠与伊拉克一个小型实验用核反应堆,伊拉克在此基础上发展和平利用核能技术

    42830编辑于 2023-10-23
  • 来自专栏云数据库技术

    语言模型技术原理

    除了自然语言本身的优势外,语境的上下文学习能力、迁移学习和文字总结能力也有很大的发挥空间,带着这些思考,我们有必要了解一下语言模型背后的发展及其技术原理。 一、语言模型的发展 语言模型作为一个被验证可行的方向,其“”体现在训练数据集广,模型参数和层数,计算量大,其价值体现在通用性上,并且有更好的泛化能力。 1.6 当前的技术局限性 专业的领域,缺乏语料训练的情况下,GPT无法生成合适的回答。 可信度问题,缺乏答案的具体来源。 时效性问题,模型底层训练数据是过往数据,再一次训练的成本很高。 最后,语言模型作为一个被验证可行的方向,其“”体现在数据集广泛,参数和层数,计算量大,其价值体现在通用性上,有广泛的应用场景。 语言模型能够发展,主要还是模型具备很好的并行扩展性,随着数据量和计算量的增加,主要挑战在工程和调优上。

    2.3K45编辑于 2023-05-30
  • 来自专栏Java技术

    AI技术模型技术LLM

    -CoderOilStation(程序员编程助手科技股份有限责任公司)AI技术模型技术LLM人工智能技术AI是美国高等院校哈佛大学的一种原型框架技术。AI技术西方和全球的部署研发和运用。 AI人工智能引领全球技术的更新和迭代监控不同的区域。相信知识不要服从于命运。美国麻省理工学院MIT会同步不同的领域模型驱动技术DDD(DomainDrivenDesign)。 领域模型驱动技术西方发达社会更注重不同想法和设计的美学应用。协会institute是定义技术标准的国际性知识传播组织。亚洲的工程师杰作Agent智能体应用于基本的搜索应用和广告商品推荐。 私有用户和公众的开放平台用户一小一意味着平台的设计开始运行正常。模型LLM(LargeLanguageModel)模型开放基础框架的模型搭建方式。很多的应用逻辑都是有编程范式和编程方法学。

    22410编辑于 2026-03-08
  • 来自专栏机器之心

    华为鸿蒙4.0来了:模型、AI画图能力兼备,还有「实况

    「今天我们已经进入了模型的时代。华为盘古模型将要助力鸿蒙生态,」华为常务董事、终端 BG CEO 余承东一开场就这样说道。 全面接入 AI 模型 最近科技领域中最引人关注的是模型,人们正在探索把类似 ChatGPT 的能力引入到各种应用上,这个落地速度比我们想象得要快。 基于 AI 模型的文本生成是最新鸿蒙系统的一部分。随着模型的成熟,小艺获得了全面升级,在交互、生产力提升和个性化服务三个方向上实现了增强。 首先是文本生成和总结能力。 从内到外的改进 除了围绕模型的新技术,华为还在 Harmony OS 4 上围绕其他方面进行了一系列升级。 「NearLink 把 5G 中的部分技术应用到近场通信中,可以为多个不同设备带来更加系统的体验,」余承东表示。「它绝对是遥遥领先的。」 鸿蒙自诞生之日起就承载着打破消费电子市场格局的重任。

    88850编辑于 2023-09-08
  • 5模型Agent模式

    模型中的5种AI Agent模式在模型中,AI Agent(人工智能代理)模式是一种重要的应用方式,可以从以下几个方面来理解:1. 在模型的背景下,AI Agent 是基于大规模预训练模型(如 GPT 等)构建的智能代理,能够利用模型的语言理解和生成能力来完成复杂的任务。 智能性:它基于模型的强大语言理解能力,能够理解自然语言指令,并生成自然语言响应。这种智能性使其能够处理复杂的语言任务,如对话、写作、翻译等。 工作原理感知与理解:AI Agent 首先通过输入(如用户指令、环境数据等)感知外部信息,然后利用模型的语言理解能力解析这些信息,确定任务目标。 技术负责人(Tech lead agent)、开发运维(DevOps agent)、工程师(SDE agent):各司其职,协作完成任务。

    4.2K10编辑于 2025-05-07
  • 来自专栏澜舟科技 NLP

    模型落地实践:同花顺模型技术应用及优化

    文内从业务角度介绍了模型技术在同花顺业务上的应用以及未来探索的方向。众所周知,模型参数量大,通用能力强,综合性能好。 所以最初在业务角度并不够重视,然而近期随着模型技术的快速发展,我们也在逐步尝试将模型在业务中落地,目前模型在自然语言处理相关的业务里都取得了比传统模型更优的效果,下面详细介绍相关工作。 确实在我们的业务模型里,规则占比非常,也是因为涉及用户财产问题,技术上会比较保守。下面具体介绍问答系统里模型应用的经验和取得的成果。 图片以 NER 任务为例,我们尝试用常规的深度模型 LSTM + CRF 串联的 F1 值只有 92% 左右,使用模型之后,F1 值可以达到 96~97%,提升了4~5% 。 Continue-Train为了进一步提升模型在实际业务中的效果,同花顺与澜舟科技合作,引入孟子Mengzi 模型中的技术 ,针对模型进行 Continue-Train 训练,让模型更适用于金融相关的

    3K20编辑于 2022-08-11
  • 来自专栏京东技术

    模型技术及趋势总结

    5. 模型性能提升 1)模型越大,能力越强: ◦参数量:模型的规模通常与其参数量成正比。参数是模型学习到的知识的载体,参数越多,模型能够捕捉的信息和模式就越丰富,从而能够处理更复杂的任务。 5. 数据隐私泄露:模型可能泄露训练数据中的敏感信息。 ‍为了提高大模型的安全性,业界和研究界正在探索多种安全防护策略,包括: •加强数据的采集和清洗过程,确保数据质量和安全性。 •对模型进行加固,提高其抗攻击能力。 •采用加密存储和差分隐私技术来保护数据隐私。 •增强模型的可解释性,以便更好地理解和控制模型行为。 RAG(Retrieval-Augmented Generation) 什么是RAG ‍RAG(Retrieval-Augmented Generation)技术是一种结合检索和生成的方法,用于提升语言模型 多模态模型是人工智能领域的重要进展,它们通过整合多种类型的数据,显著提升了模型的表现力和鲁棒性。这不仅使得人工智能系统能够更好地理解复杂的现实世界,也为未来的技术发展带来了无限可能。

    89610编辑于 2024-07-04
  • 模型技术之Python基础

    Python,作为人工智能时代的通用语言,正是连接模型技术与商业价值的那座桥梁。用 Python 基础打底,不仅能让你学得更稳,更能让你在变现之路上跑得更快。 一、 穿透技术黑盒,从“调包侠”进阶为“应用构建者”在当前的模型应用层开发中,Python 占据着绝对统治地位。 三、 驾驭 AI 生态工具,构建不可替代的职场护城河模型技术迭代极快,今天流行 LangChain,明天可能就有新的框架出现。 结语AI 时代,机会属于那些既能仰望星空懂技术,又能脚踏实地写代码的人。Python 不是模型学习的障碍,而是助飞的翅膀。 与其在概念的海洋中漂浮,不如沉下心来,用 Python 基础打底,构建起坚实的技术底座。当你用一行行代码将模型转化为解决实际问题的产品时,你会发现,变现不再是焦虑的等待,而是水到渠成的必然。

    14110编辑于 2026-03-20
  • 来自专栏大模型&AIGC

    6种模型微调技术

    其中Adapter由两层MLP组成,分别负责将Transformer的表征降维和升维(4) 特点只需要添加不到5%的可训练参数,即可以几乎达到全参数训练的效果在训练过程中大大节省了训练时间,做到时间有效性 针对不同任务,有不同最优的k值,经过实验,作者建议:Table-to-table任务,k=512Summarization任务,k=800(5) 特点优点:在Table2Text任务上,只有0.1%参数量级的 值得一提的是,通过使用T5模型进行模型大小的消融实验,我们展示了提示微调随着规模的增加变得更加具有竞争力:当模型参数超过数十亿时,我们的方法“缩小了差距”并达到了模型微调(即调整所有模型权重)的强大性能 ,无需verbalizer(4) 特点在小、模型上,效果均优于P-tuning。 其中LoRA的中间维度$r$,远小于原始模型的维度,即$r\ll min(d,k)$(5) 学习目标原始的LLM,一般也是CLM (Causal Language Model/Conditional Language

    2.7K00编辑于 2025-05-08
  • 来自专栏啄木鸟软件测试

    模型测试:性能优化的5实战策略

    引言 随着ChatGLM、Qwen、DeepSeek及Llama系列语言模型在金融、政务、医疗等关键场景加速落地,模型测试已远超传统‘功能是否正确’的范畴——性能成为决定能否上线的核心瓶颈。 这些并非个例,而是模型测试进入深水区的典型信号:性能不是附加项,而是可信AI的第一道防线。 一、明确性能基线:拒绝‘拍脑袋’指标 模型性能测试首要误区是套用小模型标准。 二、分层注入式压测:从单卡到集群的穿透验证 传统压力测试常止步于API层,而模型性能瓶颈常藏于框架底层。 推荐采用‘四层注入法’: 1)API层:模拟真实用户请求分布(如80%短提示+15%中长提示+5%对抗性长上下文),避免均匀负载失真; 2)Engine层:直连vLLM/Triton推理引擎,注入不同 结语 模型性能测试的本质,是构建‘可测量、可归因、可演进’的效能反馈闭环。

    22310编辑于 2026-03-31
  • 来自专栏架构之巅

    模型相关技术-初识RAG

    简单来讲就是让用户的问题先经过一个提前预置的专业知识库,先检索知识库,将知识库的响应提交给模型,让模型总结输出,或者直接就输出了,不经过大模型总结。 为什么需要RAG 模型在没有答案的情况下提供幻象数据,也就是胡说八道。 当用户需要特定的当前响应时,提供过时或通用的信息,模型提供的最新信息为训练模型时的数据。 图片 向量(vector)是在语言模型、知识库交互、计算过程中的重要指标。它可以将文本和知识表示为数学向量,实现文本相似度计算、知识库检索和推理等功能。 是的,整体的流程是和es类似,哪思考一个问题为 什么不用es,反而用这么复杂的模型来实现呢? - 哔哩哔哩 (bilibili.com) 我正在参与2024腾讯技术创作特训营最新征文,快来和我瓜分大奖!

    72641编辑于 2024-04-28
  • 模型微调】一文掌握5模型微调的方法

    (Prompt Tuning)在内的5种主流方法。 模型微调究竟是什么?直观上,模型微调即是指通过输入特定领域或任务的数据,并有选择性地调整模型参数的技术过程。 5、提示调整-轻量级的参数优化提示调整(Prompt Tuning)是一种“润物细无声”的微调,不改变模型自身,而是通过优化输入提示词的嵌入表示来引导模型输出。 无论是希望在单张GPU上微调70B模型的研究者,还是需要快速适配业务场景的工程师,都能从中获得有力支持。未来,模型微调技术将继续向着更高效、更自动化的方向演进。 参数效率将进一步提升,自动化工作流将更加完善,我们期待与开发者共同推动模型技术在更多场景的落地应用,让每个人都能轻松享受模型定制带来的技术红利。PS.如何学习AI模型

    3.7K40编辑于 2025-10-23
  • 来自专栏xiaosen

    模型Prompt-Tuning技术入门

    4 Prompt-Tuning技术发展历程 Prompt-Tuning自GPT-3被提出以来,从传统的离散、连续的Prompt构建、走向面向超大规模模型的In-Context Learning、Instruction-tuning Pre-trained Prompt Tuning for Few-shot Learning》:代表方法PPT 5.4.2 Prompt Tuning(NLG任务) Prompt Tuning(基于T5模型来做的 )方法为每一个输入文本假设一个固定前缀提示,该提示表由神经网络参数化,并在下游任务微调时进行更新,整个过程中预训练的模型参数被冻结。 Prompt Tuning特点: 优点: 模型的微调新范式 模型参数规模了之后,可以将模型参数固定,指定附加参数来适配下游任务,而且适配性能基本和全参数微调相当。 :BERT、GPT、T5等相关模型进行介绍

    1.5K30编辑于 2024-06-05
  • 来自专栏深度学习与python

    Hugging Face 语言模型优化技术

    作者 | Sergio De Simone 译者 | 明知山 策划 | 丁晓昀 语言模型的生产部署存在两个主要的挑战,一个是需要大量的参数,一个是需要处理非常长的用于表示上下文信息的输入序列 Hugging Face 基于他们提供模型服务的经验分享了一些克服这些障碍的技术语言模型需要大量的 VRAM 来加载,从几十 (bigcode/starcoder) 到数百 GB (Llama、Bloom、GPT3)。 在生产环境中部署语言模型的第三项优化措施是选择正确的架构,让它们能够有效地处理长文本输入。 位置嵌入通过将每个标记的位置编码为数字表示来帮助语言模型理解序列顺序。对于需要处理大型文本输入任务的语言模型,应该使用 RoPE 和 ALiBi 等相对位置嵌入技术进行训练。

    48810编辑于 2023-10-09
  • 模型技术之Linux及Shell

    模型环境搭建靠 Linux,技能越硬,升职加薪越快在人工智能浪潮席卷全球的今天,模型(LLM)已然成为技术圈最耀眼的明珠。 那些能够深入 Linux 底层,熟练驾驭模型环境搭建的工程师,正在用最“硬核”的基础能力,通过技术杠杆,撬动着职场升职加薪的最快路径。 然而,模型时代的到来,为 Linux 教育赋予了全新的现实意义。模型的训练与推理,对计算资源有着极致的渴求。 如果你不懂得如何通过 Linux 参数优化内核性能,不懂得如何排查环境依赖的深层错误,那么面对模型这一庞然物,你只能停留在“会调用”的浅层,无法触及技术的内核。 二、 祛魅与实战:环境搭建能力检验真功夫在当下的技术培训市场中,充斥着各种“速成”课程,鼓吹几行代码即可玩转模型。这种教育泡沫掩盖了真实的工程难度。然而,真正到了企业级的生产环境,情况截然不同。

    16410编辑于 2026-03-20
  • 来自专栏防止网络攻击

    模型技术的发展与实践

    我们可以从模型能够解决什么问题的角度出发,梳理模型对个人生活、对企业运营、对社会发展可能带来的影响和革新,因此本节我们重点讲解个5模型具有颠覆性的应用场景。 内容生成应该是模型最直接的应用场景,我们从下面5个场景展开说明。 文本生成在这个领域,影响最大的是文字工作者,比如自媒体、编辑、文秘、作家等。 五、总结与体会 我们对模型相关的发展历史、openAI技术的发展脉络、当前国内外主流的语言模型进行了简单的介绍,同时针对模型区别于之前模型的核心技术原理进行了简单讲解,本章提到的预训练、指令微调、 相信通过本章的讲解,读者大致了解了模型相关的知识。 在最后一节从内容生成、问题解答、互动式对话、生产力工具/企业服务、搜索推荐等5个维度介绍了模型能够赋能的领域和应用场景。 未来模型一定会革新所有的行业和场景的。读者需要对模型相关的技术及行业、场景应用保持敏感,在工作中要将模型相关的技术用起来。

    2.5K10编辑于 2023-12-05
  • 来自专栏运维开发王义杰

    AI: 了解模型降维技术

    模型开发过程中,降维是一个关键的步骤。它可以帮助我们处理和分析高维数据,降低计算复杂度,提高模型性能。下面,我们将详细介绍降维的基本概念、常用方法以及在模型开发中的应用。 主成分分析(PCA) 主成分分析是一种线性降维技术,通过将数据投影到方差最大的方向上,找到数据的主成分,从而实现降维。 三、降维在模型开发中的应用 在模型开发过程中,降维可以在以下几个方面发挥重要作用: 1. 可视化 降维技术,如t-SNE,可以将高维数据投影到二维或三维空间,便于我们进行数据可视化和探索。这有助于我们理解数据的分布和结构,发现数据中的模式和异常。 四、总结 降维是模型开发过程中不可或缺的一部分。通过适当的降维技术,我们可以有效地处理高维数据,提高模型的性能和稳定性。

    73510编辑于 2024-07-10
领券