首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏产品笔记

    语言模型(LLM)

    最近,作为代表性的语言模型应用ChatGPT展现出了超强的人机对话能力和任务求解能力,对于整个AI研究社区带来了重大影响。01 — 什么是语言模型? 目前,语言模型取得如此巨大的成就,总结了五方面原因:模型、数据和计算资源的扩展;高效稳定的训练手段;语言模型能力诱导;对齐训练,将语言模型与人类偏好对齐;工具使用(潜在发展方向); ---- 02 预训练是语言模型能力的基础。当语言模型的参数量扩展到超千亿级别时,从头预训练一个语言模型就成为一件十分困难且有挑战的事情。在数据层面,如何收集尽可能多的高质量语料对预训练模型的效果十分关键。 03 — 语言模型的特征 大型通用语言模型可以进行预训练,然后针对特定目标进行微调。 Large():在"语言模型"的上下文中,""主要有两层含义。一方面,它指的是模型的参数数量。 在这些模型中,参数的数量通常会非常,达到数十亿甚至数百亿。这使得模型能够学习和表示非常复杂的模式。另一方面,""也指的是训练数据的规模。

    1.8K50编辑于 2023-09-09
  • 来自专栏机器学习

    介绍语言模型LLM

    介绍语言模型LLM)近年来,人工智能(AI)和自然语言处理(NLP)领域取得了显著的进展,其中大语言模型(Large Language Models,简称LLM)成为了引人注目的焦点。 语言模型是基于深度学习技术训练的,可以理解和生成自然语言文本的AI模型。本文将介绍语言模型的基本概念、发展历程、应用领域以及未来的潜力。什么是语言模型语言模型的发展历程语言模型的发展可以追溯到早期的语言模型,如N-gram模型和LSTM(长短期记忆网络)。 自Transformer架构提出以来,多个大规模语言模型相继问世,如:GPT(生成预训练变换器)系列:由OpenAI推出的GPT系列模型是最具代表性的LLM之一。 T5(文本到文本转换器):由Google提出的T5模型将所有的NLP任务转换为文本生成任务,通过统一的架构处理多种语言任务。

    1.3K00编辑于 2024-07-30
  • 来自专栏机器学习入门

    【AI模型LLM主流开源模型介绍

    学习目标 了解LLM主流开源模型. 掌握ChatGLM、LLaMA、Bloom等基础模型的原理 LLM主流模型类别 随着ChatGPT迅速火爆,引发了模型的时代变革,国内外各大公司也快速跟进生成式AI市场,近百款模型发布及应用 目前,市面上已经开源了各种类型的语言模型,本章节我们主要介绍其中的三类: ChatGLM-6B:衍生的模型(wenda、ChatSQL等) LLaMA:衍生的模型(Alpaca、Vicuna 因此, x_3的二维位置编码是[3, 0], x_5的二维位置编码是[5, 0],x_6​ 的二维编码是[5, 1]。 小结 本小节主要介绍了LLM主流的开源模型,对不同模型架构、训练目标、优缺点进行了分析和总结。

    1.2K10编辑于 2024-09-24
  • 来自专栏xiaosen

    LLM-AI模型介绍

    语言模型 (LLM) 背景 语言模型 (Large Language Model) 是一种人工智能模型, 它们通常包含数千亿甚至更多的参数,并在大规模数据集上进行训练。 这些能力的涌现使得LLM在多项任务中取得了显著的效果提升。 LLM的训练过程通常包括预训练和微调两个阶段。 典型代表是BART、T5、GPT-3等; 第三阶段 :走向AIGC(Artificial Intelligent Generated Content)时代,模型参数规模步入千万亿,模型架构为自回归架构, 模型走向对话式、生成式、多模态时代,更加注重与人类交互进行对齐,实现可靠、安全、无毒的模型语言模型:大规模语言模型(Large Language Model, LLM)通常拥有数十亿到数万亿个参数,能够处理各种自然语言处理任务,如自然语言生成、文本分类、文本摘要、机器翻译、语音识别等。

    65310编辑于 2024-04-20
  • 来自专栏测试开发技术

    5分钟带你看懂什么是语言模型LLM)

    基本原理 一个语言模型本质上就是一个复杂的数学函数,它能预测任何一段文本的下一个词。它并不是确定地选择一个词,而是会给所有可能的词分配一个概率。 而更大的模型训练的数据量更加庞大。 你可以把训练过程想象成调整一台拥有大量旋钮的机器。一个语言模型的行为完全由它内部成千上亿个连续数值(参数或权重)决定。调整这些参数会改变模型对下一个词的预测概率。 所谓“”语言模型,就是指这些参数的数量能达到数千亿级别。 但有趣的是,这些参数并不是由人手动设定的,而是从随机值开始的。最初,模型输出的内容完全是胡言乱语,但随着训练的进行,它的预测能力会不断提高。 训练的方式是让模型接触大量的文本示例,比如一段话的前面几句话,然后让模型预测最后一个单词,并将它的预测结果与真实单词进行对比。 模型行为的不可解释性 虽然研究人员设计了模型的架构,但具体的行为是训练过程中“自发涌现”的。这意味着,我们很难准确解释模型为什么会给出某个特定的答案。

    99010编辑于 2025-04-18
  • 什么是语言模型LLM

    语言模型(LargeLanguageModel,简称LLM)是一种旨在理解和生成人类语言的人工智能模型。 1.定义与基本原理语言模型是一种基于深度学习的自然语言处理模型。其“”主要体现在两个方面:参数规模模型包含数十亿至数千亿的可调节参数,用以学习语言数据中的细微模式和复杂关系。 4.常见的语言模型例子以下是一些具有代表性和影响力的语言模型模型名称开发机构主要特点GPT系列OpenAI最具代表性的自回归语言模型系列。 T5谷歌提出了“文本到文本”的统一框架,将几乎所有NLP任务(如分类、翻译、摘要)都重新定义为输入一段文本、生成另一段文本的问题,简化了模型适配过程。 5.面临的挑战与局限尽管能力强大,语言模型的发展仍面临若干显著挑战:巨大的资源消耗:训练顶级LLM需要庞大的计算集群和巨额电力,导致极高的经济成本和环境足迹,这使得其研发主要集中于少数大型科技机构。

    78910编辑于 2026-03-03
  • 来自专栏喔家ArchiSelf

    解读模型LLM)的token

    因此,tokenization是影响运行模型的成本和性能的一个重要因素。 不同模型训练各自的tokenizer,而且尽管 LLaMa 也使用 BPE,但token也与ChatGPT不同,这使得预处理和多模态建模变得更加复杂。 5. LLM应用中token 的使用 我们需要知道当前任务的token 使用状况,然后,面对模型的token长度限制,可以尝试一些解决方案 5.1 token 的使用状态 这里采用OpenAI 的API , 如何构建基于模型的App Qcon2023: 模型时代的技术人成长(简) 论文学习笔记:增强学习应用于OS调度 《深入浅出Embedding》随笔 LLM的工程实践思考 解读模型的微调 解读ChatGPT 中的RLHF 解读Toolformer 解读TaskMatrix.AI 解读LangChain 浅析多模态机器学习 Agent 与对象的辨析 深度学习架构的对比分析 老码农眼中的模型LLM) 系统学习模型

    20.6K51编辑于 2023-10-08
  • 来自专栏产品笔记

    语言模型LLM)LangChain介绍

    LangChain是一个利用语言模型的能力开发各种下游应用的开源框架,它的核心理念是为各种语言模型应用实现通用的接口,简化语言模型应用的开发难度,主要的模块示意图为: Index:提供了各类文档导入 通过 Index 模块,非常容易处理各类型的外部数据,来提供给模型进行推理。 Prompts:将用户输入和其他外部数据转化为适合语言模型的提示词,包括提示词管理、提示词优化和提示词序列化等功能。 ,通过提示词不断探索语言模型的能力边界,LangChain 提供了一个易用的提示词管理工具。 Models:提供了对各类语言模型的管理和集成,除闭源的语言模型 API 接口外,还提供对多个开源模型仓库中开源语言模型的集成接口,以及在云上部署的语言模型接口。 Agents 通过 SQL chain 查询账号余额,通过调用网页查询接口的 LLM 查找实时黄金价格,通过调用 LLM Math 计算能买到的黄金数量完成最终的任务,这一系列的逻辑操作均可以在 Agents

    1.2K30编辑于 2023-09-09
  • 来自专栏素质云笔记

    模型幻觉(LLM Hallucination)若干记录

    主要参考:模型的幻觉问题调研: LLM Hallucination Survey 1 幻觉定义 当模型生成的文本不遵循原文(Faithfulness)或者不符合事实(Factualness),我们就可以认为模型出现了幻觉的问题 Reference-Free 基于IE:将知识限定于可以用三元组形式表示的关系和事件,基于额外的IE模型进行抽取,接着使用额外模型进行验证。 人工评估:目前为止最靠谱的,此外还可以依靠LLM打分(比如利用GPT4,但是GPT4也存在着严重的幻觉问题,即使经过retrival-augment,检索回来的信息也有可能是错误的) 3 如何解决 构建高质量数据集 后处理:设计一个小模型专门用于fix幻觉错误。 Augment Generation(Retrieval Augment Generation - 让幻觉不再继续(一)): Retrieval Augment Generation有两个重要的组成部分,预训练模型和领域知识库

    1.3K40编辑于 2023-07-25
  • 来自专栏一乐来了

    使用模型LLM实现销售AI

    销售AI首先使用LLM解析客户的问题,然后通过智能代理查询数据库获取产品详细信息,并以自然而友好的方式回应客户。 那么在AI2.0时代,大型语言模型LLM的时代,这个问题怎么样了呢? 销售AI的核心挑战 客服到销售角色的转变 将客服职能转变为销售功能一直是个大挑战。 典型的智能应用(ChatAI)架构方案 一个典型的智能应用架构,是以模型LLM驱动,聊天为入口,使用Agent智能插件能力驱动API服务: 智能应用(ChatAI)架构 以模型LLM为核心 大型语言模型 5. 手机号码 示例:“如果您希望电话沟通,还请留下您的电话号码,或者,你可以考虑选择其他联系方式。” 6. 我们会持续分享关于智能聊天ChatAI、模型技术进展、AI Agent设计等方面的内容,

    58710编辑于 2025-05-23
  • 来自专栏数字孪生元宇宙

    MLC LLM - 手机上的模型

    MLC LLM 是一种通用解决方案,它允许将任何语言模型本地部署在各种硬件后端和本地应用程序上,此外还提供了一个高效的框架,供每个人根据自己的用例进一步优化模型性能。 图片1、什么是 MLC LLM?近年来,生成式人工智能 (AI) 和大型语言模型 (LLM) 取得了显着进步,并变得越来越普遍。 由于开源计划,现在可以使用开源模型开发个人AI助手。 但是,LLM 往往是资源密集型和计算要求高的。 要创建可扩展的服务,开发人员可能需要依赖强大的集群和昂贵的硬件来运行模型推理。 此外,部署 LLM 还面临一些挑战,例如不断发展的模型创新、内存限制以及对潜在优化技术的需求。 ----原文链接:MLC LLM - 手机模型 - BimAnt

    1.4K30编辑于 2023-05-07
  • 来自专栏人工智能

    (LLM系列)什么是语言模型

    (LLM系列)什么是语言模型?人工智能正在改变我们与技术互动的方式。 语言模型(Large Language Model,简称 LLM)作为 AI 领域最具突破性的技术之一,已经从研究实验室走向了日常应用。 无论是 ChatGPT、Claude 还是 Gemini,这些工具都基于同一核心技术——语言模型。本文将深入探讨 LLM 的工作原理,并帮助您了解如何选择最适合您需求的模型。一、什么是语言模型? 市场上有多款优秀的语言模型,每款都有其独特优势。 多语言用户所有三款模型都支持多语言,但 Gemini 在非英语语言上的表现尤为突出,这得益于 Google 在机器翻译领域的深厚积累。五、语言模型的未来趋势语言模型技术仍在快速发展。

    71510编辑于 2026-01-30
  • 来自专栏时空探索之旅

    AAAI 2024 | 模型LLM)论文总结

    语言模型作为近期最火热的研究点,热度至今居高不下。特别是近期,arxiv上每个月都发表很多关于语言模型的文章。对此,我只想吐槽一句,根本读不完。 倒不如来看看在AAAI-2024会议上关于语言模型的研究工作。经过"老字号"AAAI会议审核过的,质量是杠杠的。 言归正传,语言模型总结将分为两篇文章介绍,本次先介绍前20篇(如有疏漏,欢迎大家补充)。 (如果对您有用,还请您点赞。感谢您的支持!) 1. 目前,语言模型(LLMs)凭借其从大数据中学习的能力,为文本生成提供了一种前景广阔的解决方案,尤其是在RRG等跨模态场景中。 (LLM)耗时耗力,因此医学领域出现了各种医学语言模型LLM),这凸显了对统一评估标准的需求。

    1.8K10编辑于 2024-11-19
  • 来自专栏Java技术

    AI技术和模型技术LLM

    -CoderOilStation(程序员编程助手科技股份有限责任公司)AI技术和模型技术LLM人工智能技术AI是美国高等院校哈佛大学的一种原型框架技术。AI技术西方和全球的部署研发和运用。 美国麻省理工学院MIT会同步不同的领域模型驱动技术DDD(DomainDrivenDesign)。领域模型驱动技术西方发达社会更注重不同想法和设计的美学应用。 私有用户和公众的开放平台用户一小一意味着平台的设计开始运行正常。模型LLM(LargeLanguageModel)模型开放基础框架的模型搭建方式。很多的应用逻辑都是有编程范式和编程方法学。

    22210编辑于 2026-03-08
  • 来自专栏架构师成长之路

    模型llm:Ollama部署llama3学习入门llm

    Llama3模型则达到400B,仍在训练中,目标是实现多模态、多语言的功能,预计效果将与GPT 4/GPT 4V相当。 二、Ollama安装 1、Ollama简介 Ollama 是一个开源的大型语言模型LLM)服务工具,它允许用户在本地机器上运行和部署大型语言模型。 keep_alive:控制模型在请求后保持加载到内存中的时间(默认为5分钟)。 83%8F%E4%B9%9F%E5%B7%AE%E4%B8%8D%E5%A4%9A1G%E3%80%82) 本文推荐使用ollama-webui-lite(github.com/ollama-webu… %EF%BC%8C%E9%9D%9E%E5%B8%B8%E8%BD%BB%E9%87%8F%E7%BA%A7%EF%BC%8C%E5%8F%AA%E9%9C%80%E8%A6%81%E4%BE%9D%E8%

    7K00编辑于 2024-05-24
  • 来自专栏CSDNToQQCode

    语言模型LLM中的幻觉

    LLM是什么? 大型语言模型LLM)是一种基于自然语言处理和机器学习技术的大型语言处理模型。它能够理解和生成自然语言文本,并能够处理各种语言和文本类型,如对话、问答、文本生成等。 同时,LLM也面临着一些挑战,如模型的可解释性、安全性和隐私问题等。 幻觉 由ChatGPT带来的模型时代,国内外各大厂家都在陆续推出自己的模型,然而目前模型都存在一个普遍的现象就是:幻觉。 事实幻觉 事实不一致,当问AI:如何解决模型的幻觉问题,话题是:幻觉可以说早就已经是LLM老生常谈的问题了,那为什么会产生这个现象该如何解决这个问题呢? 附: 解决模型对话中的幻觉问题,可以考虑以下几个方面: 数据增强:通过在输入数据中添加噪声或随机性,增加模型的泛化能力,减少幻觉问题。 例如,在文本生成过程中,可以通过随机插入停用词、改变词序、使用伪词等技术,使模型在训练过程中更加鲁棒。 模型微调:针对特定任务,对预训练模型进行微调,使其更好地适应特定领域。

    49010编辑于 2024-01-02
  • 来自专栏机器学习AI算法工程

    ChatIE(LLM模型用于信息抽取)

    利用ChatGPT实现零样本信息抽取(Information Extraction,IE),看到零样本就能大概明白这篇文章将以ChatGPT作为一个基座然后补全前后端,来实现抽取任务。主要针对抽取中的三个重要任务:

    1.6K10编辑于 2023-10-28
  • 来自专栏第一专栏

    LLM-TAP随笔——语言模型基础【深度学习】【PyTorch】【LLM

    2.语言模型基础 2.1、编码器和解码器架构 这个架构常用于编码器-解码器架构是一种常用于序列到序列(Seq2Seq)任务的深度学习架构。 2.2、注意力机制 2.2.1、注意力机制(Attention) 注意力机制允许模型在处理信息时更加灵活和智能地选择性地关注输入的不同部分,从而提高了模型的性能和表现力。 Feed-Forward Network层任务 考虑注意力机制可能对复杂过程的拟合程度不够, 通过增加两层网络来增强模型的能力。 2.4、BERT 预训练模型:在大规模数据事先训练,然后在特定任务上微调。 拿到预训练好的模型为底座,按照上述流程图去进行特定任务的微调。

    90530编辑于 2023-09-26
  • 来自专栏NewBeeNLP

    LLM 盛行,如何优雅地训练模型

    不论是学术界还是工业界,都有训练模型来优化下游任务的需求。 本篇博文主要整理一系列模型在训练和推理两个阶段的优化技术,以满足我们在有限的计算资源的条件下训练自己的模型,下面列出本文主要介绍的一些优化技术: 混合精度训练 :FP16+FP32 或 BF16+ 在介绍优化技术之前,首先介绍一下如何评估模型的算力。 众所周知,现如今的预训练语言模型均是基于Transformer结构实现的,因此模型的参数主要来源于Transformer的Self-Attention部分。 基于ZeRO在训练过程中的原理,有博主分享比较精妙的图,来源于[多图,秒懂]如何训练一个“万亿模型”?[2]。

    3.1K30编辑于 2023-09-01
  • 来自专栏代码编写世界

    连接语言模型LLM)服务进行对话

    引言 最近开始接触AI模型方向的工作,第一个实例就尝试一下连接模型进行对话的实现。 2. 这也是为啥现在模型平台都可以选择接入不同的模型来实现AI应用。 messages=[{'role': 'user', 'content': '想快速入门AI模型,给我推荐一下具体的学习方案。'}] 就是模型的提示词,通过更改提示词,可以与模型对话来得到自己想要的结果。 2.2 LangChain 除了使用openai模块,使用LangChain是个更好的选择。 “多轮对话”就是需要让模型记住之前的对话内容,也就是上下文,以便得到更好的输出;“流式输出”则是让模型的回答逐步渐进的输出,一个字一个字的呈现,以便让AI Chat应用的交互性更好。

    37810编辑于 2025-07-21
领券