首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏后台技术汇

    模型应用之(4):Langchain架构与模型接入

    Langchain架构 LangChain工具 组件:模型包装器、聊天模型包装器、数据增强工具和接口链: 提供了标准接口,和数据平台和实际应用工具紧密集成 LangChain六模块 模块 核心作用 关键能力 模型I/O 标准化LLM交互接口 • 统一多模型API调用• 输入模板化• 输出结构化解析 数据增强 提升输入数据质量 • 多源数据加载• 文本预处理• 检索增强生成(RAG) 链 构建可复用任务流程 Text Spltters 文本分割 顾名思义,文本分割就是用来分割文本的。为什么需要分割文本? Agent作为高级模块,可调用其他所有模块功能 模型接入 接入示例 云服务和私有化模型优劣对比 维度 开发成本 算力成本 运维成本 数据安全 云厂商模型 较低,开箱即用 算力资源充足,模型性能好 &吞吐量较高 较低,提供云平台监控 安全性低 私有化模型 较高,自建模型网关、服务鉴权、可用性等 算力硬件投入成本高,模型性能较差低&吞吐量较低 较高,需要专业运维团队介入 安全性高,保密性强

    70810编辑于 2025-08-04
  • 来自专栏媒矿工厂

    LLMZip:使用语言模型实现无损文本压缩

    文章结果显示,利用最新的语言模型进行文本压缩不仅可以提高压缩率,还能更准确地估计语言的熵,为未来文本处理技术的发展提供了新的可能性。 他们的方案仍然没有超过如BSC和ZPAQ等最先进的文本压缩算法。 因此,现在研究使用如LLaMA-7B这样的语言模型是否可以获得更好的压缩结果和更精确的英语熵估计是很自然的。 本文展示了当使用LLaMA-7B语言模型作为预测器时,使用text8数据集的1MB部分估计得出的熵的渐进上界为0.709比特/字符。这个数值与最先进的文本压缩算法之间仍存在一定差距。 这些发现表明,对于需要高效压缩的应用场景,如移动设备和网络通信,采用基于语言模型的压缩方法可能是一个值得探索的方向。同时,这也提示在实际应用中应考虑不同压缩算法对不同文本长度的适应性。 结论 本文的结论指出,利用语言模型(如LLaMA-7B)进行文本压缩能够显著提高压缩效率,并且可以达到比传统文本压缩算法(如BSC、ZPAQ和paq8h)更优的压缩比。

    2.3K10编辑于 2024-05-11
  • 来自专栏圆圆的算法笔记

    利用模型打造文本摘要训练新范式

    这篇文章主要讨论的是生成式文本摘要的方法,如何利用对比学习和模型实现最新的生成式文本摘要训练范式。 这部分对比学习loss的计算方式如下: 4模型优化文本摘要 随着GPT等模型的兴起,人们发现用模型生成的摘要甚至比人工生成的质量还要好。 这篇文章提出了3种利用模型生成训练样本的方式。 第一种是直接使用模型生成的摘要,替代人工生成的摘要,相当于直接用下游模型拟合模型的摘要生成能力,训练方式仍然是MLE。 GPTScore是Gptscore: Evaluate as you desire(2023)中提出的一种基于模型评估生成文本质量的方法。 5、总结 模型在摘要生成上的能力得到越来越广泛的认可,因此利用模型作为摘要模型拟合目标的生成器,取代人工标注结果,将成为未来的发展趋势。

    3.4K50编辑于 2023-08-17
  • 来自专栏大模型成长之路

    模型学习 | MINIGPT-4原理】

    开源代码:https://minigpt-4.github.io/一、预训练方法预训练方法几乎和BLIP2模型一致,可以参考:【模型学习 | BLIP2原理】-腾讯云开发者社区-腾讯云1.1 Q-Former layer与预训练的图像模型特征交互; 除此之外,这组可学习的嵌入向量也与文本token进行拼接作为Text transformer的输入; 将Q-Former初始化为 $\text{BERT}_{\ 将图像通过图像冻结模型和Image Transformer得到与文本语义最相关、最具信息量的视觉特征。接着通过一个全连接层的线性变换,将大小转换为符合到LLM模型中的输入维度。 在这个阶段中,作者采用了一个先进的语言模型Vicuna作为线性变换向量的输入。二、数据与实验2.1 数据作者提出了短标题文本对对于模型的训练来说是不够的,会出现不自然标题的现象。 ① MiniGPT-4 使用的是 Vicuna(基于 LLaMA 的开源 ChatGPT 对话模型),具有更强的自然语言表达和指令理解能力;而BLIP-2 使用的 LLM 主要是 Flan-T5 或 OPT

    74010编辑于 2025-07-02
  • 来自专栏算法一只狗

    LLama4 原生多模态模型

    Meta最新发布了原生多模态模型 Llama 4,一经亮相即登上LMSYS模型排行榜第二名,仅次于Google的Gemini-2.5-pro,分差仅为22分,实力可见一斑。 三个模型共同的技术特色: MoE混合专家架构:仅激活部分参数,大幅提升计算效率。 多模态能力:整合文本、图像与视频数据,实现跨模态任务处理。 当前行业趋势多偏向小而高效的模型,Llama 4如此庞大的规模实属少见。 技术细节与训练策略Llama 4采用了先进的早期融合(early fusion)机制,将文本和视觉token统一集成至模型主干架构,实现了真正的多模态统一训练。 总结与展望Llama 4的发布,意味着Meta正式进入原生多模态模型竞争核心领域。

    77500编辑于 2025-05-01
  • 卷土重来的模型越狱 - 长文本才是那个罪人

    最近一段时间,模型的"长文本",成了最炙手可热的词。 从20万token的Claude3,到200万字的Kimi。 再到通义千问的1000万字,360的500万字。 但在这一路狂奔之时,Anthropic,也就是造Claude的公司,今天,给长文本,泼了一盘冷水。 一句话总结就是: 直接利用长文本的特性,量大管饱,给模型灌海量的有害问答对,从而实现越狱。 越狱这个词,在去年模型疯狂做安全对齐之后,已经越来越少有人提起了,毕竟,难度真的越来越大。 但是这次,在长文本的军备竞赛之上,越狱这玩意,又卷土重来。 最开始只有4k token,越狱很好防,现在动不动就20万Token几百万字的。 我们知道,给模型喂的演示案例越多,它的 few-shot 学习能力就越强。 4.现在模型能力都一般,造成不了太大的影响,但是得快点解决啊,要不然后面出来了比如GPT5这种天顶星科技,我们大家容易都完犊子啊。 这四条就是Anthropic大概的意思。 这是一场战争。

    26900编辑于 2025-04-14
  • 来自专栏黯羽轻扬

    文本_bash笔记4

    grep 用于文本搜索,匹配文件内容,语法格式为:grep pattern filename,例如: # 找出所有含有for的行 grep 'for' test.sh # 对多个文件进行搜索 grep "想做个好人" | cut -b 2-4 # -n选项不分割多字节字符,得到`想` echo "想做个好人" | cut -n -b 2-4 sed stream editor,非交互式的编辑器,常用的文本处理工具 ,最常用的功能是文本替换: # 删除行开头的空白字符 echo $' \t 我想左对齐' | sed $'s/^[[:space:]]*\t*//g' 另一个常用功能是文件原地替换(替换并把结果写入原文件 's/[[:alpha:]]{1,}/[word]/g' test.txt P.S.Mac下sed -i文件原地替换必须指定备份文件名(虽然可以是空串),另外,Mac下的sed与GUN sed差异非常, $123…:当前行第n个字段的文本内容 所以有更简单的统计行数的方式: echo $'1 2\n3 4' | awk 'END{print NR}' 每读一行更新NR,执行到END块时就是总行数 注意

    1.1K30发布于 2019-06-12
  • 来自专栏大模型应用

    模型应用:TTA文本驱动音频:MusicGen模型参数调优+音频情绪可视化.23

    一、引言 随着语音模型的普及,不管是TTS还是ASR,都与音频处理有着紧密的联系,AIGC的蓬勃发展,也催生了文本到音频(Text-to-Audio, TTA)的落地场景,音乐生成也走进了我们的实际应用 基于传统的信号合成技术凭借完全可控、轻量化的优势,在场景化音效补充中不可替代;而声乐模型也是雨后勃发,以 MusicGen 为代表的 TTA 模型,则通过海量数据训练实现了文本意图驱动的创意生成。 个主观情绪维度;Guidance Scale:TTA 模型的关键参数,控制文本提示对生成结果的约束强度(值越高,生成结果越贴合文本)。 核心采用MusicGen模型文本描述生成基础音乐,再通过分形噪声合成和数字混响等传统方法增强场景效果,实现了“AI创意生成+人工精细化调整”的协作模式。 TTA模型生成核心音频 print("\n 步骤1: 初始化TTA模型") tta_generator = TTAAudioGenerator()

    43232编辑于 2026-02-20
  • 来自专栏啄木鸟软件测试

    多模态模型技术原理与实战(4)

    多模态模型核心技术 1多模态的困难 困难 数据集标志困难 人工标注生成 COCO Visual Genome ... 模型 OpenAl的DALL-E2和GPT4 谷歌大脑的 lmaen和Stable Diffusion 百度的文心一言 文本生成图像 基于GAN的文本生成图像方法 AlignDRAW:第一个现代文本生成图像模型 图像解码器 把隐信息还原成图像 4语音多模态技术 文本生成语音 以前技术:拼接法和参数法 基于非深度学习的文本生成语音技术 隐马尔可夫模型 (HMM) 文本信息提取模块 声学特征提取模块 可调整的低秩适配(Adaptive Low-Rank Adaptation,AdaLoRA)技术和量化压缩远程注意力(Quantized Long-Range Attention,QLoRA)技术 8 GPT-4模型核心技术介绍 Transformer:编码器-解码器框架 编码器:衍生出了自编码模型,如BERT、RoBERT和ALBERT 解码器:衍生出了自回归模型,如GPT-1和GPT-2 整体衍生出:T5和GLM

    46210编辑于 2024-09-10
  • 来自专栏数据分析与挖掘

    LLM(语言模型)解码时是怎么生成文本的?

    use_cache (bool, optional, defaults to True) - 模型是否应该使用过去最后的键/值注意力(如果适用于模型)来加速解码。 在论文中,建议的值在3e-4到 9e-4之间,取决于模型的大小。 在论文中 ,建议值从3e-4到2e-3不等,取决于模型的大小。 草 坪 和 远 处 的  海 。  但是, n-gram 惩罚使用时必须谨慎,如一篇关于 纽约 这个城市的文章就不应使用 2-gram 惩罚,否则,城市名称在整个文本中将只出现一次!

    6.3K30编辑于 2023-04-27
  • 来自专栏大数据文摘

    LLM Accelerator:使用参考文本无损加速语言模型推理

    大数据文摘转载自微软亚洲研究院 随着人工智能技术的快速发展,ChatGPT、New Bing、GPT-4 等新产品和新技术陆续发布,基础模型在诸多应用中将发挥日益重要的作用。 目前的语言模型大多是自回归模型。自回归是指模型在输出时往往采用逐词输出的方式,即在输出每个词时,模型需要将之前输出的词作为输入。而这种自回归模式通常在输出时制约着并行加速器的充分利用。 在许多应用场景中,模型的输出常常与一些参考文本有很大的相似性,例如在以下三个常见的场景中: 1. 检索增强的生成。 图1:模型的输出与参考文本存在相似性的常见场景 基于以上观察,研究员们以参考文本模型输出的重复性作为突破自回归瓶颈的着力点,希望可以提高并行加速器利用率,加速语言模型推理,进而提出了一种利用输出与参考文本的重复性来实现一步输出多个词的方法 图4:消融实验中,在开发集上对 LLM Accelertator 的超参数的分析结果 图5:在开发集上,具有不同匹配词数 n 和拷贝词数 k 的解码步骤统计数据 LLM Accelertator 是微软亚洲研究院自然语言计算组在语言模型加速系列工作的一部分

    73130编辑于 2023-05-22
  • 来自专栏Dance with GenAI

    用阶跃星辰AI模型批量识别图片中的文本

    国内模型公式阶跃星辰推出的Step-1V是一款千亿参数的多模态模型, 该模型在多个领域表现出色,特别是在图像理解、多轮指令跟随、数学能力、逻辑推理和文本创作等方面。 多模态模型文本模型的基础上,增加了多模输入能力,如语音、图像、视频等,并将它们融合在一起,以实现更全面、更准确的理解和推理。 step-1v该模型拥有强大的图像理解能力,暂时只开放文本和图像输入,且仅支持文本生成。上下文长度分别为8k和32k。 step-1v-8k模型的api_key为:"XXX" step-1v-8k模型的代码示例: # -*- coding: utf8 -*- import base64 import requests 按需改成读文件等 r = requests.get("https://www.stepfun.com/assets/section-1-CTe4nZiO.webp") r.raise_for_status

    1.1K10编辑于 2024-07-31
  • 来自专栏人工智能前沿讲习

    【强基固本】模型的四种文本解码策略

    在大型语言模型(LLM)的迷人世界中,模型架构、数据处理和优化常常成为关注的焦点。但解码策略在文本生成中扮演着至关重要的角色,却经常被忽视。 我们将文本“I have a dream”输入到GPT-2模型中,并让它生成接下来的五个词(单词或子词)。 通过这些策略,我们可以更好地理解GPT-2是如何生成文本的。 人们常常误解认为像GPT-2这样的大型语言模型(LLM)直接生成文本。实际上并非如此。 最终,模型生成logits,这些logits通过softmax函数转换为概率。 步骤 2: 输入: “I have a dream of” → 最可能的词元: ”being” 步骤 3: 输入: “I have a dream of being” → 最可能的词元: ”a” 步骤 4:

    84810编辑于 2024-06-05
  • 来自专栏Soul Joy Hub

    ASR文本纠错模型

    /macbert/README.md 本项目是 MacBERT 改变网络结构的中文文本纠错模型,可支持 BERT 类模型为 backbone。 spm=1001.2014.3001.5502 上述模型考虑到了文本错字进行纠错,但在中文ASR的场景下,很多情况是由于中文拼音读音相同或相近导致的识别错误。 :https://github.com/orangetwo/ernie-csc 4. FastCorrect 上述模型都是在自编码模型上进行检错与纠错。也就是说,文本的输入输出序列长度是不变的,且输出纠错结果的token位置必须是与输入位置对齐的。 这就使得模型无法很好的纠正文本中多字、少字的错误。

    3.3K20编辑于 2022-11-30
  • 来自专栏开源服务指南

    玩转语言模型文本生成和模型控制的革新之道 | 开源日报 0901

    它允许您以一种简单直观的语法,基于 Handlebars 模板,实现文本生成、提示和逻辑控制的混合,产生清晰和易于理解的输出结构。 此外,Guidance 还提供了模型加速功能,可在处理多个生成或 LLM(大型语言模型)控制流语句时显着提高推理性能,从而提供更快的结果。 支持基于角色的聊天模型(如 ChatGPT )的轻松集成。 与 Hugging Face 模型的轻松集成,包括提供模型加速、边界优化和正则表达式模式引导等功能。 Guidance 的目标是使文本生成和模型控制更加灵活、高效,为开发者和团队提供更多自由度和便利性。它适用于多种用途,包括自然语言生成、文本处理和实时流式处理。 plasma-umass/scalene[4] Stars: 9.2k License: Apache-2.0 Scalene 是一个高性能的 Python CPU、GPU 和内存分析工具,旨在提供详细的性能信息

    50420编辑于 2023-09-14
  • 来自专栏科学最Top

    近期值得关注的4个时序模型研究

    前言 梳理了近期几篇时间序列模型研究文章(后台回复:“论文合集”获取),时间序列模型的研究正在迅速发展,并且在多个领域和应用中展现出巨大的潜力。 模型可解释性:通过文本形式提供解释性的时间序列预测结果,帮助用户更好地理解时间序列数据的模式和趋势。 特定领域的应用:模型正在被应用于特定领域的时间序列预测,如金融、医疗、交通等,以解决特定问题并提供可解释的预测。 我们首先使用文本原型(text prototypes)重新编程输入的时间序列,然后将其输入到冻结的LLM中,以对齐这两种模态。 4、Lag-Llama 论文标题:Lag-Llama: Towards Foundation Models for Probabilistic Time Series Forecasting 在过去的几年中

    1.7K10编辑于 2024-09-18
  • 来自专栏自然语言处理(NLP)论文速递

    猛犸象模型!MAmmoTH:目前最好的开源、通用数学模型,现已超过GPT-4

    引言  大型语言模型 (LLM)的数学推理能力是评估模型能力的一项关键指标。 尽管目前很多大型语言模型(LLMs)在该领域取得了一定的进展,但与闭源的模型相比,开源模型的数学推理能力仍然有很大差距。   (LLM)的数学推理能力是评估模型能力的一项关键指标。 尽管该领域取得了一定的进展,但是开源模型和闭源模型之间仍然存在明显的差距。 目前一些比较流行的闭源LLM主要包括:GPT-4、PaLM-2、 Claude2,它们在主流的GSM8K、MATH数据集上面占据着了主导地位;而Llama、Falcon、OPT等开源模型在所有基准上都大幅落后

    1.7K20编辑于 2023-09-21
  • 来自专栏【腾讯云开发者】

    腾讯混元模型·4月产品动态

    作为腾讯全链路自研的模型,自2023年9月公开亮相以来,腾讯混元模型共经历了数十次迭代,支持内部超过400个业务和场景接入,并通过腾讯云面向企业和个人开发者全面开放(API个人权益与企业客户一致,已实名腾讯云账号提供累计

    56340编辑于 2024-04-28
  • 来自专栏AI分享

    模型有关信息(2025年4月8日 - 4月14日)

    Meta发布Llama 4模型引发争议发布情况:4月13日,Meta平台公司推出了Llama语言模型新一代版本——Llama 4 Scout和Llama 4 Maverick。 专业评估机构LMArena把Llama 4 Maverick的某个版本评为当下性能最强的开源语言模型,但开发者亲自测试发现,通过不同方式访问时效果差异巨大,Meta高管也承认其表现“参差不齐”“质量不稳定 独特优势:Llama 4拥有超大的上下文窗口,一次能处理1000万个token,大约相当于800万个单词,相比OpenAI的GPT-4的上下文窗口优势明显。 嘀嗒出行公布模型应用于客服的进展应用成果:4月14日,嘀嗒出行公布其AI模型在客服领域的应用进展。基于模型的智能判责准确率已超过80%,智能工单生成效率提升50%,准确率达98%。 小鹏汽车训练物理模型何小鹏表态:4月14日,小鹏汽车创始人何小鹏在社交平台发帖称,小鹏坚持全栈自研,去年率先在自动驾驶领域引入强化学习、模型蒸馏的路线,并且训练了一个超大规模的物理世界模型,国内还没有第二家车企可以做到

    3.5K20编辑于 2025-04-15
  • 来自专栏自然语言处理(NLP)论文速递

    怒超 GPT-4!LONGMEM:提升语言模型(LLMs)长文本处理能力,最高可达64k

    引言  对于长文本处理,大型语言模型(LLMs)仍然存在短板,即使目前最强GPT-4最多也就支持32k个Token。 为了能够提升LLM长文本处理水平,今天大家介绍了一种名为LONGMEM的方法架构,该方法将长文本序列分块并利用存储器进行处理且无需对模型进行重训练,最高可支持64k个Token,有效的提高了模型文本处理能力 ,相比GPT-4多了一倍。 「架构两优点」:首先通过解耦LLM和SideNet,将先前输入的编码过程、记忆检索和融合做成做了分离。 实验结果:  作者评估了所提出的LONGMEM模型在各种长文本语言建模和以上下文为基础的语言理解记忆增强学习方面的有效性,相比其它基线模型都有很大的提高。如下表所示。

    1.7K40编辑于 2023-09-14
领券