首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大模型应用

    模型应用:文本转语音实践:Tacotron2预训练模型和SpeechT5模型应用.19

    模型的判断指标不管是简单的工具还是复杂的模型,我们都能通过这三个问题快速判断它的水平,这也是后续理解技术的关键:表述的清晰度:能不能读对,清晰度是最基础的要求:比如“银行(háng)”不能读成“银行( 这个预训练模型组合基于经典的两阶段架构:Tacotron2(声学模型) + WaveRNN(声码器),在 LJ Speech 英文数据集上训练而成。2. 核心组件2.1 Tacotron2 声学模型Tacotron2 是一个序列到序列的神经网络模型,负责将文本转换为声学特征(梅尔频谱图)。 应用实例import torchimport torchaudioimport soundfile as sfdef simple_tts_demo(): print("第一步:检查TTS模型的可行性 SpeechT5 整体架构SpeechT5 采用 “编码器 - 解码器” 的端到端架构,核心目标是实现从文本序列到语音声学特征的直接映射,整体分为三核心组件:文本处理器(SpeechT5Processor

    31032编辑于 2026-02-16
  • 🚀 KaLM-Embedding-V2: 小模型能量!重新定义高效文本嵌入

    然而,一个强大的RAG系统的核心瓶颈,往往在于其检索模块的基石——文本嵌入(Text Embedding)模型 。 KaLM-Embedding-V2,一个通用、紧凑且性能卓越的嵌入模型。 简单来说:KaLM-Embedding-V2 在保持“苗条”身材的同时,其性能表现甚至能与比它 3-26倍的“大块头”模型相媲美! 答案在于四关键创新: 1. 这使得模型在编码文本时能同时“左看右看”,充分理解上下文,生成更精准的表示。 平均池化 (Mean-Pooling):我们采用简单而高效的平均池化层来生成固定长度的向量嵌入,效果显著。 2. 卓越的通用性:无论你的应用是RAG 系统、语义搜索、文本聚类还是分类,KaLM-Embedding-V2都能提供强大的支持。 我们已经开源了模型和代码,快来上手体验吧!

    1.1K21编辑于 2025-06-29
  • 来自专栏媒矿工厂

    LLMZip:使用语言模型实现无损文本压缩

    文章结果显示,利用最新的语言模型进行文本压缩不仅可以提高压缩率,还能更准确地估计语言的熵,为未来文本处理技术的发展提供了新的可能性。 他们的方案仍然没有超过如BSC和ZPAQ等最先进的文本压缩算法。 因此,现在研究使用如LLaMA-7B这样的语言模型是否可以获得更好的压缩结果和更精确的英语熵估计是很自然的。 本文展示了当使用LLaMA-7B语言模型作为预测器时,使用text8数据集的1MB部分估计得出的熵的渐进上界为0.709比特/字符。这个数值与最先进的文本压缩算法之间仍存在一定差距。 这些发现表明,对于需要高效压缩的应用场景,如移动设备和网络通信,采用基于语言模型的压缩方法可能是一个值得探索的方向。同时,这也提示在实际应用中应考虑不同压缩算法对不同文本长度的适应性。 结论 本文的结论指出,利用语言模型(如LLaMA-7B)进行文本压缩能够显著提高压缩效率,并且可以达到比传统文本压缩算法(如BSC、ZPAQ和paq8h)更优的压缩比。

    2.3K10编辑于 2024-05-11
  • 来自专栏圆圆的算法笔记

    利用模型打造文本摘要训练新范式

    这篇文章主要讨论的是生成式文本摘要的方法,如何利用对比学习和模型实现最新的生成式文本摘要训练范式。 2、生成式文本摘要训练方法和问题 生成式文本摘要的训练一般采用极大似估计的方式。 这部分对比学习loss的计算方式如下: 4、模型优化文本摘要 随着GPT等模型的兴起,人们发现用模型生成的摘要甚至比人工生成的质量还要好。 这篇文章提出了3种利用模型生成训练样本的方式。 第一种是直接使用模型生成的摘要,替代人工生成的摘要,相当于直接用下游模型拟合模型的摘要生成能力,训练方式仍然是MLE。 GPTScore是Gptscore: Evaluate as you desire(2023)中提出的一种基于模型评估生成文本质量的方法。

    3.4K50编辑于 2023-08-17
  • 来自专栏Soul Joy Hub

    模型AIGC系列课程 3-2】国产开源模型:ChatGLM

    GLM https://arxiv.org/pdf/2103.10360.pdf GLM是General Language Model的缩写,是一种通用的语言模型预训练框架。 具体来说,GLM通过随机遮盖文本中连续的标记,并训练模型按顺序重新生成这些遮盖的部分。这种自回归的空白填充目标使得GLM能够更好地捕捉上下文中标记之间的依赖关系,并且能够处理可变长度的空白。 这个图示说明了GLM预训练的过程,具体解释如下: a) 原始文本:给定一个原始文本,例如[x1, x2, x3, x4, x5, x6]。 在生成过程中,模型可以根据之前生成的词片段和Part A中的上下文来预测下一个词片段。 d) 自注意力掩码:为了限制模型的注意力范围,

    76020编辑于 2023-08-28
  • 来自专栏大模型成长之路

    模型学习 | BERT 量化实战(2) 】

    BERT 量化实战分析前言:在【模型学习 | 量化实战(1)】-腾讯云开发者社区-腾讯云中基于BERT实现了情感分析系统以及量化的实现,但是量化的结果导致了模型的精确度急剧下降,从90%降到了54%, 未出现截断情况(即分布区域超过量化上下限)、分布近似 scale过大scale的计算如下所示:scale=\frac{max(w)-min(w)}{255} , 个别层的权重有离群值,会导致scale非常, Sensitive Layers:") for r in results[:5]: print(f"{r[0]:40s} | Acc: {r[1]:.4f} | ΔAcc: {r[2] :.4f}") return results 其他分析方法层级 fallback 到 FP32与敏感性分析相关,该方法是将原模型逐层量化,观察精度下降情况误差传播分析对 float32 模型模型 vs INT8 模型输出差异有多大

    78810编辑于 2025-06-27
  • 来自专栏大模型成长之路

    模型学习 | BLIP2原理】

    一、预训练方法这种预训练方法分为了两个阶段 (1)视觉语言特征表示学习阶段 (2)视觉到文本的生成学习阶段 1.1 Q-Former主要作用就是对齐两个不同模态的冻结预训练模型 Q-Former包含了两个 transformer子模块:(1)Image Transformer (特征提取) (2) Text transformer (作为文本编码器和解码器) ; 一组可学习的查询嵌入向量作为 Image Transformer 的输入,这些向量在self-attention layer相互联系以及通过 cross-attention layer与预训练的图像模型特征交互; 除此之外,这组可学习的嵌入向量也与文本 将图像通过图像冻结模型和Image Transformer得到与文本语义最相关、最具信息量的视觉特征。接着通过一个全连接层的线性变换,将大小转换为符合到LLM模型中的输入维度。 作者尝试了两种LLM冻结模型:(1) decoder-based LLMs : query 表征作为 LLM 的输入前缀(prefix) → LLM 自己完成文本生成(2) encoder-decoder-based

    1.1K00编辑于 2025-07-01
  • 卷土重来的模型越狱 - 长文本才是那个罪人

    最近一段时间,模型的"长文本",成了最炙手可热的词。 从20万token的Claude3,到200万字的Kimi。 再到通义千问的1000万字,360的500万字。 但在这一路狂奔之时,Anthropic,也就是造Claude的公司,今天,给长文本,泼了一盘冷水。 一句话总结就是: 直接利用长文本的特性,量大管饱,给模型灌海量的有害问答对,从而实现越狱。 越狱其实跟Prompt有一点像,只不过视角不同,Prompt是人们挖掘模型的潜力而做的提示词工程,是“积极使用者”的视角;而“越狱”则是使用Prompt让模型做出违背开发者意志的行为,是“黑客攻击者 越狱这个词,在去年模型疯狂做安全对齐之后,已经越来越少有人提起了,毕竟,难度真的越来越大。 但是这次,在长文本的军备竞赛之上,越狱这玩意,又卷土重来。 《流浪地球2》的MOSS攻击太空电梯的剧情,在我看来,也并不仅仅只是科幻。 这不仅关乎你、我、他。 更关乎,我们人类的未来。

    26900编辑于 2025-04-14
  • 来自专栏大模型应用

    模型应用:TTA文本驱动音频:MusicGen模型参数调优+音频情绪可视化.23

    一、引言 随着语音模型的普及,不管是TTS还是ASR,都与音频处理有着紧密的联系,AIGC的蓬勃发展,也催生了文本到音频(Text-to-Audio, TTA)的落地场景,音乐生成也走进了我们的实际应用 基于传统的信号合成技术凭借完全可控、轻量化的优势,在场景化音效补充中不可替代;而声乐模型也是雨后勃发,以 MusicGen 为代表的 TTA 模型,则通过海量数据训练实现了文本意图驱动的创意生成。 初始化阶段:下载/加载MusicGen模型缓存→初始化处理器/模型→设置评估模式2. 核心生成:文本提示预处理→Token生成→音频解码→标准化→输出核心音频3. 核心采用MusicGen模型文本描述生成基础音乐,再通过分形噪声合成和数字混响等传统方法增强场景效果,实现了“AI创意生成+人工精细化调整”的协作模式。 TTA模型生成核心音频 print("\n 步骤1: 初始化TTA模型") tta_generator = TTAAudioGenerator()

    43232编辑于 2026-02-20
  • 来自专栏媒矿工厂

    2D 扩散模型 + Nerf,实现文本生成 3D 模型

    目录 摘要 引入:扩散模型 方法 摘要 在数十亿图像-文本对上训练的扩散模型,在文字生成图像的任务上获成功。 在这项工作中,作者通过使用预训练的 2D 文本-图像的扩散模型,实现文本到 3D 合成。他们引入了基于概率密度蒸馏的损失函数,这也允许了2D扩散模型作为先验,用以优化参数图像生成器。 在类似 DeepDream 的过程中使用这种损失函数,作者通过梯度下降优化随机初始化的 3D 模型(NeRF),使其从随机角度的 2D 渲染均能让损失函数值较低。 在该方法中,给定文本生成的 3D 模型可以从任意角度观察,通过任意照明重新点亮,或合成到任何 3D 环境中。 2\right] 其中 w(t) 是一个时变的权重函数。

    3.1K20编辑于 2022-11-07
  • 来自专栏机器之心

    全球最强长文本模型,一次可读35万汉字:Baichuan2-192K上线

    10 月 30 日,百川智能正式发布 Baichuan2-192K 长窗口模型,将语言模型(LLM)上下文窗口的长度一举提升到了 192K token。 换句话说,Baichuan2-192K 可以一次性读完一本《三体 2》,是全球处理上下文窗口长度最长的模型。此外,它也在文本生成质量、上下文理解、问答能力等多个维度的评测中显著领先对手。 能够一次理解超长文本模型,究竟能做哪些事?百川智能进行了一番简单演示。 上传一整部《三体 2:黑暗森林》的 PDF 文件,百川模型统计出来是 30 万字。 从几万字到几十万字,头部创业公司都在抢滩「长窗口」 如果你关注模型文本理解方向的应用,或许会注意到一个现象:一开始,大家用来测评模型能力的文本可能都是一些财报、技术报告,这些文本通常有十几页到几十页不等 结果显示,Baichuan2-192K 同样表现优异,在大部分长文本评测任务中都远超其他模型。 简而言之,处理的内容越长,百川的模型相对性能就越好。 192K 超长上下文,百川是怎么做到的?

    6.7K70编辑于 2023-11-02
  • 来自专栏数据分析与挖掘

    LLM(语言模型)解码时是怎么生成文本的?

    use_cache (bool, optional, defaults to True) - 模型是否应该使用过去最后的键/值注意力(如果适用于模型)来加速解码。 在论文中 ,建议值从3e-4到2e-3不等,取决于模型的大小。 Part2配置基本使用 1使用预训练模型定义的生成参数 我们可以这么使用、保存预训练模型已经定义好的参数: from transformers import AutoTokenizer, AutoModelForCausalLM 草 坪 和 远 处 的  海 。  但是, n-gram 惩罚使用时必须谨慎,如一篇关于 纽约 这个城市的文章就不应使用 2-gram 惩罚,否则,城市名称在整个文本中将只出现一次!

    6.3K30编辑于 2023-04-27
  • 来自专栏大数据文摘

    LLM Accelerator:使用参考文本无损加速语言模型推理

    目前的语言模型大多是自回归模型。自回归是指模型在输出时往往采用逐词输出的方式,即在输出每个词时,模型需要将之前输出的词作为输入。而这种自回归模式通常在输出时制约着并行加速器的充分利用。 在许多应用场景中,模型的输出常常与一些参考文本有很大的相似性,例如在以下三个常见的场景中: 1. 检索增强的生成。 图1:模型的输出与参考文本存在相似性的常见场景 基于以上观察,研究员们以参考文本模型输出的重复性作为突破自回归瓶颈的着力点,希望可以提高并行加速器利用率,加速语言模型推理,进而提出了一种利用输出与参考文本的重复性来实现一步输出多个词的方法 图2:LLM Accelerator 解码算法 具体来说,在每一步解码时,让模型先匹配已有的输出结果与参考文本,如果发现某个参考文本与已有的输出相符,那么模型很可能顺延已有的参考文本继续输出。 研究员们利用算法2得到了贪婪解码时生成目标输出所需的解码步骤,并强制 LLaMA 模型按照得到的解码步骤进行解码。

    73030编辑于 2023-05-22
  • 来自专栏Dance with GenAI

    用阶跃星辰AI模型批量识别图片中的文本

    国内模型公式阶跃星辰推出的Step-1V是一款千亿参数的多模态模型, 该模型在多个领域表现出色,特别是在图像理解、多轮指令跟随、数学能力、逻辑推理和文本创作等方面。 多模态模型文本模型的基础上,增加了多模输入能力,如语音、图像、视频等,并将它们融合在一起,以实现更全面、更准确的理解和推理。 step-1v该模型拥有强大的图像理解能力,暂时只开放文本和图像输入,且仅支持文本生成。上下文长度分别为8k和32k。 中输入提示词: 写一个Python脚本,完成一个OCR的任务,具体步骤如下: 打开文件夹:D:\downloads\世界人工智能大会WAIC2024展商名录 读取里面所有的png图片; 用step-1v-8k模型将图片中的表格内容识别出来 step-1v-8k模型的api_key为:"XXX" step-1v-8k模型的代码示例: # -*- coding: utf8 -*- import base64 import requests

    1.1K10编辑于 2024-07-31
  • 来自专栏人工智能前沿讲习

    【强基固本】模型的四种文本解码策略

    在大型语言模型(LLM)的迷人世界中,模型架构、数据处理和优化常常成为关注的焦点。但解码策略在文本生成中扮演着至关重要的角色,却经常被忽视。 我们将文本“I have a dream”输入到GPT-2模型中,并让它生成接下来的五个词(单词或子词)。 然而,GPT-2并没有完全生成这句话。 接下来我们将深入探讨各种解码策略,包括贪婪搜索、束搜索以及采用顶K采样和核采样的技术。通过这些策略,我们可以更好地理解GPT-2是如何生成文本的。 人们常常误解认为像GPT-2这样的大型语言模型(LLM)直接生成文本。实际上并非如此。相反,LLM会计算对其词汇表中每个可能的词元分配的分数,这些分数称为logits。 为了简化说明,以下是这个过程的详细分解: 首先,分词器(在本例中是字节对编码)将输入文本中的每个词元转换为相应的词元ID。然后,GPT-2使用这些词元ID作为输入,尝试预测下一个最有可能的词元。

    84810编辑于 2024-06-05
  • 来自专栏Soul Joy Hub

    ASR文本纠错模型

    n个中文字符X=(x1,x2,… ,xn)经过embeddings得到的E = (e1,e2,…,en),该embeding是word embeding+position embeding+segment ,而是直接end-to-end,使用Bert的per-trained模型,损失函数由Detection和Correction线性组合,如下: 2. spm=1001.2014.3001.5502 上述模型考虑到了文本错字进行纠错,但在中文ASR的场景下,很多情况是由于中文拼音读音相同或相近导致的识别错误。 FastCorrect 上述模型都是在自编码模型上进行检错与纠错。也就是说,文本的输入输出序列长度是不变的,且输出纠错结果的token位置必须是与输入位置对齐的。 这就使得模型无法很好的纠正文本中多字、少字的错误。

    3.3K20编辑于 2022-11-30
  • 来自专栏开源服务指南

    玩转语言模型文本生成和模型控制的革新之道 | 开源日报 0901

    openjdk/jdk[2] Stars: 16.7k License: GPL-2.0 这个开源项目是 OpenJDK(Java Development Kit)的一部分,旨在为开发者提供 JDK 它允许您以一种简单直观的语法,基于 Handlebars 模板,实现文本生成、提示和逻辑控制的混合,产生清晰和易于理解的输出结构。 此外,Guidance 还提供了模型加速功能,可在处理多个生成或 LLM(大型语言模型)控制流语句时显着提高推理性能,从而提供更快的结果。 支持基于角色的聊天模型(如 ChatGPT )的轻松集成。 与 Hugging Face 模型的轻松集成,包括提供模型加速、边界优化和正则表达式模式引导等功能。 Guidance 的目标是使文本生成和模型控制更加灵活、高效,为开发者和团队提供更多自由度和便利性。它适用于多种用途,包括自然语言生成、文本处理和实时流式处理。

    50420编辑于 2023-09-14
  • 来自专栏啄木鸟软件测试

    多模态模型技术原理与实战(2)

    (2)信息提取能力弱。 (3)并行计算能力差。 (4)领域迁移能力弱。 GPT-1 将模型的训练分为两个阶段: 第一个阶段通过大批量无标签文本数据构建一个初始的生成式语言模型。 二分法:“相似”和“不相似” 特征向量1:起始符[Start]+文本 1[Text1]+分隔符[Delimiter]+文本 2[Text2]+终止符[Extract] 特征向量2:起始符[Start]+ 文本 2[Text2]+分隔符[Delimiter]+文本 1[Text1]+终止符[Extract] 4.Multiple Choice,即多项选择任务 上下文[Context] = 参考文本[Text ·可以起到加速模型收敛的作用。 GPT-3 文本生成、多轮对话、机器翻译方面、智能问答具有优势。 总结 模型被广泛应用有以下几个前提 ·效果好 ·效率高 ·成本可控 目前,模型在这几个方面还不够理想。

    54410编辑于 2024-09-10
  • 来自专栏云原生技术社区

    模型时代已来,Meta发布LLaMA 2

    在人工智能和机器学习领域,语言模型的发展一直是企业关注的焦点。然而,由于硬件成本和资源需求的挑战,许多企业在应用模型时仍然面临着一定的困难。 关于LLaMA 2 Meta LLaMA 是一款由Meta公司开发的开源超大规模语言模型。一直以来,LLaMA 系列模型在AI社区内被誉为最强大的开源模型之一。 相较于之前的版本,LLaMA 2在效果上有了显著提升,甚至可以接近GPT-4的水平。LLaMA 2发布了不同体量的模型,以满足不同的硬件部署成本,为企业提供了更多选择和灵活性。 AML全面支持LLaMA 2推理和微调 灵雀云AML现已全面支持Meta LLaMA 2全系列模型在平台上进行推理和微调,包括70亿参数、130亿参数和700亿参数版本。 相比于直接使用开源模型,企业通过采用AML,可以获得更多优势: ● 一键私有化模型发布 企业可以轻松将训练好的LLaMA 2模型一键发布为私有化API,保护数据安全。

    49910编辑于 2023-08-09
  • 来自专栏人工智能极简应用

    【机器学习】Whisper:开源语音转文本(speech-to-text)模型实战

    一、引言 上一篇对​​​​​​​ChatTTS文本转语音模型原理和实战进行了讲解,第6次拿到了热榜第一。今天,分享其对称功能(语音转文本模型:Whisper。 二、Whisper 模型原理 2.1 模型架构 Whisper是一个典型的transformer Encoder-Decoder结构,针对语音和文本分别进行多任务(Multitask)处理。 ​ 、多语言支持情况、需要现存大小以及推理速度如下 3.3 模型推理 推理函数仅需2行,非常简单,基于pipeline实例化1个模型对象,将要转换的音频文件传至模型对象中即可: def speech2text ,indent=4)) if __name__=="__main__": main() 这里采用argparse处理命令行参数,将mp3音频文件输入后,经过speech2text语音转文本函数处理 首先简要概述了Whisper的模型原理,然后基于transformers的pipeline库2行代码实现了Whisper模型推理,希望可以帮助到大家。码字不易,如果喜欢期待您的关注+3连+投票。

    7.4K20编辑于 2024-08-13
领券