首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大模型应用

    模型应用:文本转语音实践:Tacotron2预训练模型和SpeechT5模型应用.19

    而SpeechT5则是微软推出的统一语音生成模型,它不仅能进行文本到语音的转换,还支持语音克隆、多说话人合成等高级功能,展现了TTS技术的最新进展。 模型的判断指标不管是简单的工具还是复杂的模型,我们都能通过这三个问题快速判断它的水平,这也是后续理解技术的关键:表述的清晰度:能不能读对,清晰度是最基础的要求:比如“银行(háng)”不能读成“银行( 应用实例import torchimport torchaudioimport soundfile as sfdef simple_tts_demo(): print("第一步:检查TTS模型的可行性 与传统的单一功能语音模型不同,SpeechT5 采用了"一套架构,多种应用"的设计哲学,将不同类型的语音和文本数据都映射到同一表示空间进行处理。 SpeechT5 整体架构SpeechT5 采用 “编码器 - 解码器” 的端到端架构,核心目标是实现从文本序列到语音声学特征的直接映射,整体分为三核心组件:文本处理器(SpeechT5Processor

    31032编辑于 2026-02-16
  • 5模型Agent模式

    模型中的5种AI Agent模式在模型中,AI Agent(人工智能代理)模式是一种重要的应用方式,可以从以下几个方面来理解:1. 在模型的背景下,AI Agent 是基于大规模预训练模型(如 GPT 等)构建的智能代理,能够利用模型的语言理解和生成能力来完成复杂的任务。 智能性:它基于模型的强大语言理解能力,能够理解自然语言指令,并生成自然语言响应。这种智能性使其能够处理复杂的语言任务,如对话、写作、翻译等。 工作原理感知与理解:AI Agent 首先通过输入(如用户指令、环境数据等)感知外部信息,然后利用模型的语言理解能力解析这些信息,确定任务目标。 下面介绍5种常见的AI Agent模式:1.

    4.1K10编辑于 2025-05-07
  • 来自专栏媒矿工厂

    LLMZip:使用语言模型实现无损文本压缩

    文章结果显示,利用最新的语言模型进行文本压缩不仅可以提高压缩率,还能更准确地估计语言的熵,为未来文本处理技术的发展提供了新的可能性。 他们的方案仍然没有超过如BSC和ZPAQ等最先进的文本压缩算法。 因此,现在研究使用如LLaMA-7B这样的语言模型是否可以获得更好的压缩结果和更精确的英语熵估计是很自然的。 本文展示了当使用LLaMA-7B语言模型作为预测器时,使用text8数据集的1MB部分估计得出的熵的渐进上界为0.709比特/字符。这个数值与最先进的文本压缩算法之间仍存在一定差距。 这些发现表明,对于需要高效压缩的应用场景,如移动设备和网络通信,采用基于语言模型的压缩方法可能是一个值得探索的方向。同时,这也提示在实际应用中应考虑不同压缩算法对不同文本长度的适应性。 结论 本文的结论指出,利用语言模型(如LLaMA-7B)进行文本压缩能够显著提高压缩效率,并且可以达到比传统文本压缩算法(如BSC、ZPAQ和paq8h)更优的压缩比。

    2.3K10编辑于 2024-05-11
  • 来自专栏圆圆的算法笔记

    利用模型打造文本摘要训练新范式

    这篇文章主要讨论的是生成式文本摘要的方法,如何利用对比学习和模型实现最新的生成式文本摘要训练范式。 这部分对比学习loss的计算方式如下: 4、模型优化文本摘要 随着GPT等模型的兴起,人们发现用模型生成的摘要甚至比人工生成的质量还要好。 这篇文章提出了3种利用模型生成训练样本的方式。 第一种是直接使用模型生成的摘要,替代人工生成的摘要,相当于直接用下游模型拟合模型的摘要生成能力,训练方式仍然是MLE。 GPTScore是Gptscore: Evaluate as you desire(2023)中提出的一种基于模型评估生成文本质量的方法。 5、总结 模型在摘要生成上的能力得到越来越广泛的认可,因此利用模型作为摘要模型拟合目标的生成器,取代人工标注结果,将成为未来的发展趋势。

    3.4K50编辑于 2023-08-17
  • 来自专栏啄木鸟软件测试

    模型测试:性能优化的5实战策略

    引言 随着ChatGLM、Qwen、DeepSeek及Llama系列语言模型在金融、政务、医疗等关键场景加速落地,模型测试已远超传统‘功能是否正确’的范畴——性能成为决定能否上线的核心瓶颈。 这些并非个例,而是模型测试进入深水区的典型信号:性能不是附加项,而是可信AI的第一道防线。 一、明确性能基线:拒绝‘拍脑袋’指标 模型性能测试首要误区是套用小模型标准。 二、分层注入式压测:从单卡到集群的穿透验证 传统压力测试常止步于API层,而模型性能瓶颈常藏于框架底层。 推荐采用‘四层注入法’: 1)API层:模拟真实用户请求分布(如80%短提示+15%中长提示+5%对抗性长上下文),避免均匀负载失真; 2)Engine层:直连vLLM/Triton推理引擎,注入不同 结语 模型性能测试的本质,是构建‘可测量、可归因、可演进’的效能反馈闭环。

    19110编辑于 2026-03-31
  • 模型微调】一文掌握5模型微调的方法

    (Prompt Tuning)在内的5种主流方法。 我们可以将模型的诞生与成长简化为两个关键阶段:阶段一:预训练 - 赋予模型“通识智慧”此阶段如同为模型进行一次“通识教育”,它通过在浩瀚无垠的互联网文本上进行自监督学习,从而掌握语言的语法结构、基本常识与逻辑推理能力 模型微调究竟是什么?直观上,模型微调即是指通过输入特定领域或任务的数据,并有选择性地调整模型参数的技术过程。 我们所讨论的5种微调方法,本质上都是对这个基础架构中自注意力机制与前馈神经网络等核心组件的参数进行优化的不同策略。 5、提示调整-轻量级的参数优化提示调整(Prompt Tuning)是一种“润物细无声”的微调,不改变模型自身,而是通过优化输入提示词的嵌入表示来引导模型输出。

    3.5K40编辑于 2025-10-23
  • 来自专栏张俊红

    5 常用机器学习模型类型总结

    本文介绍了 5 常用机器学习模型类型:集合学习算法,解释型算法,聚类算法,降维算法,相似性算法,并简要介绍了每种类型中最广泛使用的算法模型。我们希望本文可以做到以下三点: 1、应用性。 因此,与其创建模型来预测响应变量的值,不如创建解释性模型来帮助我们理解模型中变量之间的关系。 Explaining the Predictions of Any Classifier》中介绍的局部可解释性模型算法。该算法主要用于文本类与图像类的模型中。 相似性算法是指那些计算记录/节点/数据点/文本对的相似性的算法。所以相似性算法包含许多种类,例如有比较两个数据点之间距离的相似性算法,如欧氏距离;也有计算文本相似性的相似性算法,如列文斯坦算法。 参考链接: https://towardsdatascience.com/all-machine-learning-algorithms-you-should-know-in-2022-db5b4ccdf32f

    3.5K20编辑于 2022-03-29
  • 卷土重来的模型越狱 - 长文本才是那个罪人

    最近一段时间,模型的"长文本",成了最炙手可热的词。 从20万token的Claude3,到200万字的Kimi。 再到通义千问的1000万字,360的500万字。 但在这一路狂奔之时,Anthropic,也就是造Claude的公司,今天,给长文本,泼了一盘冷水。 一句话总结就是: 直接利用长文本的特性,量大管饱,给模型灌海量的有害问答对,从而实现越狱。 越狱其实跟Prompt有一点像,只不过视角不同,Prompt是人们挖掘模型的潜力而做的提示词工程,是“积极使用者”的视角;而“越狱”则是使用Prompt让模型做出违背开发者意志的行为,是“黑客攻击者 越狱这个词,在去年模型疯狂做安全对齐之后,已经越来越少有人提起了,毕竟,难度真的越来越大。 但是这次,在长文本的军备竞赛之上,越狱这玩意,又卷土重来。 4.现在模型能力都一般,造成不了太大的影响,但是得快点解决啊,要不然后面出来了比如GPT5这种天顶星科技,我们大家容易都完犊子啊。 这四条就是Anthropic大概的意思。 这是一场战争。

    26900编辑于 2025-04-14
  • 来自专栏大模型应用

    模型应用:TTA文本驱动音频:MusicGen模型参数调优+音频情绪可视化.23

    一、引言 随着语音模型的普及,不管是TTS还是ASR,都与音频处理有着紧密的联系,AIGC的蓬勃发展,也催生了文本到音频(Text-to-Audio, TTA)的落地场景,音乐生成也走进了我们的实际应用 基于传统的信号合成技术凭借完全可控、轻量化的优势,在场景化音效补充中不可替代;而声乐模型也是雨后勃发,以 MusicGen 为代表的 TTA 模型,则通过海量数据训练实现了文本意图驱动的创意生成。 今天我们围绕声音的本质深度解析音频合成的核心逻辑,深度的理解一套融合MusicGen 模型(创意核心)+ 传统信号合成(场景增强)+ 多维度可视化(效果验证) 的音频生成系统,涵盖模型原理、参数配置、 核心采用MusicGen模型文本描述生成基础音乐,再通过分形噪声合成和数字混响等传统方法增强场景效果,实现了“AI创意生成+人工精细化调整”的协作模式。 TTA模型生成核心音频 print("\n 步骤1: 初始化TTA模型") tta_generator = TTAAudioGenerator()

    43232编辑于 2026-02-20
  • 来自专栏有三AI

    模型解读】历数GAN的5基本结构

    如全卷积的DCGAN模型[1],输入就是1*100的向量,然后经过一个全连接层学习,reshape到4*4*1024的张量,再经过4个上采样的反卷积网络,生成64*64的图。 5.1 级联结构[5] 早期以DCGAN为代表的网络生成的图片分辨率太低,质量不够好,都不超过100×100,在32×32或者64×64左右。 在图像分割中进行上采样时也采用学习小倍率的放大而不是倍率的方法,如利用两个2倍上采样替换一个4倍的上采样,不仅可以增强网络的表达能力,还降低了学习难度。 5.2 并行与循环结构[6] GAN有一应用就是风格化,实现两个域之间的风格互换,以CycleGAN[6]为典型代表。它包含了多个生成器和多个判别器。Cycle的典型结构如下: ? ? Triple Generative Adversarial Nets[J]. neural information processing systems, 2017: 4088-4098. [5] Denton

    1.4K10发布于 2019-07-26
  • 来自专栏啄木鸟软件测试

    多模态模型技术原理及实战(5)

    国内外多模态模型对比 国内 LLaMA-Adapter V2 香港中文大学 双语输出 输入 •图像 •语音 •文本 •视频 • 3D 点云 起源:LLaMA-Adapter •在线性层上进行偏差调整 •预训练的语言模型(LLaMA-7B) 支持输入 •图片 •英文 •视频 基模型: LLaMA 国外 Visual ChatGPT 微软亚洲研究院 2023 年 3 月9 日 在文本和图像之与 多模态模型评测数据集 国内评测数据集 OwlEval •基于mPLUG-Owl模型发布 • 包含 •50 张图片 •82 个回题 •功能 •故事生成 •广告生成 •代码生成 MME •开发 •结构 •265 016张图片 •每张图片至少有 3 个问题(平均 5.4个每个问题) •每个问题 •有 10 个基本事实答案 •有 3 个合理(但可能不正确)的答案 多模态模型的评测标准 国内评测标准 KROCC( Kendall Rank Order Correlation Coefficient,肯德尔秩相关系数) •RMSE( Root Mean Square Error,均方根误差 ) 多模态模型对比

    35810编辑于 2024-09-10
  • 来自专栏数据分析与挖掘

    LLM(语言模型)解码时是怎么生成文本的?

    use_cache (bool, optional, defaults to True) - 模型是否应该使用过去最后的键/值注意力(如果适用于模型)来加速解码。 在论文中 ,建议值从3e-4到2e-3不等,取决于模型的大小。 (5)可在生成时使用的特殊参数 pad_token_id (int, optional) - 填充token的ID。 草 坪 和 远 处 的  海 。  """ Part5补充 13常用的一些参数: no_repeat_ngram_size:限制任意 N-gram 不会出现两次。

    6.3K30编辑于 2023-04-27
  • 来自专栏大数据文摘

    LLM Accelerator:使用参考文本无损加速语言模型推理

    目前的语言模型大多是自回归模型。自回归是指模型在输出时往往采用逐词输出的方式,即在输出每个词时,模型需要将之前输出的词作为输入。而这种自回归模式通常在输出时制约着并行加速器的充分利用。 在许多应用场景中,模型的输出常常与一些参考文本有很大的相似性,例如在以下三个常见的场景中: 1. 检索增强的生成。 图1:模型的输出与参考文本存在相似性的常见场景 基于以上观察,研究员们以参考文本模型输出的重复性作为突破自回归瓶颈的着力点,希望可以提高并行加速器利用率,加速语言模型推理,进而提出了一种利用输出与参考文本的重复性来实现一步输出多个词的方法 在图5中我们可以看出,匹配词数为1能更多地触发拷贝机制,并且随着拷贝长度的增加,每个解码步骤接受的输出词增加,解码步骤减少,从而达到更高的加速比。 图4:消融实验中,在开发集上对 LLM Accelertator 的超参数的分析结果 图5:在开发集上,具有不同匹配词数 n 和拷贝词数 k 的解码步骤统计数据 LLM Accelertator 是微软亚洲研究院自然语言计算组在语言模型加速系列工作的一部分

    73130编辑于 2023-05-22
  • 来自专栏Dance with GenAI

    用阶跃星辰AI模型批量识别图片中的文本

    国内模型公式阶跃星辰推出的Step-1V是一款千亿参数的多模态模型, 该模型在多个领域表现出色,特别是在图像理解、多轮指令跟随、数学能力、逻辑推理和文本创作等方面。 多模态模型文本模型的基础上,增加了多模输入能力,如语音、图像、视频等,并将它们融合在一起,以实现更全面、更准确的理解和推理。 step-1v该模型拥有强大的图像理解能力,暂时只开放文本和图像输入,且仅支持文本生成。上下文长度分别为8k和32k。 中输入提示词: 写一个Python脚本,完成一个OCR的任务,具体步骤如下: 打开文件夹:D:\downloads\世界人工智能大会WAIC2024展商名录 读取里面所有的png图片; 用step-1v-8k模型将图片中的表格内容识别出来 step-1v-8k模型的api_key为:"XXX" step-1v-8k模型的代码示例: # -*- coding: utf8 -*- import base64 import requests

    1.1K10编辑于 2024-07-31
  • 来自专栏人工智能前沿讲习

    【强基固本】模型的四种文本解码策略

    在大型语言模型(LLM)的迷人世界中,模型架构、数据处理和优化常常成为关注的焦点。但解码策略在文本生成中扮演着至关重要的角色,却经常被忽视。 我们将文本“I have a dream”输入到GPT-2模型中,并让它生成接下来的五个词(单词或子词)。 通过这些策略,我们可以更好地理解GPT-2是如何生成文本的。 人们常常误解认为像GPT-2这样的大型语言模型(LLM)直接生成文本。实际上并非如此。 最终,模型生成logits,这些logits通过softmax函数转换为概率。 “I have a dream of being” → 最可能的词元: ”a” 步骤 4: 输入: “I have a dream of being a” → 最可能的词元: ”doctor” 步骤 5:

    84810编辑于 2024-06-05
  • 来自专栏DeepHub IMBA

    5分钟NLP:Text-To-Text Transfer Transformer (T5)统一的文本文本任务模型

    本文将解释如下术语:T5,C4,Unified Text-to-Text Tasks 迁移学习在NLP中的有效性来自对具有自监督任务的丰富无标记的文本数据进行预训练的模型,例如语言建模或填写缺失的单词。 所以论文中开发了一个新的数据集:Colossal Clean Crawled Corpus (C4),这是一个Common Crawl 的“清洁”版本,比维基百科两个数量级。 对文本文本格式进行统一 使用T5,所有NLP任务都可以被转换为统一的文本文本格式,任务的输入和输出始终是文本字符串。 该框架提供了一致的训练目标,用于预训练和微调。 预训练目标:大多数去噪目标训练模型会重建随机损坏的文本,在T5的设置中也是执行类似的操作。因此,建议使用无监督的预训练来增加计算效率,例如填补空白的剥夺目标。 如果你对这个感兴趣,可以自己尝试下下面的工作: 了解T5模型的后续改进,如T5v1.1(具有一些架构调整的T5的改进版),MT5(多语言T5模型)和BYT5(在字节序列上预先培训的T5模型而不是 令牌

    1.9K20编辑于 2022-06-04
  • 来自专栏Soul Joy Hub

    ASR文本纠错模型

    文本纠错任务是一项NLP基础任务,其输入是一个可能含有错误字词的句子,输出是一个正确的中文句子。ASR(语音识别)文本的错误类型很多,有多字、少字、错别字、同音近音字等等。 1. /github.com/shibing624/pycorrector/blob/master/pycorrector/macbert/README.md 本项目是 MacBERT 改变网络结构的中文文本纠错模型 spm=1001.2014.3001.5502 上述模型考虑到了文本错字进行纠错,但在中文ASR的场景下,很多情况是由于中文拼音读音相同或相近导致的识别错误。 FastCorrect 上述模型都是在自编码模型上进行检错与纠错。也就是说,文本的输入输出序列长度是不变的,且输出纠错结果的token位置必须是与输入位置对齐的。 这就使得模型无法很好的纠正文本中多字、少字的错误。

    3.3K20编辑于 2022-11-30
  • 来自专栏开源服务指南

    玩转语言模型文本生成和模型控制的革新之道 | 开源日报 0901

    它允许您以一种简单直观的语法,基于 Handlebars 模板,实现文本生成、提示和逻辑控制的混合,产生清晰和易于理解的输出结构。 此外,Guidance 还提供了模型加速功能,可在处理多个生成或 LLM(大型语言模型)控制流语句时显着提高推理性能,从而提供更快的结果。 支持基于角色的聊天模型(如 ChatGPT )的轻松集成。 与 Hugging Face 模型的轻松集成,包括提供模型加速、边界优化和正则表达式模式引导等功能。 Guidance 的目标是使文本生成和模型控制更加灵活、高效,为开发者和团队提供更多自由度和便利性。它适用于多种用途,包括自然语言生成、文本处理和实时流式处理。 facebookresearch/nougat[5] Stars: 1.2k License: MIT Nougat 是一款强大的学术文档 PDF 解析工具,它的主要功能和特点包括: 解析学术文档 PDF

    50420编辑于 2023-09-14
  • 来自专栏星哥的AI自留地

    OpenAI发布最新模型GPT5、本地部署GPT开源模型

    OpenAI发布最新模型GPT5、本地部署GPT开源模型GPT-5概述北京时间 2025年8月8日 凌晨1点 OPENAI举行了1个小时的线上发布会,正式推出了其史上最聪明、最强大的模型GPT-5 GPT-5是OpenAI发布的最新一代大型语言模型,它基于Transformer架构,经过大规模的文本数据训练,能够生成流畅、自然的语言输出。 GPT-5具备以下几个显著特点:更大的参数规模:GPT-5拥有比GPT-4更多的参数,使其能够处理更为复杂的语言任务。 多模态能力:除了文本输入输出,GPT-5还支持图像、音频等多种数据类型的处理,能够进行跨媒体的内容生成。 最后以上就是全部内容,GPT-5的简介和在本地搭建使用OpenAI的GPT-oss的开源模型。写文不易,如果你都看到了这里,请点个赞和在看,分享给更多的朋友;也别忘了关注星哥玩云!

    1.2K10编辑于 2025-08-27
  • 来自专栏人工智能极简应用

    【机器学习】Whisper:开源语音转文本(speech-to-text)模型实战

    一、引言 上一篇对​​​​​​​ChatTTS文本转语音模型原理和实战进行了讲解,第6次拿到了热榜第一。今天,分享其对称功能(语音转文本模型:Whisper。 二、Whisper 模型原理 2.1 模型架构 Whisper是一个典型的transformer Encoder-Decoder结构,针对语音和文本分别进行多任务(Multitask)处理。 ​ 2.3 文本处理 Whisper文本处理:文本token包含3类:special tokens(标记tokens)、text tokens(文本tokens)、timestamp tokens(时间戳 ),基于标记tokens控制文本的开始和结束,基于timestamp tokens让语音时间与文本对其。 __": main() 这里采用argparse处理命令行参数,将mp3音频文件输入后,经过speech2text语音转文本函数处理,返回对应的文本,结果如下: 3.5 模型部署 如果想将该服务部署成语音识别

    7.4K20编辑于 2024-08-13
领券