首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏muller的测试分享

    文生视频模型

    简介Sora 官网地址:https://openai.com/sora文生视频指的是将文本描述转化为视频内容的技术,2024年2月15日 OpenAI 正式对外发布 Sora 人工智能模型,在人工智能领域掀起了一场风波 OpenAI 也在报告中将 Sora 定义为 “word simulators” 即世界模型或者世界模拟器,可见 OpenAI 对于 sora 的能力具备足够的信心。注意:个人暂时无法体验。 Sora 的能力Sora 是一种扩散模型,旨在对语言更深入的理解,使得模型能够准确的识别出文本的含义,OpenAI 官方表明 Sora 能够生成1分钟的高清视频,并且给出了一个视频生成的示例,该示例展示出了 Sora 除了根据文本生成视频,还可有以下几种生成视频的方式:图像生成视频:图像视频扩展生成的视频视频1视频2改变视频风格:改变前改变后连接视频视频1视频2连接后扩展能力3D 一致性Sora 还可以在单个生成的视频中创建多个镜头 ,准确地保留视频主体和视频的风格,使得视频主体可以跟随环境的变化而一同变化。

    62710编辑于 2024-11-11
  • 来自专栏机器学习与统计学

    开源,免费,模型图文教程、视频课程

    大家好,我是 Ai 学习的老章 模型还是要学啊,太深了,学无止境 老章长期大量网上冲浪,推荐几个图文教程/视频课程 1 是优质,2 是免费 别看到英文就露怯,沉浸式翻译插件一键就 OK 了 LLM Inference Handbook[1] 《语言模型推理手册》是一本集技术术语表、指南和参考资料于一身的手册,全面涵盖语言模型推理相关知识。 这门由华盛顿大学助理教授、NexusFlow 联合创始人朱邦华讲授的“语言模型(LLM)的后期训练”短期课程,旨在教授学员如何对语言模型进行后期训练与定制。 Build a Large Language Model (From Scratch)[6] 该仓库是《从零构建语言模型》一书的官方代码库,包含开发、预训练和微调类似 GPT 的语言模型的代码。 书中通过逐步编写代码,由内而外深入讲解语言模型的工作原理,指导读者创建自己的语言模型,并以清晰的文字、图表和示例阐释每个阶段。

    35910编辑于 2025-07-18
  • 来自专栏漫漫架构路

    使用智谱AI模型翻译视频字幕

    不久前,国内的头部模型厂商智谱 AI ,刚刚推出了 glm-4-0520 模型,该模型被认为是当前平台最先进的模型,具备 128k 的上下文长度,并且相较于前一代模型,指令遵从能力大幅提升 18.6% 可以看出,智谱AI对于该模型寄予厚望。 为了验证这个大模型的性能,我们尝试用它来实现【视频字幕翻译】功能。 因此,我们决定利用模型,将视频的字幕翻译成中文,这样就可以快速理解视频的大致内容,大幅提升工作与学习效率。 下面,我们以 B站 上的视频为例,来实现这个功能。 下面,我们就可以利用智谱AI的 glm-4-0520 模型,将原版的英文字幕翻译成中文: # 构造Chain,将原版的英文字幕翻译成中文 llm = ChatZhipuAI(model="glm-4- 还是有的,我们可以利用模型的 Embedding 能力,计算下原版的英文字幕和翻译后的中文字幕在语言上的相似性,如果二者的相似度很高,则大概率可以说明翻译基本复现了原始的内容。

    1.3K10编辑于 2024-09-06
  • 来自专栏贾志刚-OpenCV学堂

    视频 | 教你学会五种典型模型部署

    OpenVINO2025开发包C++/Python SDK全新实现深度学习模型模型部署,其中深度学习模型部署的流程如下: 模型部署工作流支持如下: 其中大模型支持函数主要是基于流水线Pipeline 机制实现,把预处理跟后处理都放在流水线SDK中,有效降低模型的部署门槛与难度,现已支持多种模型类型流水线部署支持。 为了让大家更好的掌握深度学习与模型部署,本人录制了一套最新OpenVINO2025深度学习与模型部署教程。 全面解析OpenVINO-GenAI模块的模型部署能力,实现文本到文本、文本到图像、图像到文本、语音到文本等多种主流模型本地化部署与WEB部署,解析模型的图像语义描述、对象计数、OCR识别、图像生成 006-QWen多模态模型与WEB化部署 模型OCR 模型VQA YOLO11部署 流水线异步加速(无GPU需要) YOLO11 C# 部署实时推理(无GPU) 旋转目标检测

    11110编辑于 2026-04-02
  • 来自专栏FPGA技术江湖

    FPGA 2025最佳论文--加速视频推理模型

    从这篇论文的内容我们也无法看出如果模型的算法有了优化,那这篇论文中提到的方法能否快速适配新的算法,这也是FPGA目前所面临的问题,模型的更新速度比较快,可能FPGA的开发和部署还没有稳定,新的算法就出来了 论文简介 这篇论文聚焦于视频生成模型(VGM)的加速优化,VGM 作为多模态模型的代表,革新了视频内容创作,但因采用 DiT 结构,计算量极大。 在计算特性上,与内存密集型的语言模型(LLM)不同,基于 DiT 结构的 VGM 属于计算密集型。 Latte-1 专注于人类动作视频集训练,是 DiT 在视频生成任务应用的开拓者;Open-Sora 1.2 则是广泛应用的开源模型,能够生成各种宽高比的高分辨率视频。 从实际生成的视频效果来看,FlightVGM 生成的视频质量与原始模型几乎相同,充分证明了其在保证模型准确性的同时,有效提升了计算效率。

    98710编辑于 2025-04-02
  • 来自专栏创作是最好的自我投资

    通用模型VS垂直模型

    在人工智能这个充满无限可能的领域内,通用模型和垂直模型各有千秋。就我个人而言,在二者之间的选择上,并不存在偏向某一方的倾向。我觉得应当依据实际应用场景的具体需求,来挑选最为契合的模型。 通用模型通用模型,乃是旨在应对多种任务与数据类型的庞然物级人工智能模型。 在知识覆盖的广度方面,通用模型无疑具有明显的优势。当我们对于当下所需模型所涉及的精确专业领域的界限感到模糊不清时,选择通用模型无疑是一种明智之举。垂直模型接下来谈谈垂直模型。 然而,由于垂直模型的训练内容聚焦于当前行业,其涉猎的范围更集中,数据针对性更强,所以在提供专业咨询时往往更加精准、细致,这也正是垂直模型的独特价值所在。 因此,对于通用模型或者垂直模型,更倾向于哪一方不取决于个人想法,而是取决于用户需要。

    75901编辑于 2024-12-30
  • 来自专栏小洁叫你mysql

    【AI模型】训练Al模型

    模型超越AI 目前所指的模型,是“大规模深度学习模型”的简称,指具有大量参数和复杂结构的机器学习模型,可以处理大规模的数据和复杂的问题,多应用于自然语言处理、计算机视觉、语音识别等领域。 本文将探讨模型的概念、训练技术和应用领域,以及与模型相关的挑战和未来发展方向。 模型是指具有庞大参数数量的机器学习模型。传统的机器学习模型通常只有几百或几千个参数,而模型则可能拥有数亿或数十亿个参数。 训练模型的挑战 训练模型需要应对一系列挑战,包括: 以下是与模型相关的一些代码示例: 计算资源需求: import tensorflow as tf # 指定使用GPU进行训练 with tf.device 更智能的模型压缩技术:模型压缩和加速技术将继续发展,以减小模型的计算和存储开销。 更好的计算平台支持:为了支持训练和部署模型,计算平台将继续改进,提供更强大的计算资源和工具。

    1.5K30编辑于 2023-10-10
  • 来自专栏技术专家成长之路

    直接生成16秒高清视频 我国自研视频模型Vidu在京发布

    今年初,全球人工智能领域掀起了一场关于文生视频模型Sora的热议,这是一款仅需一段文字指令就能生成逼真视频模型。 最近,我国自主研发的另一款文生视频模型Vidu在2024年中关村论坛年会上首次亮相,这款模型以其“长时长、高一致性、高动态性”的特性引发了广泛关注。 清华大学人工智能研究院副院长、生数科技首席科学家朱军说,目前国内的视频模型生成的视频时长大多为4秒左右,而Vidu则能够一次性生成长达16秒的视频。 此外,Vidu还能生成如熊猫、龙等各种形象,点击下面链接可观看原视频: 据了解,Vidu的技术突破来自于团队在机器学习和多模态模型方面的长期积累。 朱军表示:“作为一款通用视觉模型,我们坚信,Vidu未来能够支持生成更多样化、更长时长的视频内容,探索各种生成任务。其灵活的架构也将兼容更广泛的模态,进一步推动多模态通用能力的边界。”

    39510编辑于 2024-05-06
  • 来自专栏机器之心

    快手用模型重构短视频生态格局

    模型技术,尤其是多模态模型,正迅速成为人工智能领域的新引擎,具备强大的图文音视频理解能力。但在短视频生态这一复杂、高速演化的场景中,如何将这些技术真正落地,仍是一道难解的行业命题。 作为国内领先的短视频社区,快手对利用多模态模型重塑短视频生态做出了尝试,提出了基于多模态模型的短视频平台生态优化和综合用户体验改善方案,并在实际部署中取得了显著的成效。 三、快手致力打造社区短视频理解多模态模型视频平台的内容分发面临两核心挑战:如何从海量内容中精准捕捉用户兴趣,以及如何在信息过载时代构建用户与内容的高效连接。 这意味着,只有能够真正「看懂、听懂、理解」这些视频模型,才能为推荐、搜索、内容生成等核心能力提供有效支撑。 这正是快手推进多模态模型建设的起点。 建立以「视频理解」为核心的多模态模型框架 为此,快手自研的模型能力被系统地分为三个层次: 第一层:多模态基础能力 这一层聚焦于打通视频、图像、文本等多模态输入的表示空间。

    89710编辑于 2025-05-10
  • 来自专栏机器之心

    ByteDance Research视频理解模型「眼镜猴」正式发布

    最近,ByteDance Research 的视频理解模型眼镜猴(Tarsier) 迎来了巨大更新,发布了第二代模型 Tarsier2 及相关技术报告。 研究团队此前发布的 Tarsier-7B/34B 在视频描述领域已经是最强开源模型,仅次于闭源模型 Gemini-1.5-Pro 和 GPT-4o。 预训练 Tarsier2 在 4000 万个互联网视频 - 文本数据上进行预训练。不同于文本模型只需要互联网上的单语语料就可训练,视频理解模型严重依赖高质量的视频 - 文本对齐数据。 这些数据分布广泛,涵盖电影、电视剧、短视频等各种来源,涉及人机交互、自动驾驶等多个领域。值得一提的是,Tarsier2 筛选了一批影视剧解说的视频。 SFT数据样例 DPO:这一阶段,模型在自动化构造的正负样本上进行 DPO 训练。其中,正样来源于模型对原始视频的预测结果;负样本来源于模型对经过预先设计的随机扰动的视频的预测结果。

    68110编辑于 2025-02-03
  • 来自专栏学习

    开源模型与闭源模型

    在人工智能(AI)和机器学习(ML)的快速发展过程中,模型(Large Models)已经成为推动技术进步的重要力量。当前,业界存在两种主要的模型开发模式:开源模型和闭源模型。 一、开源模型 开源模型是指开发者将模型的代码和训练数据公开,使得任何人都可以访问、修改和使用这些资源。 二、闭源模型 闭源模型是指模型的代码和数据不对外公开,通常由商业公司开发和维护。代表性的闭源模型包括OpenAI的GPT-3和Google的BERT。 三、开源模型与闭源模型的对比 1.透明性与可控性: 开源模型的透明性更高,任何人都可以查看和验证其代码和数据,确保模型的行为符合预期。这对于学术研究和技术验证非常重要。 闭源模型通过控制代码和数据的访问,能够更好地保护用户隐私和数据安全,降低被恶意利用的风险。 五、总结 开源模型和闭源模型各有优缺点,适合不同的应用场景和需求。

    1.7K10编辑于 2024-10-09
  • 来自专栏量子位

    北大视频模型新SOTA,搞笑抖音视频AI秒懂笑点|开源

    北大等团队开源视觉语言模型Video-LLaVA,将图像和视频表示对齐到统一的视觉特征空间,在13个图片和视频基准上达到先进的性能。 它将视觉表示统一到语言特征空间中,使得大型语言模型能够同时对图像和视频进行视觉推理能力。 对于模型能力,研究团队做了充分实验。 视频理解能力实验。 如表3所示,Video-LLaVA在4个视频问答数据集上全面超过了Video-ChatGPT,并且涨幅相当可观。 图片理解能力实验。 该研究还与InstructBLIP,Otter,mPLUG-owl 等图片语言模型在图片语言理解任务上进行了比较,结果如表2所示: 为了评估预先对齐视觉输入的效果,研究团队进行了大量的对比实验。 它提供了更好的能力,使得模型能够更有效地处理视频问答任务并展现出更好的性能表现。 同时论文还验证了无论是对于图片还是视频,在联合训练中他们能相互受益。

    40210编辑于 2023-11-22
  • 来自专栏IT从业者张某某

    模型模型的幻觉问题

    参考 模型中的涌现 OpenAI 科学家:幻觉是模型与生俱来的特性,而非缺陷 模型「幻觉」,看这一篇就够了|哈工大华为出品 模型 什么是模型 语言模型(LLM)是基于海量文本数据训练的深度学习模型 模型模型发展如下图 涌现 参考:模型中的涌现 什么是涌现?先从蚂蚁开始说起。蚂蚁是自然界中一种个体非常简单,但是群体能力非常强大的生物。 如何解决模型的「幻觉」问题? 方向一:什么是模型「幻觉」 模型出现幻觉,简而言之就是“胡说八道”。 用文中的话来讲,是指模型生成的内容与现实世界事实或用户输入不一致的现象。 OpenAI 科学家 Andrej Karpathy关于模型幻觉 在 Karpathy 看来: 从某种意义上说,语言模型的全部工作恰恰就是制造幻觉,模型就是「造梦机」。 只有模型助手存在幻觉问题。 方向二:造成大模型「幻觉」的原因 那么致使模型产生幻觉的原因都有哪些?

    1.8K11编辑于 2024-01-04
  • 来自专栏数据派THU

    原创 | 模型扫盲系列——初识模型

    为了提高模型的性能,研究者们不断尝试增加模型的参数数量,从而诞生了模型这一概念。本文将从模型的原理、训练过程、prompt和相关应用介绍等方面进行分析,帮助读者初步了解模型。 为了提高模型的性能,研究者们不断尝试增加模型的参数数量,从而诞生了模型这一概念。本文讨论的模型将以平时指向比较多的语言模型为例来进行相关介绍。 训练三步骤 初步认识了模型长什么样了,接下来一起来看看如何训练出一个模型。 除这些外还包括算法优化、隐私和数据安全以及模型可解释性等方面的研究和应用,每天还有很多大模型的应用正在不断涌现,模型在未来仍然有很大的发展潜力,国内的优秀模型代表例如百度文心模型也正在搭建全系统产业化的模型全景 模型挑战 模型也存在一些现实挑战: 1.数据安全隐患:一方面模型训练需要大量的数据支持,但很多数据涉及到机密以及个人隐私问题,如客户信息、交易数据等。

    21.2K29编辑于 2023-11-22
  • 来自专栏人工智能极简应用

    【AI模型】Transformers模型库(八):模型微调之LoraConfig

    一、引言 这里的Transformers指的是huggingface开发的模型库,为huggingface上数以万计的预训练模型提供预测、训练等服务。 你可以直接使用一个框架训练你的模型然后用另一个加载和推理。 LoRA是一种用于微调大型语言模型的轻量级方法,它通过添加低秩矩阵到预训练模型的权重上来实现适应性调整,从而在不显著增加模型大小的情况下提升特定任务的性能。 task_type: 指定任务类型,如'CAUSAL_LM',以确保LoRA适应正确应用到模型的相应部分。 get_peft_model(model, config) print_trainable_parameters(model) 三、总结 本文简要介绍LoraConfig的配置参数情况,具体的机遇peft对模型进行微调后面单独开一页详细讲解

    95010编辑于 2024-08-13
  • 来自专栏Spring Boot学习之路

    人工智能文生视频模型Sora,颠覆性的革命?

    Sora,OpenAI发布的人工智能文生视频模型(但OpenAI并未单纯将其视为视频模型,而是作为“世界模拟器” ),于2024年2月15日(美国当地时间)正式对外发布 。 Sora继承了DALL-E 3的画质和遵循指令能力,可以根据用户的文本提示创建逼真的视频 ,该模型可以深度模拟真实物理世界 ,能生成具有多个角色、包含特定运动的复杂场景,能理解用户在提示中提出的要求,还了解这些物体在物理世界中的存在方式 Sora的技术原理:它是扩散模型,生成一个视频通过一个静止的噪声开始,然后逐步移除噪声,同时核心架构还是用的Transformer,建立在DALLE3和GPT上通过让模型一次看到许多帧,他们解决了一个具有挑战性的问题 OpenAI的文生视频模型Sora无疑具有巨大的潜力,可以在许多领域带来革命性的变革。首先,Sora可以生成高质量的视频内容,无需人类干预,这将极大地提高视频制作的效率和速度。 总的来说,OpenAI的文生视频模型Sora有望在视频制作、内容创作、教育培训等领域带来革命性的变革,让人们更轻松地创作和学习,推动社会的进步和发展。

    55200编辑于 2025-01-13
  • 来自专栏猫头虎博客专区

    OpenAI Sora视频模型:世界模拟器的新篇章

    OpenAI Sora视频模型:世界模拟器的新篇章 摘要 OpenAI最新发布的Sora视频模型标志着人工智能领域的一突破。本文详细探讨了Sora模型的技术细节、应用潜力与挑战。 正文 Sora模型概览 Sora模型的核心在于它的多功能性。它能生成不同持续时间、分辨率和纵横比的视频,这一点在以往的模型中是不常见的。 缩放转换器在视频生成中的应用 Sora是一个基于扩散模型的变压器,它将输入的噪声补丁转换为原始的“干净”补丁。这种方法在视频模型的扩展上表现出色,生成的视频质量随着训练计算的增加而显著提高。 扩散模型在图像和视频生成中的应用。 表格总结 功能 说明 视频生成 不同分辨率、持续时间和纵横比 图像生成功能 生成高分辨率图像 3D一致性 动态相机运动下的一致性 物理世界模拟 模拟现实世界的动态 总结 Sora视频模型开启了AI在视频生成领域的新篇章

    1K10编辑于 2024-04-07
  • 来自专栏目标检测和深度学习

    深入浅出熟悉OpenAI最新大作Sora文生视频模型

    这里主要介绍一下OpenAI的又一作Sora,之所以不做产品体验,是目前人家还没全量开放,我们就先研究研究人家的开放内容! 与语言模型中的token不同,Sora采用的是“Patches(补片)”来统一不同的视觉数据表现形式。 视频多样化上的一些揭秘 和其他模型相比,Sora能够hold住各种尺寸的视频,包括不同分辨率、时长、宽高比等等。 4.2 未来:OpenAI终于下场,视频生成模型迎来重磅玩家! 随着OpenAI首款文生视频模型Sora推出,去年已经如火如荼展开的文生视频模型大战,今年俨然要通过卷向更强性能,开启落地之年。 Sora可能才是真正的文生视频,此前的文生视频大多只有2秒,仅仅是对象的小幅度移动。 OpenAI继续拉大领先程度,对众多还在进行模型测试打分pk的厂商,构成压力。

    43510编辑于 2024-02-26
  • 来自专栏星哥的AI自留地

    开源MoneyPrinterTurbo 利用AI模型,一键生成高清短视频

    开源MoneyPrinterTurbo利用AI模型,一键生成高清短视频!在短视频内容井喷的当下,想快速产出高质量作品却苦于“文案难写、素材难找、剪辑耗时”? MoneyPrinterTurbo利用AI模型,一键生成高清短视频!一、MoneyPrinterTurbo是什么? 利用AI模型,一键生成高清短视频GenerateshortvideoswithoneclickusingAILLM.只需提供一个视频主题或关键词,就可以全自动生成视频文案、视频素材、视频字幕、视频背景音乐 支持批量视频生成,可以一次生成多个视频,然后选择一个最满意的支持视频片段时长设置,方便调节素材切换频率支持中文和英文视频文案支持多种语音合成,可实时试听效果支持字幕生成,可以调整字体、位置、颜色、大小, 、通义千问、GoogleGemini、Ollama、DeepSeek、文心一言,Pollinations、ModelScope等多种模型接入中国用户建议使用DeepSeek或Moonshot作为模型提供商

    60310编辑于 2026-01-09
  • 来自专栏TSINGSEE青犀视频

    WebRTC语音转文字STTAI语言模型重构EasyDSS视频会议

    EasyDSS平台深度集成AI智能字幕、语音转写与AI会议助手(智能摘要)三核心能力,以技术创新打破传统协作壁垒,重构会议与内容流转的全流程,让高效协作触手可及。 AI智能字幕则将语音转写技术的价值进一步延伸,实现"音视频内容+文字字幕"的同步呈现,打破信息传递的壁垒。在视频会议场景中,智能字幕能够实时同步显示发言内容,提升内容接收效率。

    18710编辑于 2026-03-09
领券