首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 开源实时数字---OpenTalking

    最近我们把自己做实时数字过程中的一套工程框架整理了一下,开源出来了,项目叫 OpenTalking。 简单来说,我们希望它能把 LLM、TTS、STT、WebRTC、字幕事件、角色音色、用户打断、前端交互和数字视频驱动模型这些东西串起来,让一个数字真正可以进行实时对话。 比如你刚开始只是想看看实时数字产品的完整流程,那么可以直接用 Mock 模式。 我觉得这也是现在实时数字领域很重要的一个趋势:模型本身当然重要,但系统工程同样重要。 我们把它开源出来,一方面是希望给做数字的开发者一个可以直接上手的工程起点,另一方面也希望和更多对实时数字感兴趣的人一起讨论:数字到底应该怎么从一个演示视频,走向一个真正可用的交互产品。

    31410编辑于 2026-05-21
  • 来自专栏量子位

    人人都能有数字替身:量子动力FACEGOOD发布AI交互实时数字

    转载自量子动力 量子位 编辑 | 公众号 QbitAI 今日,量子动力 FACEGOOD 发布了一款基于AI交互全实时数字,次世代人机交互恐怕越来越近了。 数字技术的出现催生出数字这一崭新的视觉元素。 与真人相比,数字人物作为对人类自身透视的客体,具有其独特的传播优势。要使数字人物更好地被受众所接受,其身上所负载的文化内涵也是不容忽视的。 但随着人工智能等相关技术的不断进步,数字人物技术也得到不断的发展。 数字人物的运动机理与真实人物的生物解剖学是不相符的。他的动作是由骨架驱动的,而不是肌肉组织驱动。 这要求工程师要了解掌握生物解剖学和雕塑艺术等相关知识,并通过平时的大量观察和生活积累,练就了较高的把握能力后,才有可能塑造出一个生动逼真具有生命质感的数字

    67230发布于 2019-04-24
  • 来自专栏MixLab科技+设计实验室

    数字1024

    VRM是一种用于处理 VR 应用程序的人形 3D 化身(3D 模型)数据的文件格式。它基于glTF2.0,任何人都可以自由使用。 所以,开发者们,都应该来研究^_^ 下文将从技术、体验设计、最新趋势,3个角度研究数字数字爱因斯坦 Digital Einstein UNEEQ 数字爱因斯坦是体验式人工智能的一个例子,甚至是下一代人机交互。利用数字实现个性化互动体验,为用户提供有意义、富有情感的互动。 UNEEQ对比了三种互动方式:聊天机器数字、人类 那么,数字如何帮助您提供有价值的个性化体验呢? Alethea概括了几种:作为元宇宙的NPC、实时聊天机器应用、虚拟角色商城等等

    1.1K20发布于 2021-11-08
  • 来自专栏MixLab科技+设计实验室

    数字全集

    请查阅 Mixlab·社群数字讨论合辑 数字·专题分享合辑目录 #01 数字驱动方式 离线式驱动 实时驱动 跨平台数字人形象统一接入工具 #02 数字虚拟偶像制作 虚拟偶像创作与运营指南 # vonage 专业文本转语音工具 # Synthesia 运用TTS + first order motion 的数字视频生成工具 1.2 实时驱动 上述案例多用于“离线式”的数字应用场景 如果需要与数字进行实时的交流沟通,有项目采用的是 ASR+TTS+Audio2face 方案。 2.详尽的用户与数字交流评估系统。 3.多种综合的算法模型保证用户舒适的交流体验。 4.支持数字进行图像消息的理解与回复。 ; 2.多维通道的数字交互体验; 3.情感计算与用户情感度量方法。

    3.9K52编辑于 2022-04-16
  • 来自专栏HyperAI超神经

    在线教程丨刘强东数字首秀交易额破5千万!用GeneFace++ 生成实时说话数字

    近日,京东创始刘强东化身「采销东哥 AI 数字」,在京东家电家居和超市的采销直播间开启了自己的直播首秀。 IDC 曾在《中国 AI 数字市场现状与机会分析 2022 》中表明,预计到 2026 年中国 AI 数字市场规模将达到 102.4 亿元。 其中,GeneFace++ 作为一种通用且稳定的实时音频驱动 3D 说话人脸生成技术,通过改进唇形同步、视频质量和系统效率,首个实现了实时说话的生成。 在训练过程中,涉及音频与面部运动的映射学习、域适应性的迁移学习,以及 landmark 驱动的 3D 人像实时渲染技术学习等,最终使模型具备根据任意音频生成高质量、实时、唇音同步的 3D 说话人脸视频的能力 登录 hyper.ai,在「教程」页面,选择「GeneFace++ 数字 Demo」。点击「在线运行此教程」。 2. 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。 3.

    53610编辑于 2024-04-26
  • 来自专栏高速公路那点事儿

    【AI+交通】3-交通数字产品的探讨

    目前在高速公路行业大家比较熟悉的有河北高速的“简璐璐”,这个数字是2023年百度智能云联合河北高速集团共同孵化的,高速公路行业首个智慧公路AI数字,开启了对话式交互系统改变行业的步伐。 交通数字目前来说,分为两种形态,一种是二维或三维的数字,在平台界面呈现;一种是以机器的形式展现。 二者只是载体不一样,核心还是需要高速公路各个业务系统来支撑。 如何实现呢? 02-如何实现交通数字 交通数字的形象制作目前不是瓶颈,许多大厂都推出了数字人生成平台,其数据交互及处理能力是核心。 那么如何实现? 但是AI智能体为我们快速实现数字提供了可行性。 这里有个概念一直模糊:数字的后端基于AI智能体,那么大模型还需要吗? 大模型更侧重于对大量数据的学习和对各种问题的泛化回答能力。 虚拟数字可与用户进行多模态互动,实时“面对面”交流,并为管理者和参观者提供展示讲解、信息查询和大屏互动等智能服务,支撑沉浸式互动新体验。

    24300编辑于 2025-07-03
  • CANN赋能AIGC“数字”革命:实时视频换脸与表情驱动实战

    这里写目录标题 引言 一、CANN在实时数字应用中的技术价值 二、实时数字系统架构设计 核心模块功能说明: 三、CANN实时数字核心代码实现 3.1 实时视频流处理框架 3.2 CANN优化人脸检测实现 摘要:数字(Digital Human)作为AIGC领域最具商业价值的应用之一,对模型推理的实时性、保真度提出了极高要求。 文章包含完整的模型转换、实时视频流处理代码及性能对比数据,揭秘CANN如何让AIGC数字“活”起来。 cann组织链接 ops-nn仓库链接 一、CANN在实时数字应用中的技术价值 数字技术的核心在于“实时”与“高保真”的平衡。 未来,随着CANN对Transformer架构的进一步优化,实时数字应用将实现更复杂的情感表达和语义交互,为AIGC开启全新的应用场景。

    15910编辑于 2026-05-06
  • 来自专栏DevOps

    AI数字:AI数字制作初探及相关开源简介

    广义上讲可以说是计算机模拟出的具有人的形态的虚拟人都叫做数字,在平常的观感上,数字是整合了人物形象模拟、人物声音克隆、自然语言处理、知识图谱解析等众多世界领先的人工智能技术的可视化数字虚拟人。 它具备人类的外观和行为模式,数字具有人类身体的外观形体结构,表现出来的行为模式是与人类相仿的,数字的影像通常是呈现出某种人类的活动。 下面收集了几个开源的数字项目,整理出来了,大家一起学习,希望对大家有所帮助。 一、SadTalker https://github.com/OpenTalker/SadTalker 它可以通过音频驱动图像,生成真实感的3D人脸动画,使得人物可以“开口说话”。 而想要达到实时互动的效果,比如视频聊天机器,需要生成计算人物表情甚至动作,延迟是少不了,而且现有技术条件下,需要消耗巨大的算力,一般的公司或者个人无法承担。除非有牛X的创新的技术出现。

    1.6K10编辑于 2024-03-29
  • 来自专栏产品笔记

    如何搭建3D虚拟数字自动捏脸系统

    随着数字产品不断的迭代和发展,对于用户来说,属于自己的个性化的数字不可或缺,在数字产品中常见的3D数字个性化设定的方式主要由3种进行捏脸,模板选择方式、自由调整方式、自动捏脸。 第一步:3D基础头模 数字要生成3D捏脸的结果,首先要需要制作一个3D的基础头模。3D基础头模往往是由脸、眼睛、鼻子、睫毛、牙齿、头发等多个部分组合而成。 在数字制作中,美工通过3Dmax或Maya等3D建模工具制作出的头模内在的模型表征都是多边形网格。数字角色的捏脸效果可以通过改变网格结构的组合,顶点位置及贴图等多种方式实现。 第五步:渲染 使用Unity基于数字3D基础头模以及带有用户人脸特征的形状关键点和颜色特征进行个性化3D模型数字人生成。 Unity是一款跨平台的2D和3D游戏引擎,除了可以研发电子游戏外,还可以用于实时三维动画等类型内容的创作。

    1.8K50编辑于 2023-09-09
  • 来自专栏翩翩白衣少年

    Soul 开源实时数字「性能怪兽」!

    数字这个赛道,这两年卷得飞起。 从最初的静态虚拟主播,到后来的 AI 驱动口型同步,再到如今的全实时流式生成,技术迭代的速度让眼花缭乱。但说实话,开源领域真正能落地的方案,一直不多。 为什么? 直接把数字门槛打下来了,是一款个人开发者和小团队也能玩得起的工业级的实时数字模型。 项目介绍 SoulX-FlashHead 是 Soul AI Lab 团队开源的一个实时流式数字人生成框架。 它主打一个核心理念:让工业级实时数字技术真正普惠。 这个项目有多强? ,单卡 4090 可达 10.8 FPS 就是你用一张消费级显卡(家用游戏级PC电脑),就能跑起来一个实时数字服务。 3、高并发支持 Lite 版支持 3 路并发流式推理。 什么概念?一台机器可以同时服务 3 个用户的实时数字交互。这对于想要搭建数字服务的团队来说,意味着更高的资源利用率和更低的运营成本。

    1.1K10编辑于 2026-03-16
  • 来自专栏机器之心

    SIGGRAPH 2025|Large Avatar Model:单图秒级打造超写实3D交互数字,跨平台超实时驱动渲染

    LAM(Large Avatar Model)的提出,旨在通过单张图像实现实时可驱动的 3D 高斯头像生成,突破传统方法对视频数据或复杂后处理的依赖,为轻量化、跨平台的 3D 数字应用提供新思路。 :https://www.modelscope.cn/studios/Damo_XR_Lab/LAM_Large_Avatar_Model 核心亮点: 单图秒级生成超写实 3D 数字 WebGL 跨平台超实时驱动渲染,手机跑满 120FPS 低延迟实时交互对话数字 SDK 已全开源 方法 LAM 的核心目标是:单图输入、一次前向传播生成可驱动的 3D 高斯头像,无需后处理网络,并兼容传统图形渲染管线实现跨平台实时渲染 例如将真人头像转化为油画风格时,模型保留几何结构仅调整颜色与纹理等: 交互对话数字解决方案 以 LAM 为基础,通义实验室构建了完整的智能交互对话数字解决方案,融合通义千问大语言模型、通义语音算法、 即使用开源的代码库,就可以实现输入一张图片,生成超写实 3D 数字,进行实时的对话聊天。

    1.5K10编辑于 2025-06-21
  • 来自专栏RTSP/RTMP直播相关

    基于RTMP的智慧数字|AI数字传输技术方案探讨

    技术背景 随着智慧数字、AI数字的兴起,越来越多的公司着手构建​全息、真实感数字角色等技术合成的数字仿真人虚拟形象,通过“虚拟形象+语音交互(T-T-S、ASR)+自然语言理解(NLU)+深度学习” 一个有“温度”的智慧数字,有多个维度组成,如图像识别、语音识别、语义理解等,本文主要阐述的是如何把这样一个智慧数字,通过编码传输,以更低的延迟和好的体验,呈现给用户。​ ​ 技术实现​ ​本文以Windows平台为例,从技术角度探讨智慧数字实时编码传输。 IntPtr user_data, UInt32 event_id, Int64 param1, Int64 param2, UInt64 param3, event_id, event_log); } 总结 以上是大概的流程,通过采集Unity的音视频数据,编码打包传输,发送到RTMP服务端,客户端直接拉取RTMP流数据,延迟在毫秒级,用户体验良好,在智慧数字等交互场景

    65840编辑于 2022-03-26
  • 来自专栏AI技术应用

    AI数字的测试

    AI数字的测试是一个复杂的过程,需要综合考虑技术、用户体验和安全性等多个方面。以下是基于最新搜索结果的AI数字测试方法、标准和框架。 测试方法功能测试:确保AI数字能够执行其设计的所有功能,如自然语言处理、情感识别、动作生成等。可以通过预定义的测试用例来验证这些功能。性能测试:评估AI数字的响应速度、处理能力和资源消耗。 安全性和隐私测试:检查AI数字是否符合相关的安全和隐私标准,如数据加密、用户认证和访问控制。测试标准自然语言处理的准确性:AI数字需要能够准确理解用户的语言,并提供相关的回答。 情感识别的准确性:如果AI数字需要处理情感信息,需要测试其情感识别的准确性。可以使用情感分析工具来评估其性能。动作和表情的自然度:AI数字的动作和表情需要自然流畅,以增强用户的沉浸感。 NVIDIA ACE平台:NVIDIA的ACE平台提供了一套工具和服务,用于创建和部署交互式数字头像。它结合了语音识别、自然语言理解和实时渲染等关键技术,支持在云原生架构上进行可扩展的部署。

    60410编辑于 2025-03-21
  • 来自专栏宜达数字

    数字内部分享

    数字:其实就是高精度3D人物建模。 窗口 插件 image.png 帮助 图片 散开的菜单栏 工具栏 如何制作自己的数字

    68010编辑于 2022-12-10
  • 来自专栏MixLab科技+设计实验室

    数字DAO - 加入方式

    研究型社交: #以DAO的方式开展数字的共创小组 在发起的时候,想着本活动全靠自驱力,也想看看到底有多少能坚持下来,发现大家的参与度还是很高的。 shadow 当前积分累积情况: ML1033 +3 ML1365 +3 ML1680 +3 ML16 +3 ML1201 +3 ML1525 +3 ML1148 +3 ML360 +3 ML1202 +3 ML1696 +2 ML1291 +1 opus 如果想加入,具体的规则是什么样的? 1 共创主题: 待定 2 创作: 每周六在discord提交一个内容,围绕数字(关联性需50%以上),获得+1积分。 内容形式不限,需要有知识密度,举个例子: 一段结合案例的思考 # 一段代码-实验 形象设计稿 人物设定的思考 实操数字的教程 实操数字的经验 数字人论文解读 # 数字案例解读 数字相关的分享-语音

    62330编辑于 2022-05-25
  • 多端智能虚拟数字

    多端适配能力让虚拟数字的应用边界大幅拓宽,覆盖个人消费、企业服务、公共场景等多个领域。​3. 形象落地依赖计算机视觉与动作捕捉技术:通过 3D 建模构建数字骨骼与外观,借助 AI 动作驱动技术(如基于视频的动作迁移、实时表情捕捉),让数字的肢体动作、面部表情与语音内容同步 —— 例如,ChatGPT 3. 个人消费:个性化的 “智能伙伴”​C 端场景中,虚拟数字正成为用户的 “个性化助手”:教育领域,虚拟外教可根据学生英语水平调整对话难度,实时纠正发音;娱乐领域,虚拟偶像能与粉丝实时互动,甚至根据粉丝建议调整直播内容 3. 成本 “可控性”:平衡技术与投入​ChatGPT 的云端推理、数字3D 渲染等,均需一定的算力成本,尤其多端部署时,端侧适配与维护也会增加投入。

    42010编辑于 2025-10-01
  • 来自专栏数据库与编程

    自制数字播报视频

    本教程带您一下自制属于你自己的数字播报视频,即通过人脸图像和一段语音音频生成照片说话视频。 update-alternatives --install /usr/local/bin/python3 python3 /usr/bin/python3.8 2 ! sudo dpkg --remove --force-remove-reinstreq python3-pip python3-setuptools python3-wheel ! bash scripts/download_models.sh 4、生成数字播报视频 准备照片和音频文件,照片必须要有清楚的头像,音频随便找一段讲话的音频即可: 照片:examples/source_image /face.png 音频文件:examples/driven_audio/jack.mp3 # 此处指定数字图片为face.png 音频文件为 jack.mp3 img = 'examples/source_image

    75010编辑于 2024-01-22
  • 来自专栏云开发

    1个3步轻松搞定“实时聊天室” | 云开发实战

    用云开发来快速开发一个实时在线聊天室。 create-react-app 快速生成的脚手架项目,所以大部分构建和工程化的细节这里就略过不谈了,我们直接来看代码实现,大致上实现了三个功能,括号中是使用的云开发能力: 登录(匿名登录[1]) 实时同步消息 (数据库实时推送[2]) 发送消息(数据库写[3]) 首先是我们的初始化流程,先使用匿名登录[4],然后建立实时数据推送[5]的连接: asyncfunction init() { // 使用匿名登录 refreshToken 的前 6 位作为 uid setUid(auth.hasLoginState().credential.refreshToken.slice(0, 6)); // 建立实时数据推送连接 : https://docs.cloudbase.net/api-reference/web/database.html#shu-ju-ku-shi-shi-tui-song [3]数据库写: https

    2K32发布于 2020-03-31
  • 来自专栏科技云报道

    大模型加持后,数字“更像”了吗?

    面向C端,数字帮助用户生产内容和辅助工作,如:数字练口语、和数字玩游戏等;面向B端,数字是企业的“工具”,应用于金融、影视、电商、直播等行业,提高行业生产和运营效率。 然而,随着大模型的出现,数字的发展似乎正在迎来新的机遇。 大模型赋能数字 对于产业界而言,数字人本身并不新鲜。 除了直播带货,百度智能云曦灵作为国内首个大模型全面重构的数字人平台,还可为企业提供2D真人、3D写实、3D超写实的人像,实现视频制作、数字员工、数字人代言等多种应用。 让数字更像“” 大模型的出现让数字“脱胎换骨”,成为如今最火的创业赛道之一。 对此,也有专家认为,需要进一步提升技术创新能力和用户体验感,在保证数字外在拟人效果的同时,优化用户交互体验,注重实时渲染、光学捕捉、三维重建、智能人机交互等新兴技术与自然语言处理、语音识别、计算机视觉

    44510编辑于 2024-04-18
  • 来自专栏MixLab科技+设计实验室

    自动生成数字?!输入文本即可驱动生成 3D 数字人化身和动画 #AvatarCLIP

    ‍ 知识库 本期推荐 # AvatarCLIP 模型,一个用于 3D 头像生成和动画的文本驱动框架。 AvatarCLIP 该模型可根据文字描述身体形状、外观和动作来生成3D人物和动画,使非专业出身的用户能够自定义3D 化身的形状和纹理 。 我们可以体验,在 colab 中即可生成数字运动模型。 colab 数字人生成渲染结果 项目网站中展示了丰富的人物3D模型加载库,创作者可以运用生成的数字3D模型尝试多种应用可能~ 该项目展示的选择加载的模型库 选择生成模型下载 FBX 格式后即可导入

    3.8K21编辑于 2022-05-25
领券