首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 你的声音能被复制?F5-TTS 带你体验“声音版 AI 绘图”

    语音克隆(Voice Cloning)和语音转换(Voice Conversion)正掀起一场声音革命。 而在这一切的背后,F5-TTS 成为最具潜力的新星。 它快、轻、还支持精细控制,关键是——它可以模仿任意声音,让任何文字都能“发出你指定的声音”。 什么是 F5-TTS? F5-TTS 是一种最新的语音合成系统,支持从文本直接合成语音,同时能模仿任意目标声音。 将文本转为声音(Voice Cloning) 这是一个基础的功能,F5-TTS可以实现直接将文本快速转为声音 ✅ 2. 任意声音模仿(Voice Cloning) F5-TTS 支持输入任意参考语音(哪怕只有几秒),快速提取声纹并完成语音合成: 比如只提供一段你朋友说话的音频,AI 就能学会模仿他说话的语调和音色。

    1.7K10编辑于 2025-05-31
  • 来自专栏HelloGitHub

    5 秒克隆声音「GitHub 热点速览 v.21.34」

    作者:HelloGitHub-小鱼干 本周特推的 2 个项目都很好用,Realtime-Voice-Clone-Chinese 能让你无需开启变声音,即可获得一个特定声音的语音。 这个声音可以是你朋友的,也可以是你网上下载的任意音频。而 image-to-latex 则让你能快速地得到一个 Latex 代码,即便你不了解 Latex,上传一张公式截图即可。 AI 拟声:Realtime-Voice-Clone-Chinese 本周 star 增长数:1,950+ New Realtime-Voice-Clone-Chinese 是一个 AI 拟声工具,5 秒内克隆特定声音并生成任意语音内容。 和之前的送书活动类似,留言点赞 Top5 的小伙伴(棒),小鱼干会努力去找 Repo 的^^ 以上为 2021 年第 34 个工作周的 GitHub Trending 如果你 Pick 其他好玩、实用的

    2.9K30发布于 2021-09-09
  • 来自专栏杂谈

    UE5 猎户座漂浮小岛 04 声音 材质

    1.声音 1.1 导入 wav格式 1.2 循环播放 1.3 mp3转wav https://app.xunjieshipin.com/mp3-to-wav/ 1.4 新手包素材(火焰 ) particle

    16610编辑于 2024-10-12
  • 来自专栏腾讯技术工程官方号的专栏

    「递归」第三季Ep5: 当声音成为桥梁

    面对质疑,他们用行动摘掉了客服“二筒”的标签;践行服务,他们用声音架起了用户与公司之间的桥梁;关于他们,我们只闻其声,却没有看见过他们。这一次,换我们聆听他们的声音

    45530编辑于 2023-04-01
  • 来自专栏小陈运维

    Python 人工智能 5秒钟偷走你的声音

    Python 人工智能 5秒钟偷走你的声音 介绍 Python 深度学习AI - 声音克隆、声音模仿,是一个三阶段的深度学习框架,允许从几秒钟的音频中创建语音的数字表示,并用它来调节文本到语音模型,该模型经过培训 ,可以概括到新的声音

    59840发布于 2021-11-12
  • 来自专栏小陈运维

    Python 人工智能 5秒钟偷走你的声音

    介绍 Python 深度学习AI - 声音克隆、声音模仿,是一个三阶段的深度学习框架,允许从几秒钟的音频中创建语音的数字表示,并用它来调节文本到语音模型,该模型经过培训,可以概括到新的声音。 individual FFmpeg : https://github.com/BtbN/FFmpeg-Builds/releases 模型文件: https://pan.baidu.com/s/1PI-hM3sn5wbeChRryX-RCQ

    77720编辑于 2022-08-19
  • 【教程】免费 AIGCPanel➕CosyVoice 声音合成和声音克隆

    AIGCPanel和CosyVoice介绍AIGCPanel是一个功能强大的开源数字人软件,提供直观的用户界面,让用户能够轻松管理和使用各种声音AI模型和视频AI模型。 进入 AIGCPanel 的模型,点击右上角选择导入模型导入完成后,点击启动,等待模型启动完成声音克隆进入我的音色界面,上传被克隆的声音,注意声音保留5-10秒即可,太长的声音反而效果不好。 进入声音克隆界面,选择 CosyVoice 模型,选择被克隆的音色,输入克隆文字,点击提交。等待克隆完成,这时候就可以看到声音克隆的结果,直接点击可以播放。 声音合成进入声音合成界面,选择 CosyVoice 模型,选择需要合成音色,输入合成文字,点击提交。等待合成完成,这时候就可以看到声音合成的结果,直接点击可以播放。

    1.1K10编辑于 2025-07-18
  • 来自专栏MixLab科技+设计实验室

    声音,无限可能

    来自论文: Seeing Voices and Hearing Faces: Cross-modal biometric matching 类似于“相由心生”,声音也是和面相有相关性的。 声音和其他模态信息的关联度,或者互动,真的非常有意思~~ @知识库 shadow 知识库 来啦~~ 我们先从声音与健康说起~~ 国际期刊《柳叶刀》有一篇《通过你的声音能诊断疾病吗?》 关键技术是AI识别和处理人类的各种声音模式,包括音高、音调、节奏,呼吸轻缓、咳嗽等。这将极大改善医疗健康的服务模式,但在实践中仍需大量的数据验证。 VoiceWise 准确率高达95% 第一性原理:如果器官生病了,人的声音就会发生改变。 罗马Tor Vergata大学教授Giovanni Saggio开发了VoiceWise,该系统分析用户的声音,通过AI将6300个声音值与某些病理状态的声音值进行比较,从而诊断所患的病理。

    1.9K20发布于 2021-09-18
  • 来自专栏Helloted

    开发之声音

    部分代码位置Github-VoiceDemo Pre 与图片中默认的格式为PNG格式一样,iOS开发中声音的格式也有默认格式,为wav格式,本文中的产生的格式均为wav格式,其他格式则需要转换。 有第三方的框架,进行转换成amr等格式 一、声音录制 要先引入AVFoundation的框架 #import <AVFoundation/AVFoundation.h> self.voiceRecorder ,Path和Setting Path:声音文件录制后存储的路径 Setting:一个录制参数的字典,设置一些录制的必要的参数,需要进行调整到合适的值 _recorderSetting = AVAudioRecorder在录制的时候可以暂停和恢复 暂停 - (void)pause; /* pause recording */ 恢复/开始 - (void)record; 录制完成 - (void)stop; 二、声音播放 注意:如果在播上一段录音,同时再点播放的话,两个声音会一起播放 if (_player) { // 如果正在播放上一段录音,则停止 [_player stop]; }

    1.5K10编辑于 2022-06-07
  • 来自专栏ADAS性能优化

    Real-Time Voice Cloning -5秒钟,clone你的声音!

    mybridge&utm_medium=blog&utm_campaign=read_more demo http://mpvideo.qpic.cn/tjg_3267114286_50000_4d0c5ebb2e114dd89397df3ac9edbc41

    1.1K10编辑于 2022-05-13
  • 来自专栏linux运维

    系统声音问题:系统声音设置错误,影响使用

    测试音频输出播放测试声音,确保音频设备正常工作。# 播放双声道测试声音speaker-test -c 2 -t wav如果没有声音输出,请检查音量设置或音频服务状态。3. 设置默认音频设备pactl set-default-sink <设备名称>例如:pactl set-default-sink alsa_output.pci-0000_00_1b.0.analog-stereo 5. 排查常见问题根据现象排查常见问题:无声音:检查是否选择了正确的输出设备,或是否有其他程序占用音频设备。音量异常:调整音量设置,确保未静音。爆音或杂音:尝试降低音量或更换音频线缆。9.

    1.5K10编辑于 2025-02-09
  • 来自专栏全栈程序员必看

    MacBook 屏幕录制 soundflower 只录内屏声音 无外界声音

    自带的QuickTimePlayer录制屏幕的时候(或者按快捷键⇧+⌘+5),只有三个选项: 1)无声音 2)选外置扬声器。 电脑外放,确实能录到内屏声音,但是扬声器收录的人声、环境音也会录进来 3)插耳机后,可以选择耳机。 这里的“聚集设备”是输入,录屏时候想录入哪些声音,这里就选择相应的设备。“多输出设备”用于在录屏时候的自己想听到哪些声音,二者搭配使用(2ch搭配2ch,64ch搭配64ch)。 选择聚集设备和多输出设备后,不能调音量,要在使用电脑扬声器或者耳机的时候就把音量调好 只录制内屏声音(电脑发出的声音),不录制外屏声音(电脑麦克风或者耳机麦克风的收音),且录制的时候听不见内屏声音(不适用于我 :点小喇叭 选择soundflower(2ch)/soundflower(64ch) 只录制内屏声音,不录制外屏,且录制的时候能听见内屏声音(上网课录屏适用): 录制选择:option ->

    3.6K10编辑于 2022-08-15
  • 来自专栏码上就说

    关于声音采集和声音处理的一些建议

    相机录制的过程除了采集画面,还有采集音频数据的过程,我们今天就主要介绍一下声音采集的过程以及采集的声音是怎么处理的。 声音采集 声音采集是系统提供的接口采集环境声,AudioRecord就是Android平台上提供的采集声音的系统API。 在采集声音之前,需要设置声音的采样率和声道数,通常情况下采样率是44100Hz,声道数是2。 nullptr, 0); if (stream_index_ == AVERROR_STREAM_NOT_FOUND) { /// Error, 不存在音频轨道 return; } /// 5. SL_IID_VOLUME }; SLboolean requiredInterfaces[] = { SL_BOOLEAN_TRUE, SL_BOOLEAN_TRUE, SL_BOOLEAN_TRUE }; /// 5.

    2K20编辑于 2022-05-25
  • 来自专栏全栈程序员必看

    OGEngine教程:声音载入

    以下介绍声音资源从载入到播放的一个流程 首先,我们将须要的音频文件放到assets文件夹下,OGE中SoundRes和MusicRes为我们封装了非常多经常使用的方法,能够用于载入及播放等经常使用功能 载入 //设置声音读取路径 Device.getDevice().getSoundFactory().setAssetBasePath(“mfx/”); SoundRes.loadSoundFromAssets

    1.7K30编辑于 2022-07-13
  • 来自专栏KT148A

    KT148A语音芯片的声音小,如何让喇叭声音变大?声音影响注意点

    客户反馈他们的产品,声音小,提供的信息如下:喇叭参数是8欧姆1W ,包括外壳的出音孔客户声音小是必然的,原因如下:喇叭的尺寸太小了,并且这个选用的喇叭肯定是“薄膜型”的喇叭外壳的发音孔是不对的,太少了这个的声音 ,估计只有手机外放声音的40%左右。 跟KT148A本身的驱动力,是没有任何关系的,哪怕增加功放,声音都大不了,反而容易烧喇叭解决的办法也没有太多,只能从喇叭和腔体两个方面去选择选择稍微尺寸大一点的喇叭,尽可能大一点,尽量选择“纸盆”结构的喇叭外壳的腔体 ,要多的出音孔==》这个我们资料包也有详细的文档描述,路径如下:这里我们多增加一些关于产品的图片示例供您参考一般玩具,声音挺大的,他们选择的喇叭如下:一般外壳的出音孔设计如下:总之:声音的大小是一个系统的工作 ,KT148A本身驱动声音的能力是很大的,达到200mA,通过电流也可以看出来。

    46400编辑于 2025-01-09
  • 来自专栏python3

    python 播放声音

    #import winsound #winsound.Beep(600,1000) import os os.system("paplay 1.wav") python使用pygame播放音乐. 链接地址:https://my.oschina.net/lenglingx/blog/183101 # -*- coding: cp936 -*- import pygame pygame.mixer.init() print("播放音乐1") track = pyga

    1.6K20发布于 2020-01-08
  • 来自专栏达摩兵的技术空间

    聆听心灵的声音

    有些外向,声音好听,见多识广,会说话,善于微笑的人。有些特质确实是我们羡慕不来的,比如有些人就是方向感好,有些人就是数学超好,有的人英语很流利没有中国口音等。

    1.2K20发布于 2018-08-28
  • 来自专栏疯狂学习GIS

    让电脑播放手机的声音:不影响电脑自身声音

      本文介绍在Windows系统的电脑中,基于免费的Bluetooth Audio Receiver软件,实现用电脑播放手机声音,且与电脑自身声音不冲突同时播放的方法。    最近,需要将手机的声音投放至电脑播放,且希望电脑与手机的声音可以实现不冲突的同时播放——即二者不会出现“一个播放,另一个就要被自动暂停”的此消彼长的情况。 现在用手机开启音乐、视频等声音,就可以由电脑来播放啦;同时电脑还可以播放别的声音,做到二者互不冲突。如果出现声音比较小的情况,可以调整手机音量或电脑音量。

    5.6K10编辑于 2024-08-05
  • 来自专栏CreateAMind

    声音图片 多感知论文

    In this work, we show that a model trained to predict held-out sound from video frames learns a visual representation that conveys semantically meaningful information. We formulate our sound-prediction task as a classification problem, in which we train a convolutional neural network (CNN) to predict a statistical summary of the sound that occurred at the time a video frame was recorded.

    76220发布于 2018-08-20
  • 来自专栏Fdu弟中弟

    HTML人工合成声音

    问答系统中可以使用的人工合成声音。 <!

    1.1K20发布于 2021-02-24
领券