首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏麻文华的专栏

    我们教电脑识别视频字幕

    作者介绍:麻文华,博士毕业于中国科学院自动化研究所模式识别与人工智能专业。主要从事图像识别、目标检测跟踪等理论和应用研究,在领域内重要学术会议、期刊上发表论文4篇,申请相关专利2项。 另一方面,视频中的字幕往往携带了非常精准关键的描述信息,从识别字幕的角度去理解视频内容成为了相对可行的途径。 识别字幕文本通常需要两个步骤:字幕定位、文本识别。 这其中,前三点是字幕外观特征,第四点是时间冗余性的特征。利用这些特征,一种可行的字幕定位方案如下: 图2:基于边缘密度的字幕定位 首先,对于视频帧灰度图像进行边缘检测,得到边缘图。 在字幕识别系统中,我们用了最简单的2-gram模型,将最终的识别正确率又提升了2个百分点。 图6:基于语言模型的结果校正 小结 我们采用上述系统在实际视频样本上进行测试,单字识别准确率达到99%,CPU上单字识别耗时2ms,基本达到实用需求。

    10.1K40发布于 2017-04-06
  • 来自专栏全栈程序员必看

    python-根据语音识别让无字幕视频自动生成字幕,附srt字幕文件

    将长音频根据语句停顿切割得到短音频,使用他们提供的短音频识别服务来识别长音频不是更好吗?粗略计算了下,可以使用的时长为50000分钟,(提供的短音频识别服务次数以及时长远大于长音频)白嫖。 最后根据文字与文字出现的时间很容易就得到了视频的srt字幕 解决 工程路径:https://download.csdn.net/download/lidashent/15453846 注意字幕导出的地址 字幕文件 导入srt字幕文件即可得到效果,如图 播放器推荐暴风影音或者迅雷,文字可以调节变色,大小,位置都比较方便。 原先视频是没有字幕的,经过上述处理得到srt文件就如同看字幕电影一样了。 得到的srt文件如图 ? 接下来就一步一步开始吧,srt文件格式原理是什么,看我另一篇有关视频声音转为字幕的。 有音频片长度过长也不行,影响字幕观看,你不想看视频的时候视频上都是字幕吧?

    6.7K20发布于 2021-05-19
  • 来自专栏韩曙亮的移动开发专栏

    【短视频运营】短视频剪辑 ③ ( 添加字幕 | 智能识别字幕 | 修改字幕 | 字幕预设 | 字幕换行 | 使用字幕作为封面主题 )

    文章目录 一、添加字幕 ( 智能识别字幕 ) 二、修改字幕 ( 字幕预设 | 字幕换行 ) 三、使用字幕作为封面主题 一、添加字幕 ( 智能识别字幕 ) ---- 在 素材 面板中 , 选择 " 文本 " 选项卡 , " 智能字幕 " , 然后选择 " 识别字幕 " , 即可设置字幕 ; 点击开始识别后 , 会将视频中的人声 , 自动转为字幕 ; 如果视频中没有人声 , 会提示 , 该视频没有人声 , 未识别字幕 ; 如果成功识别字幕 , 会显示如下内容 , 在时间轴视频的上方 , 会出现 TI 字幕对应的时间轴 ; 二、修改字幕 ( 字幕预设 | 字幕换行 ) ---- 在 " 时间轴 " 上 , 选择 智能识别字幕 , 可以在右上角的 " 文本 " 面板 , 修改字幕的文字 , 字体 , 样式 , 颜色 , 预设 等属性 ; 选择 预设样式 , 字幕就会变成如下样式 : , 点击默认文本 右下角的 加号 按钮 , 将其添加到轨道中 , 然后拖动该字幕位于视频的位置 ; 右上角的 面板中 , 编辑该字幕内容 , 为字幕选择样式 , 最终在 播放器 中查看该 视频标题 字幕的样式

    3.3K20编辑于 2023-03-30
  • 来自专栏编程直播室

    视频一键识别生成字幕

    前不久我介绍了通过视频生成字幕的技术原理(博客、B站),我现在把这个功能打包成一个易于操作的界面,如下图所属: ? 图片 操作非常的简单,打开程序后,点击上面【打开要识别的视频按钮】,就会弹出下图的打开文件对话框,选择需要生成字幕的视频: ? 图片 稍等片刻,待程序识别并生成完成后就弹出如下保存对话框,填写要保存的字幕文件名就可以了: ? 图片 最后生成类似如下的文件就可以在你的视频编辑软件中进行合并了。 ? 图片 软件下载

    3.1K30发布于 2020-02-25
  • 来自专栏好用工具集合

    这几个免费字幕在线工具你一定喜欢:视频字幕提取,字幕在线翻译,双字幕合并

    之前有写过几个视频生成字幕,并且翻译字幕的教程,但是随着时间的流逝,那些方案也早就过时了。 今天这个教程目前是最完美的,速度也最快。 不用设置API,也不用等待很久语音识别字幕,也不用费各种心思去翻译字幕。双语也不用特别的去找某个播放器去挂载几个字幕文件。 今天会用到一个软件、三个在线工具,分别字幕格式提取,字幕翻译,和字幕合并 视频字幕翻译教程 1.剪映专业版生成字幕 首先我们需要用的的工具是剪映,用来识别生成字幕,但是是单个语言。没有翻译。 生成独立的srt格式的字幕 步骤:先导入视频—文本—智能字幕—开始识别 2.提取剪映字幕 这是不同系统的默认目录,即使你的剪映装到其他盘,草稿字幕也是在这个默认目录里面的 Windows 目录:C:\ 随后如图,点击箭头→,选择srt格式的字幕。 4.合并双语字幕 点击网址:https://www.nandongni.com/zmhb 将源字幕,和翻译的字幕挨个填进去,不用做其它的更改。

    40.5K50编辑于 2021-12-16
  • 来自专栏Mac软件的分享

    Captions for Mac(Fcpx字幕生成工具)

    Video Captions Mac版是一款Fcpx视频字幕生成工具!该应用程序使用先进的Al SpeechRecognition技术将您的Final Cut Pro项目音频转录为可动画化的标题。 只需点击几下,您就可以在视频中添加专业的分级选项,类似于在 YouTube 和 TikTok 视频中看到的字幕。有需要的朋友,欢迎前来下载! Captions for Mac(Fcpx字幕生成工具) 图片Video Captions Mac版功能特色 连接 Final Cut Pro 以接收为您的项目导出的音频- 自动转录支持多种语言的音频- 将生成的文本分成句子或逐字的字幕- 配置标题外观和动画,包括文本大小写、内置、内置、文本颜色、描边颜色和描边宽度- 配置字幕字体名称、字体和字体大小- 生成字幕并在 Final Cut Pro 项目中继续编辑

    1.2K20编辑于 2023-03-05
  • 来自专栏多多神器

    推荐1款视频字幕提取软件,错过就找不到了!

    特别是里面的字幕。很多时候还是想把字幕单独提取出来。这样自己也有文案了。想没用,要行动。下面这款软件就可以提取视频字幕。软件介绍字幕提取工具工具界面非常简单,没有过多的操作项。 工具打开的时候,先会弹出一个黑框,这个黑框不要关。点击设置,可以对语言和识别模式进行设置。导入视频,方向会自动设置,也可以自行设置。点击运行,旁边和黑框都会有进度条显示,这里只需要等待即可,无需操作。 效果如上,工具就介绍到这,更多功能请自行测试。

    2100编辑于 2026-04-21
  • 来自专栏腾讯云智能·AI公有云

    AI最佳实践|用腾讯云录音文件识别让无字幕视频自动生成字幕

    事实上,纯手工添加字幕,也费时费力,面对较大时长与批量化字幕处理的,多少有些苦不堪言,那有没有更智能化的方式呢?接下来,本文将分享一下,如何借助录音文件识别服务给无字幕视频自动生成字幕。 一、分析调研给无字幕视频自动生成字幕,其实就是先对视频文件导出的音频文件进行识别,得到识别文字,再根据识别得到的文字与短句的时间信息处理得到视频srt字幕文件,在视频文件中导入srt字幕文件即可得到效果 实现思路如下:1.借助ffmpeg从视频中提取音频2.调用录音文件识别服务,对音频文件进行识别3.对识别得到的文字与短句的时间信息进行处理得到视频srt字幕文件4.将命名相同的视频文件与srt文件放在同一目录下 = 0:print("error:", ret)2.识别音频文件在这里笔者选择的录音文件识别服务是腾讯云ASR的录音文件识别,通过调研,腾讯云的录音文件识别,可以在调用时直接根据语句之间的停顿智能断句、 (1)原视频文件的名称需与srt文件相同(2)选择打开方式(3)有字幕的视频至此,给无字幕视频生成字幕已经实现,完整工程代码放在附录中,除去修改一些配置,使用起来较为简便,欢迎感兴趣的同学前来使用!

    3.4K121编辑于 2023-04-25
  • 超强转换视频工具、音频工具、图片工具、水印工具字幕工具

    最近在网上找了一些软件,实在不知道怎么分享,必定好多有版权,好多又收费,真心难找,然后不小心看到这个真心强大的工具。 对于推荐这种工具箱类的,一直是搜罗资料最想推荐的,这不有机会就继续推荐。 ▌软件介绍 UniFab Toolkit 你可以理解它是一个AI 影音工具箱,普通人也能用。软件支持转换视频格式、裁剪合并、调速旋转、画面去抖动修复;音频可以转换格式、裁剪合并、调节音量、消除杂音。 UniFab Toolkit 的功能可以看到是按5个类别进行分类的,分类为:视频工具、音频工具、图片工具、水印工具字幕工具工具也可以看到支持的有:转换器、裁剪、倍速、镜像、旋转、裁剪、锐化、去抖动、反交错、合并、提取视频等功能。 通过下面的图片可以看到,分类很明确。 水印和字幕工具 自己制作的视频加点水印还是有必要的,支持文字、图片、时间水印方式添加水印。 工具讲的差不多了,自己去试试吧。

    14010编辑于 2026-04-21
  • 来自专栏翩翩白衣少年

    这款基于 AI 的神器,轻松去除图片视频字幕和水印!

    今天要给大家介绍一款基于AI的图片/视频字幕去除、文本水印去除工具-VSR,无需申请第三方API,本地即可实现。 VSR 项目介绍 VSR,英文全称 Video-subtitle-remover, 它是一款基于 AI 技术的软件,主要用于去除视频中的字幕及水印。 项目:https://github.com/YaoFANGUK/video-subtitle-remover[1] 特色功能 • 无损分辨率去除视频中的字幕,保证生成的文件质量。 本地安装方法: 1.下载Python安装包,建议安装Python环境管理器,官方建议下载安装Miniconda(可直接网络搜索) 2.创建并激活虚机环境 conda create -n videoEnv pip install -r requirements.txt 运行程序 python gui.py 总结 Video-subtitle-remover (VSR) 是一款功能强大、操作简单的AI去字幕去水印工具

    5K10编辑于 2024-04-19
  • 来自专栏曾大稳的博客

    MediaCodec编码pcm2aac

    MediaCodec是Android(api>=16)提供的一个多媒体解编码库,能实现音视频的编解码。 工作原理:其内部有2个队列,一个是输入队列,一个是输出队列。 encoderFormat = MediaFormat.createAudioFormat(MediaFormat.MIMETYPE_AUDIO_AAC, samperate, 2) //录音时间 size/ 采样率*声道数 * bits/8 recordTime += size * 1.0 / (audioSamplerate * 2 = (byte) (((profile - 1) << 6) + (freqIdx << 2) + (chanCfg >> 2)); packet[3] = (byte) (((chanCfg 88200: rate = 1; break; case 64000: rate = 2;

    1.6K20发布于 2018-09-11
  • 来自专栏Mac精品软件

    AI Transcription 1.2 人工智能字幕生成工具

    AI Transcription是一款功能强大、易于使用的语音转文字软件,适用于各种语音转文字的需求场景。它使用先进的人工智能技术,可以快速、准确地将音频或视频文件中的语音内容转换成文字文本,支持多种语言和实时转换,同时还支持批量转换、管理和分享等功能,可以提高工作效率。

    1.9K30编辑于 2023-07-17
  • 来自专栏软件安装

    12个AI实时翻译、生成字幕工具推荐

    ▌简介 现在AI工具真的太卷了!不管是做自媒体、网课老师还是其它什么行业基本都少不了实时翻译、字幕生成、语音转文字这三大刚需功能。今天给大家推荐好用的工具,每个都附官网链接,看完直接抄作业! 自带的AI字幕功能真心可以,如果是录视频中又在播视频可能存在把播的视频中的语音也翻译出来了,导入视频后3秒生成字幕,准确率能到95%以上,连我这种普通话带口音的都能识别。 在微信里搜「腾讯云智聆」小程序,直接把语音发给它,普通话识别率97%,比微信自带的语音转文字准一此。关键是免费!每天能转2小时。 支持20多种语言,日语、韩语识别也很准。免费版每月120分钟,付费版88块/月。缺点是偶尔会漏字,但整体比Zoom自带的字幕强太多! 比如把2小时会议录音丢进去,它可以提炼出「待办事项」「决策结果」「争议点」,连谁负责哪件事都标好了。 支持生成双语字幕,视频导进去自动出中文字幕+英文翻译,能直接调样式。最能生成思维导图。

    2.1K10编辑于 2026-03-26
  • 来自专栏腾讯技术工程官方号的专栏

    ICPR2022多模态字幕识别比赛技术成果开放

    视频字幕和语音识别相关的问题研究,一直广受关注。本竞赛旨在推进多模态字幕识别模型研究,这类模型能够很好地辅助视频创作、视频内容推荐等应用。 赛道一旨在使用含有音频字幕标注的数据,来训练视觉模态的字幕识别系统,赛道二旨在使用含有视觉模态字幕标注的数据,来训练音频字幕识别系统,赛道三旨在融合视觉和音频两个模态的信息来设计字幕识别系统。 参赛队伍可根据每个赛道的特点,设计合适的字幕识别模型。 赛道一:只包含有音频提供的字幕信息,参赛者需设计一个字幕识别的OCR模型。 在数据预处理部分,对于含有字幕标注的训练集,方案通过构建解码图,并应用简单的卷积网络计算语句置信度,得到文本标注信息;对于不含字幕标注的训练集,方案使用微调的wav2vec2.0模型得到文本的语言特征, 对于不同帧的背景干扰导致同一字幕识别结果不同这一问题,融合模块中的过滤模块旨在挑选视觉字幕中OCR识别效果最好的,同时移除识别效果不好的。

    1.5K20编辑于 2022-06-08
  • 来自专栏大数据文摘

    Youtube的智能字幕在儿童频道里GHS“翻车”,corn识别为porn,beach识别为bitch

    然而,在YouTube自动字幕中,却为这个儿童节目识别出了这么一句台词:“strong and rape like Heracles.”(像赫拉克勒斯那样强壮和强暴)。 一项针对儿童视频的YouTube智能字幕的新研究证明,视频中的文字有时会变成非常“成人化”的语言。 儿童频道成为“污言秽语”重灾区 在对24家排名靠前的儿童频道的7000多个视频进行的抽样调查中,40%的视频的字幕包含1300个“污言秽语”词汇。  自动字幕在YouTube Kids上是不可用的,该服务的目标用户是儿童。 但许多家庭使用标准版本的YouTube,在那里可以看到他们。 她说:“我们一直在努力改进自动字幕,减少错误。”Pocket的发言人Alafair Hall说。

    3.3K30编辑于 2022-03-04
  • 来自专栏全栈程序员必看

    字幕制作】生肉资源的字幕问题解决经验分享 入门科普一键机翻在线识别内嵌封装「建议收藏」

    字幕(内嵌字幕) 即内嵌字幕,常见于四处流传的电影资源(mp4/mkv/rmvb格式等); 优点是兼容性较好,适配任何设备,将字幕与视频压制为一个文件后便于传输,缺点是不可修改; 软字幕(CC字幕) 软字母更像外挂字幕字幕的折中,可随时开关,也可进行封装; YouTube、B站等网站兴起的CC字幕即软字幕的一种,支持在线自定义,油管更是支持在线翻译(相信b站不久将来也会更新这一功能); 工具准备 ; 百度“字幕格式转换”即可,如 字幕在线转换工具 注意如ass/vtt这类带特效信息的字幕文件,转换后很可能仍保留着该信息段,需要手动删除(很麻烦); 在线识别 阿里/腾讯/百度/讯飞听见等一站式收费服务 (可白嫖试用期) 第三方字幕生成工具 + 收费识别引擎 一键机翻 本地工具字幕组机翻小助手 在线工具字幕字幕封装 格式工厂:优点操作简单,缺点封装质量一般; MeGUI:优点功能齐全效率高,缺点较难上手 安全保险:下载至本地 + 识别原生字幕 + 机翻工具 如果你需要搬运视频而无法科学上网,那或许只能这样一步步来了。

    4.1K20编辑于 2022-09-18
  • 来自专栏算法工程师的学习日志

    车牌识别2)-搭建车牌识别模型

    上一期分享了模拟生成车牌的方法,今天分享一下搭建要给简单的车牌识别模型,模拟生成车牌的方法参看:车牌识别(1)-车牌数据集生成 生成的车牌如下图 准备数据集,图片放在path下面,同时把图片名称和图片的车牌号对应关系写入到 y_train是长度为7的列表,其中每个都是shape为(n, # )的ndarray,分别对应n张图片的第一个字符,第二个字符....第七个字符 因为车牌是固定长度,所以有个想法,就是既然我们知道识别七次 ,那就可以用七个模型按照顺序识别。 ,识别成功 chars = '' for arg in np.argmax(lic_pred, axis=1): # 取每行中概率值最大的arg,将其转为字符 Lic_pred.append(chars) # 将车牌和识别结果一并存入Lic_pred return Lic_pred

    3.5K30编辑于 2022-07-27
  • 来自专栏ATYUN订阅号

    谷歌幻灯片可以识别并转录口头报告,创建实时字幕

    谷歌正在为其谷歌幻灯片演示程序添加一个新的自动隐藏式字幕功能,该程序可以通过口语创建实时字幕。 该功能从今天开始全球推出,它最初只以美国英语提供。新功能的设计主要是为了帮助那些耳聋或有听力障碍的人。 例如,礼堂可能会很嘈杂,或者主持人可能没有足够好地表达自己的声音,自动隐藏式字幕应该在某种程度上帮助每个人了解主持人的言论。 语音识别 谷歌已经在其各种产品中提供了一系列语音识别功能。例如,谷歌文档可让您使用语音编辑和设置文本格式,同时还可通过其移动键盘应用程序Gboard进行语音输入。 因此,考虑到最近和当前的关注领域,将语音识别与可访问性考虑因素混合起来对Google来说是明显的一步。 这里也值得注意的是,没有人喜欢抄录,这就是我们最近看到大量自动转录服务推出的原因。 微软还在语音到文本服务方面投入巨资,以改进其自己的基于云的工具套件。 新的谷歌幻灯片功能目前仅在台式机或笔记本电脑上提供,并且计划在未来将其扩展到更多语言。

    1.6K20发布于 2018-10-25
  • 来自专栏Spark2.4.0

    永久免费的百度语音转字幕工具

    本文主要内容介绍 永久免费的百度语音转字幕工具Linux SDK 安装 录制视频:徐志摩《再别康桥》 演示将录制的视频分离音频文件 用百度语音工具将音频文件软字幕srt格式文件 最重要的一点是永久免费 sample/asrDemo-srt, 在asrDemo2,一个完整的添加视频文件字幕的程序,请读sample/asrDemo-srt/Readme.md文件后,再进行测试。 devtoolset-2-build devtoolset-2-gdb devtoolset-2-libstdc++-devel devtoolset-2-runtime 如果网速过慢的话,可以手动下载 仅支持普通话 ###识别模型及语言 百度语音提供2识别模型 搜索模型: 效果同百度搜索的语音输入。适合于短语识别。 输入法模型:效果同百度输入法的语音输入。适合于长句识别。 )的耗时; hard_delay :延时,类似response_cost,但是是计算最后一个包的。

    36.3K61发布于 2019-01-21
  • 来自专栏大数据文摘

    快讯 | Facebook开源语音识别工具包wav2letter

    今日凌晨,Facebook AI研究中心宣布开源语音识别工具包wav2letter! 这是一款简单高效的端到端自动语音识别(ASR)系统,wav2letter 实现的是论文 Wav2Letter: an End-to-End ConvNet-based Speech Recognition 当然,目前能识别的只有英文语音哦! 文摘菌摘录了部分公开信内容如下: 我们刚刚开源我们的语音识别工具:wav2letter! wav2letter是在Torch上编写的一个简单的工具包,简化了对端到端语音识别系统的训练,并提供了一个允许快速解码的独立解码器。 它使我们能够复现我们最近的3篇论文(详见参考资料)。

    1.1K60发布于 2018-05-23
领券