搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

开源短剧翻译平台的OCR字幕提取技术：从视频帧到SRT的完整链路（2026）
二、OCR字幕提取10步处理链路详解Step 1｜加载视频文件（进度 10%）第一步是文件解析，不是 OCR。分辨率决定了字幕区域的像素坐标范围，编码格式决定了解码策略，总帧数决定了关键帧提取的采样密度。暂不支持 MOV、AVI 等封装格式，聚焦短剧主流 MP4 场景。单集 30 分钟短剧总时长 1800 秒，24fps 下总帧数可达 43200 帧，逐帧 OCR 算力消耗极大，而且完全没有必要——字幕在相邻帧之间几乎不变，一条字幕通常持续 1-4 秒，也就是 24- Step 4｜提取关键帧，执行OCR处理（进度 40%）关键帧提取是整个链路里计算量最集中的环节。部分短剧使用艺术字体或手写体字幕，这类字体和 OCR 模型的训练数据分布差异较大，识别错误率明显上升。语速极快的对话。每条字幕显示时间不足 0.5 秒时，关键帧提取可能遗漏这条字幕。
19710编辑于 2026-04-29
来自专栏好用工具集合
这几个免费字幕在线工具你一定喜欢：视频字幕提取，字幕在线翻译，双字幕合并
今天会用到一个软件、三个在线工具，分别字幕格式提取，字幕翻译，和字幕合并视频字幕翻译教程 1.剪映专业版生成字幕首先我们需要用的的工具是剪映，用来识别生成字幕，但是是单个语言。没有翻译。我们需要把剪映生成子的字幕提取出来。生成独立的srt格式的字幕步骤：先导入视频—文本—智能字幕—开始识别 2.提取剪映字幕这是不同系统的默认目录，即使你的剪映装到其他盘，草稿字幕也是在这个默认目录里面的 Windows 目录：C:\ 随后如图，点击箭头→，选择srt格式的字幕。 4.合并双语字幕点击网址：https://www.nandongni.com/zmhb 将源字幕，和翻译的字幕挨个填进去，不用做其它的更改。按钮选择第二个，点击提交就自动将字幕变成双语字幕了。视频教程也是有的： https://www.bilibili.com/video/BV1vR4y1x7Ap
40.6K50编辑于 2021-12-16
来自专栏用户7627119的专栏
OCR提取图片中的文字
生活和工作中我们也经常需要从图片中提取文字信息，比如从扫描件，截图或照片中提取有用的信息。做OCR的工具也很多，很多这样的网络工具，如 FREE ONLINE OCR SERVICE https://www.onlineocr.net/ Convertio https://convertio.co /zh/ocr/ 也有本地版的，最有名的当属tesseract-ocr https://github.com/tesseract-ocr/tesseract/wiki/Command-Line-Usage 那个这个时候，OCR就派上用处了。 ? 分别用上面提到的三个工具来识别，看效果 ONLINE OCR ? Convertio ? tesseract-ocr ? 我相信OCR在生活中还有很多的应用，比如信件或者包裹拍照，识别邮编之后分拣，手机拍名片自动提取姓名，手机号添加到通讯录，我相信即使在微信里面发图片，敏感信息还是能被后台监测到的，OCR对腾讯来说应该是小菜一碟
22.3K31发布于 2020-08-06
来自专栏CNN
【Python案例】OCR提取图片中的文字
很多软件内置了OCR功能，即图片提取文字功能。有些是免费提供给大家使用，但有些是收费的。不管是免费的还是收费的，终究逃离不了隐私问题。用别人的OCR，总得把图片传到对方的服务器。今天我们使用Python开发一个OCR软件，如下图所示。图片1 安装环境本文基于PaddleOCR搭建本地开发图片提取文字软件，因此需要安装PaddlePaddle环境。 3 开发界面有了以上代码就可以完成OCR功能，但使用起来还不够方便，我们进一步将OCR功能封装成软件，便于交互。 def run_ocr(self, img_path): result = self.ocr.ocr(img_path, cls=True) self.text.clear( for txt in txts: self.text.insertPlainText(txt + "\n") self.loading.hide()4
13.9K30编辑于 2022-06-20
来自专栏前端进阶学习交流
使用Python正则表达式提取字幕
这里【月神】其实在上图中已经给了一个思路了，后来【瑜亮老师】也给了一个思路，如下图所示：后来粉丝自己也在其他群得到了一个解答，如下图所示：代码，如下所示：序号列表 = [x for x in 字幕文件 ='\n'] 后来【瑜亮老师】提出一个疑问，明明是要字幕中的文字，为啥提出来的需求是取数字？粉丝自己也说了自己的理由。 4 00:00:06,400 --> 00:00:09,216 你往里再坐一点。？？ 5 00:00:09,984 --> 00:00:10,496 好。 4 00:00:06,400 --> 00:00:09,216 你往里再坐一点。？？ 5 00:00:09,984 --> 00:00:10,496 好。
1.3K10编辑于 2022-08-17
来自专栏程序小小事
望言OCR视频字幕提取2025终极评测：免费版VS专业版提全方位对比(含免费下载)
一、产品定位：AI时代的视频字幕处理专家望言OCR作为专业的视频硬字幕提取工具，在AI视频处理领域占据重要地位。文末最后免费版本，建议立即收藏）专业版：适合企业级批量处理（提供Boost加速等高级功能）二、功能深度对比：免费版VS专业版2.1 功能对比表功能免费版专业版处理速度10倍速48.8倍速批量处理✓✓字幕编辑：视频内容转文字稿企业会议：录制会议转录影视制作：字幕翻译辅助5.2 四步工作流拖入视频文件（支持MP4/MOV/AVI）自动分析字幕区域一键提取字幕内容导出所需格式（SRT/TXT等）六、下载指南开源版已停更导出来的字幕效果非常好，一点不比收费的差。链接：https://pan.xunlei.com/s/VOWA3izVggtTKbKGLTidyPuHA1? 关注【程序视点】，回复ocr，获取免费下载地址！最后【程序视点】一直在助力提供更优秀、更高效的工具。关注【程序视点】，回复ocr，免费下载！后续小二哥会继续详细分享更多实用的工具和功能。
2.3K11编辑于 2025-07-27
来自专栏程序员小助手
短视频字幕提取合成超简单，掌握ffmpeg这个小技巧
但有些时候不是太方便，如果视频能有一个字幕就好了。 ? 好消息是，字幕制作的软件很专业很好用，而且上手超级简单。坏消息是，如何把字幕合成到视频音频文件内？或者把字幕文件从视频文件提取出来，都需要不少工具！我们今天讲解使用 ffmpeg 解决大家的这个痛点。学习时间 1 - 软编码 MP4支持流式文本格式的字幕，但是在播放器和设备中，回放功能的支持并不统一。 =input.mkv:si=4[v]" -map "[v]" -map 0:a:0 -c:a copy output.mp4 如果有字幕组，专门给音视频文件配上字幕。找一段高清完备的音视频，尝试着从中提取或合成新的文件，实践起来吧。
4.3K20发布于 2020-06-04
来自专栏细嗅蔷薇
提取哔哩哔哩(B站)视频中的字幕文件
哔哩哔哩有些视频是通过外挂字幕文件来实现字幕的，但是当我们把这些视频下载下来之后，发现并没有字幕，是因为只下载了视频，或者视频软件没有识别到B站外挂字幕文件。 ? 这时候我们可以用哔哩哔哩UWP版把视频下载下来之后，提取其中的外挂字幕文件即可。然后打开sub文件夹（字幕文件夹）里面的zh-cn.sub即是字幕文件 ? 注：srt格式文件名应该与所对应视频文件名一样，即“96370545_1_0.srt”与“96370545_1_0.mp4” 这样用potplayer之类的视频软件就可以播放了。 ? 参考：如何编写srt或txt格式字幕用记事本写srt视频字幕文件版权所有：可定博客 © WNAG.COM.CN 本文标题：《提取哔哩哔哩(B站)视频中的字幕文件》本文链接：https://wnag.com.cn
28.5K20发布于 2020-04-20
来自专栏鸿蒙开发笔记
OpenHarmony集成OCR三方库实现文字提取
简介Tesseract(Apache 2.0 License)是一个可以进行图像OCR识别的C++库，可以跨平台运行。效果展示动物图片识别文字身份信息识别提取文字信息到本地文件3. 目录结构4. >args0 = string(imagePath); napi_create_reference(env, args[1], 1, &addonData->callback); //4. 动物图片文字识别build() { Column() { Row() { Text('点击图片进行文字提取提取结果：').fontSize('30fp').fontColor ，将提取出的文字显示在标题栏。
93720编辑于 2025-04-24
来自专栏Python小屋
Python视频处理案例三则：剪辑与拼接、提取音频、添加字幕
应用1、提取视频文件中的音频 ? 在命令提示符环境中执行该程序（后面两段程序也在命令提示符环境中执行）： ? 应用2、删除视频中的音频 ? 应用3、视频剪辑、拼接、添加字幕 ? 添加字幕后的视频效果图： ?
6.4K31发布于 2019-08-27
来自专栏翩翩白衣少年
撸⼀套视频字幕提取⼯具，体验完美！
最近在探索⼤模型应⽤开发时，我尝试将多模态能⼒与OCR技术结合，构建⼀套⾼度⾃动化的【AI视频字幕提取⼯具】。为什么要做字幕提取？说到视频字幕提取，很多⼈第⼀反应是“直接⽤播放器不是有吗？” 点击“开始提取”，⼯具⾃动分帧并调⽤ PaddleOCR API 逐帧识别字幕； 3. 识别结果会按时间顺序⾃动合并、排序，去除重复内容，最终以表格形式在界⾯展示； 4. （字幕提取结果）（提取到的字幕结果）（保存下来的原始JSON数据）应⽤场景拓展除了最常⻅的字幕提取，基于这个⼯具我还发现了很多有趣的应⽤： • ⾃动视频摘要：结合⼤模型，把所有字幕聚合⽣成视频摘要通过本次实践，PaddleOCR 在视频字幕提取场景中展现了其核⼼价值：精准的识别能⼒确保了字幕⽂本的准确提取，⽽完整的坐标和结构化输出则为后续的时序对⻬、位置过滤和可视化展示提供了坚实基础。
55710编辑于 2026-03-16
来自专栏机器学习与统计学
OCR大模型选型指南：DeepSeek、百度、腾讯、智谱谁才是真正的王者？
4. 场景4：视频字幕提取推荐顺序： HunyuanOCR - 92.87%准确率，远超竞品 PaddleOCR-VL-1.5 - 综合能力强其他模型 - 不推荐理由：HunyuanOCR在视频字幕提取上有压倒性优势原生优化，推理速度最快 GLM-OCR：支持vLLM/SGLang/Ollama，部署选项最多 4. HunyuanOCR - 综合得分34/40 最佳选择：多语言、信息提取、视频字幕核心优势：多语言最强 + 信息提取最优 + 轻量级第二梯队（特定场景优秀） DeepSeek-OCR-2 - 综合得分 │ └─ 是 → **GLM-OCR** │ ├─ 需要多语言支持或信息提取？ │ └─ 是 → **HunyuanOCR** │ ├─ 需要视频字幕提取？
2.5K10编辑于 2026-03-02
来自专栏翩翩白衣少年
开源原生端到端 OCR 模型，1B 参数吊打PaddleOCR！
最近 OCR 圈又被腾讯狠狠震了一下。腾讯混元刚把一个全新的原生端到端 OCR 大模型：HunyuanOCR 开源了。 • 全场景功能：单一模型覆盖文字检测和识别、复杂文档解析、卡证票据字段抽取、字幕提取等OCR经典任务，更支持端到端拍照翻译与文档问答。视频字幕提取能够对视频的字幕实现自动化抽取，包括双语字幕。这类能力通常只有商业付费 OCR 才能做到，现在免费开源了。 3、视频字幕提取（直接用）直接支持视频帧自动提取，提取视频字幕。这对视频号、短视频创作者、字幕组来说非常刚需。 4、端到端照片翻译（14 种语言）拍照一键翻译，支持 14 个语种。关键是不是分步翻译，而是端到端理解并生成目标语言文本，跨语言场景辨析更精准。如何使用？
66311编辑于 2026-03-16
来自专栏全栈程序员必看
OCR截图文字识别提取(无需安装)「建议收藏」
本软件无需安装, 适用于Windows 平台，具有截图文字提取，贴图，翻译等功能，可以非常方便地提取出图片，网页中的文本信息。亦可用于图片和PDF中文字的识别提取中。截图文字提取最新版下载地址如下：蓝奏云下载百度网盘下载链接：百度网盘请输入提取码提取码:pajo 官网下载地址及教程：hanxinyumeng.cn 基于paddleOCR 的离线版功能简介：截图提取文字，提取得到的文字会自动复制到粘贴板。 ---- 主要功能演示：截图文字提取功能演示：拖拽文字提取功能演示：贴图功能演示：翻译功能演示：具体使用方法： 1.从下载链接中下载压缩包，解压压缩包。 2. OCR功能需要电脑联网，截取图片后，会自动提取出里面的文字（ps:此时截图已经复制到粘贴板，可以粘贴到word和其他软件中） 4. 随后可以选择复制文本，清除文本框，再次截图等。 5.
11.1K20编辑于 2022-08-10
来自专栏多多神器
推荐1款视频硬字幕提取软件，错过就找不到了！
特别是里面的字幕。很多时候还是想把字幕单独提取出来。这样自己也有文案了。想没用，要行动。下面这款软件就可以提取视频字幕。软件介绍字幕提取工具工具界面非常简单，没有过多的操作项。提取成功会有显示。效果如上，工具就介绍到这，更多功能请自行测试。
5700编辑于 2026-04-21
来自专栏素质云笔记
R+OCR︱借助tesseract包实现图片文本提取功能
从图像中提取文本时，需要提前安装训练数据（地址：https://github.com/tesseract-ocr/tessdata），系统默认为英语训练数据。 cache 可以使用训练数据的缓存版本，默认为TRUE 3.tesseract_download(lang, datapath = NULL, progress = TRUE) #下载训练数据 4. text<-ocr('e:/tess/chi_1.jpg', engine = tesseract("chi_sim")) ? 4. 批量提取图片文本内容 temp<-list.files(pattern='*.jpg') #处理默认路径下jpg格式图片 text<-ocr(temp, engine = tesseract("chi_tra ---- 三．文章小结目前R软件通过tesseract包调用OCR引擎提取图片文本信息，对图片文本格式、噪声、对比度要求比较高，同时在多种语言（简体中文、英文等）混合时，提取准确度比较低，目前可以借助
2.9K10发布于 2019-05-26
来自专栏Michael阿明学习之路
4. 特征提取
许多机器学习问题需要从类别变量、文本、图片中学习，需要从中提取出数字特征 1. 从类别变量中提取特征通常使用 one-hot 编码，产生2进制的编码，会扩展数据，当数据值种类多时，不宜使用 from sklearn.feature_extraction import DictVectorizer ] [4.] [5.]] 'the': 6, 'game': 2} 注意：只会提取长度 >= 2 的单词，添加一个句子，该句子的单词 I，a 没有向量化 corpus.append("I ate a sandwich and 从图像中提取特征 4.1 从像素强度中提取特征将图片的矩阵展平后作为特征向量有缺点，产出的模型对缩放、旋转、平移很敏感，对光照强度变化也很敏感 from sklearn import datasets
1.2K20发布于 2020-07-13
NarratorAI 翻译工作流架构拆解：四大Agent如何协作完成短剧出海翻译
大多数短剧没有独立的字幕文件，字幕是硬烧在视频画面里的。翻译之前，你得先把字幕从视频帧里提取出来，这是OCR的活，翻译接口管不了。第二，文化语义问题。" 二、架构全貌：四Agent流水线在展开每个Agent之前，先看整体数据流：内容输入：导入MP4视频、SRT字幕文件智能Agent1・字幕处理依托OCR识别提取内容，自动生成标准带时间轴SRT原始字幕智能字幕君的处理链路分为10个步骤：加载视频文件（10%）→初始化OCR引擎，加载识别模型（20%）→分析视频帧率和总时长（30%）→提取关键帧，执行OCR处理（40%）→应用文本识别算法（50%）→整合时间码信息 OCR提取的是文字，但SRT格式需要的是"时间码+文字"的组合。字幕君需要把每段文字对应的出现时间和消失时间准确标注出来，这是后续时间轴校准的基础。噪声清理。短剧出海翻译是一个多步骤工程问题，涉及OCR提取、文化适配、语义翻译、时间轴校准、字幕压制五个本质不同的子问题。
12610编辑于 2026-04-29
来自专栏腾讯技术工程官方号的专栏
ICPR2022多模态字幕识别比赛技术成果开放
不同于从单一模态中提取字幕，本次竞赛需同时考虑视觉和音频模态。仅利用单模态信息，视频字幕提取的准确性较差。，因此融合音频和视觉模态对于字幕提取极为重要。参赛队伍可根据每个赛道的特点，设计合适的字幕识别模型。赛道一：只包含有音频提供的字幕信息，参赛者需设计一个字幕识别的OCR模型。字幕提取模块通过对比前后帧的字幕内容、IoU信息、和文本框位置来提取字幕。赛道二：排名及冠军方案下面的表格列出了在赛道二上提交系统的Top5结果。 robindu etal队伍设置的方案中主要包含三个模块：视觉模态的字幕提取器，音频模态的字幕提取器，融合模块将两个模态结果进行融合。其中，前两个模块主要是基于OCR、ASR系统开发的。
1.6K20编辑于 2022-06-08
结合ChatGPT，半天实现个人视频字幕导出为完整的文字稿文件
因此我给出如下的prompt提示语：我现在有一个视频文件，我希望将视频文件中的字幕全部提取出来形成一个文本文件，并通过python语言来实现。 d.对于每一帧视频，将其转换为灰度图像，以便于提取字幕。可以使用OpenCV库来进行图像处理。 e.利用pytesseract库提取灰度图像中的文字。注意，由于视频字幕可能会有不同的颜色、背景等，因此可能需要尝试不同的参数来调整识别的准确率。 f.将提取到的文字写入文本文件。最后，循环执行步骤3-5，将所有视频帧的字幕提取出来并写入文本文件。字幕在视频中的特定区域范围内，你需要预留截图区域坐标给我来补充。截图的时候按这个区域坐标进行截图。 3. 截图需要保存到到当前目录的img子目录下，形成一个个独立的图片文件 4. 大家可以参考下进行变换和降噪处理后的字幕图片效果如下：而这个处理后图片才是传递给OCR接口进行文字识别使用的。整体识别下来看，百度OCR接口的识别准确率也只能是在90%左右。
45710编辑于 2025-06-24

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

开源短剧翻译平台的OCR字幕提取技术：从视频帧到SRT的完整链路（2026）

这几个免费字幕在线工具你一定喜欢：视频字幕提取，字幕在线翻译，双字幕合并

OCR提取图片中的文字

【Python案例】OCR提取图片中的文字

使用Python正则表达式提取字幕

望言OCR视频字幕提取2025终极评测：免费版VS专业版提全方位对比(含免费下载)

短视频字幕提取合成超简单，掌握ffmpeg这个小技巧

提取哔哩哔哩(B站)视频中的字幕文件

OpenHarmony集成OCR三方库实现文字提取

Python视频处理案例三则：剪辑与拼接、提取音频、添加字幕

撸⼀套视频字幕提取⼯具，体验完美！

OCR大模型选型指南：DeepSeek、百度、腾讯、智谱谁才是真正的王者？

开源原生端到端 OCR 模型，1B 参数吊打PaddleOCR！

OCR截图文字识别提取(无需安装)「建议收藏」

推荐1款视频硬字幕提取软件，错过就找不到了！

R+OCR︱借助tesseract包实现图片文本提取功能

4. 特征提取

NarratorAI 翻译工作流架构拆解：四大Agent如何协作完成短剧出海翻译

ICPR2022多模态字幕识别比赛技术成果开放

结合ChatGPT，半天实现个人视频字幕导出为完整的文字稿文件

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐