搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

开源短剧翻译平台的OCR字幕提取技术：从视频帧到SRT的完整链路（2026）
因此，基于 OCR 的视频帧字幕检测、识别与时间轴对齐，成为短剧出海自动化翻译的核心前置能力，NarratorAI 的字幕君（字幕提取 Agent）把这个过程拆解为 10 个步骤，每一步对应产品界面进度条上的一个阶段二、OCR字幕提取10步处理链路详解Step 1｜加载视频文件（进度 10%）第一步是文件解析，不是 OCR。 Step 3｜分析视频帧率和时长（进度 30%）这一步决定了后续关键帧提取的策略。帧率（fps）是视频每秒包含的图像帧数，常见值是 24fps、25fps、30fps。 Step 4｜提取关键帧，执行OCR处理（进度 40%）关键帧提取是整个链路里计算量最集中的环节。部分短剧使用艺术字体或手写体字幕，这类字体和 OCR 模型的训练数据分布差异较大，识别错误率明显上升。语速极快的对话。每条字幕显示时间不足 0.5 秒时，关键帧提取可能遗漏这条字幕。
19710编辑于 2026-04-29
来自专栏好用工具集合
这几个免费字幕在线工具你一定喜欢：视频字幕提取，字幕在线翻译，双字幕合并
不用设置API，也不用等待很久语音识别成字幕，也不用费各种心思去翻译字幕。双语也不用特别的去找某个播放器去挂载几个字幕文件。今天会用到一个软件、三个在线工具，分别字幕格式提取，字幕翻译，和字幕合并视频字幕翻译教程 1.剪映专业版生成字幕首先我们需要用的的工具是剪映，用来识别生成字幕，但是是单个语言。没有翻译。我们需要把剪映生成子的字幕提取出来。生成独立的srt格式的字幕步骤：先导入视频—文本—智能字幕—开始识别 2.提取剪映字幕这是不同系统的默认目录，即使你的剪映装到其他盘，草稿字幕也是在这个默认目录里面的 Windows 目录：C:\ com.lveditor.draft 打开其中一个找到你的项目，找到draft_content将这个文件，拖到如图这个网址的选择文件，点击生成 https://www.nandongni.com/zimutiqu 3.
40.6K50编辑于 2021-12-16
来自专栏用户7627119的专栏
OCR提取图片中的文字
生活和工作中我们也经常需要从图片中提取文字信息，比如从扫描件，截图或照片中提取有用的信息。 /zh/ocr/ 也有本地版的，最有名的当属tesseract-ocr https://github.com/tesseract-ocr/tesseract/wiki/Command-Line-Usage 那个这个时候，OCR就派上用处了。 ? 分别用上面提到的三个工具来识别，看效果 ONLINE OCR ? Convertio ? tesseract-ocr ? 3.前面我们讲了百度文库免费下载，如果你还是有concern，那么其实也可以先截图再转文字。还是拿“测序名词解释”这篇文档举例，先截个长图 ? ONLINE OCR 整体效果还不错 ? 我相信OCR在生活中还有很多的应用，比如信件或者包裹拍照，识别邮编之后分拣，手机拍名片自动提取姓名，手机号添加到通讯录，我相信即使在微信里面发图片，敏感信息还是能被后台监测到的，OCR对腾讯来说应该是小菜一碟
22.3K31发布于 2020-08-06
来自专栏CNN
【Python案例】OCR提取图片中的文字
很多软件内置了OCR功能，即图片提取文字功能。有些是免费提供给大家使用，但有些是收费的。不管是免费的还是收费的，终究逃离不了隐私问题。用别人的OCR，总得把图片传到对方的服务器。今天我们使用Python开发一个OCR软件，如下图所示。图片1 安装环境本文基于PaddleOCR搭建本地开发图片提取文字软件，因此需要安装PaddlePaddle环境。 =True, lang="ch")ocr.ocr(img_path, cls=True)第2行代码中，use_angle_cls参数用于确定是否使用角度分类模型，即是否识别垂直方向的文字。第3行代码中, img_path表示图片路径，cls表示是否使用角度分类模型。3 开发界面有了以上代码就可以完成OCR功能，但使用起来还不够方便，我们进一步将OCR功能封装成软件，便于交互。 def run_ocr(self, img_path): result = self.ocr.ocr(img_path, cls=True) self.text.clear(
13.9K30编辑于 2022-06-20
来自专栏前端进阶学习交流
使用Python正则表达式提取字幕
这里【月神】其实在上图中已经给了一个思路了，后来【瑜亮老师】也给了一个思路，如下图所示：后来粉丝自己也在其他群得到了一个解答，如下图所示：代码，如下所示：序号列表 = [x for x in 字幕文件 ='\n'] 后来【瑜亮老师】提出一个疑问，明明是要字幕中的文字，为啥提出来的需求是取数字？粉丝自己也说了自己的理由。 3 00:00:02,816 --> 00:00:03,584 得远一点。 4 00:00:06,400 --> 00:00:09,216 你往里再坐一点。？？ 3 00:00:02,816 --> 00:00:03,584 得远一点。 4 00:00:06,400 --> 00:00:09,216 你往里再坐一点。？？ res=re.findall(",\d{3}\n(.*?)\n\n", data, re.S) print(res) 运行之后，结果如下所示：完美地解决了粉丝的问题。
1.3K10编辑于 2022-08-17
来自专栏程序小小事
望言OCR视频字幕提取2025终极评测：免费版VS专业版提全方位对比(含免费下载)
一、产品定位：AI时代的视频字幕处理专家望言OCR作为专业的视频硬字幕提取工具，在AI视频处理领域占据重要地位。文末最后免费版本，建议立即收藏）专业版：适合企业级批量处理（提供Boost加速等高级功能）二、功能深度对比：免费版VS专业版2.1 功能对比表功能免费版专业版处理速度10倍速48.8倍速批量处理✓✓字幕编辑：视频内容转文字稿企业会议：录制会议转录影视制作：字幕翻译辅助5.2 四步工作流拖入视频文件（支持MP4/MOV/AVI）自动分析字幕区域一键提取字幕内容导出所需格式（SRT/TXT等）六、下载指南开源版已停更导出来的字幕效果非常好，一点不比收费的差。链接：https://pan.xunlei.com/s/VOWA3izVggtTKbKGLTidyPuHA1? 关注【程序视点】，回复ocr，获取免费下载地址！最后【程序视点】一直在助力提供更优秀、更高效的工具。关注【程序视点】，回复ocr，免费下载！后续小二哥会继续详细分享更多实用的工具和功能。
2.3K11编辑于 2025-07-27
来自专栏AI算法能力提高班
DALL-E3 | （3）字幕生成器
DALL-E 3 通过训练一个定制的图像字母器对训练集重新生成字幕，并用它们训练数据集，最后公开了样例和评估代码 2 Dataset Recaptioning 训练用的文本图像对中，文本字幕通常来源于人类标注将离散的字符用序列表征，t = [t1, t2, . . . , tn] Step 2 构建一个语言模型 Model A ，最大化似然函数 L（t） image-20231025103038018 Step 3 descriptive synthetic captions 3 Results image-20231025115317387 image-20231025120329276 image-20231025120433835 Text rendering 在构建我们的字幕生成器时，我们特别注意确保它能够在生成的字幕中包含在图像中找到的显著单词。因此，DALL-E3 可以在提供提示时生成文本。这对我们的文本到图像模型产生了下游影响：DALL-E3 在为上述特定术语生成图像方面不可靠
73420编辑于 2023-10-25
来自专栏程序员小助手
短视频字幕提取合成超简单，掌握ffmpeg这个小技巧
但有些时候不是太方便，如果视频能有一个字幕就好了。 ? 好消息是，字幕制作的软件很专业很好用，而且上手超级简单。坏消息是，如何把字幕合成到视频音频文件内？或者把字幕文件从视频文件提取出来，都需要不少工具！我们今天讲解使用 ffmpeg 解决大家的这个痛点。，专门给音视频文件配上字幕。这时候需要 ffmpeg 的 overlay filter 过滤器，这样写指令： ffmpeg -i input.mkv -filter_complex "[0:v:1][0:s:3]overlay[v 找一段高清完备的音视频，尝试着从中提取或合成新的文件，实践起来吧。
4.3K20发布于 2020-06-04
来自专栏细嗅蔷薇
提取哔哩哔哩(B站)视频中的字幕文件
哔哩哔哩有些视频是通过外挂字幕文件来实现字幕的，但是当我们把这些视频下载下来之后，发现并没有字幕，是因为只下载了视频，或者视频软件没有识别到B站外挂字幕文件。 ? 这时候我们可以用哔哩哔哩UWP版把视频下载下来之后，提取其中的外挂字幕文件即可。然后打开sub文件夹（字幕文件夹）里面的zh-cn.sub即是字幕文件 ? 打开后会发现B站的字幕文件不是用srt格式的标准实现的，那我们可以先查一查srt格式（视频软件普遍支持srt支持来外挂字幕）的规范是怎么样的。 srt格式的书写规范大概为： ? 参考：如何编写srt或txt格式字幕用记事本写srt视频字幕文件版权所有：可定博客 © WNAG.COM.CN 本文标题：《提取哔哩哔哩(B站)视频中的字幕文件》本文链接：https://wnag.com.cn
28.5K20发布于 2020-04-20
来自专栏鸿蒙开发笔记
OpenHarmony集成OCR三方库实现文字提取
简介Tesseract(Apache 2.0 License)是一个可以进行图像OCR识别的C++库，可以跨平台运行。效果展示动物图片识别文字身份信息识别提取文字信息到本地文件3. 目录结构4. 动物图片文字识别build() { Column() { Row() { Text('点击图片进行文字提取提取结果：').fontSize('30fp').fontColor ，将提取出的文字显示在标题栏。 3.
93720编辑于 2025-04-24
来自专栏Python小屋
Python视频处理案例三则：剪辑与拼接、提取音频、添加字幕
应用1、提取视频文件中的音频 ? 在命令提示符环境中执行该程序（后面两段程序也在命令提示符环境中执行）： ? 应用2、删除视频中的音频 ? 应用3、视频剪辑、拼接、添加字幕 ? 添加字幕后的视频效果图： ?
6.4K31发布于 2019-08-27
来自专栏翩翩白衣少年
撸⼀套视频字幕提取⼯具，体验完美！
最近在探索⼤模型应⽤开发时，我尝试将多模态能⼒与OCR技术结合，构建⼀套⾼度⾃动化的【AI视频字幕提取⼯具】。为什么要做字幕提取？说到视频字幕提取，很多⼈第⼀反应是“直接⽤播放器不是有吗？” 帧图 OCR 识别：对每⼀帧图⽚调⽤ PaddleOCR API，获取识别结果（包括⽂本和坐标信息）； 3. 点击“开始提取”，⼯具⾃动分帧并调⽤ PaddleOCR API 逐帧识别字幕； 3. 识别结果会按时间顺序⾃动合并、排序，去除重复内容，最终以表格形式在界⾯展示； 4. （字幕提取结果）（提取到的字幕结果）（保存下来的原始JSON数据）应⽤场景拓展除了最常⻅的字幕提取，基于这个⼯具我还发现了很多有趣的应⽤： • ⾃动视频摘要：结合⼤模型，把所有字幕聚合⽣成视频摘要
55710编辑于 2026-03-16
来自专栏全栈程序员必看
OCR截图文字识别提取(无需安装)「建议收藏」
本软件无需安装, 适用于Windows 平台，具有截图文字提取，贴图，翻译等功能，可以非常方便地提取出图片，网页中的文本信息。亦可用于图片和PDF中文字的识别提取中。截图文字提取最新版下载地址如下：蓝奏云下载百度网盘下载链接：百度网盘请输入提取码提取码:pajo 官网下载地址及教程：hanxinyumeng.cn 基于paddleOCR 的离线版功能简介：截图提取文字，提取得到的文字会自动复制到粘贴板。双击exe，既可打开软件，点截图按钮（当然你也可以把图片直接拖拽进去），截取想要识别提取的文字。 3. OCR功能需要电脑联网，截取图片后，会自动提取出里面的文字（ps:此时截图已经复制到粘贴板，可以粘贴到word和其他软件中） 4. 随后可以选择复制文本，清除文本框，再次截图等。 5.
11.1K20编辑于 2022-08-10
来自专栏多多神器
推荐1款视频硬字幕提取软件，错过就找不到了！
特别是里面的字幕。很多时候还是想把字幕单独提取出来。这样自己也有文案了。想没用，要行动。下面这款软件就可以提取视频字幕。软件介绍字幕提取工具工具界面非常简单，没有过多的操作项。提取成功会有显示。效果如上，工具就介绍到这，更多功能请自行测试。
5700编辑于 2026-04-21
来自专栏机器学习与统计学
OCR大模型选型指南：DeepSeek、百度、腾讯、智谱谁才是真正的王者？
视频字幕提取: 92.87% 3️⃣ PaddleOCR-VL-1.5 基本参数参数项详情模型规模 0.9B参数发布时间 2026年1月架构 ERNIE 4.5 + 多任务训练开源协议 Apache 场景3：卡片/票据/发票批量处理推荐顺序： HunyuanOCR - 信息提取准确率92%+ PaddleOCR-VL-1.5 - 综合性能好 GLM-OCR - 结构化输出严格理由：HunyuanOCR 场景4：视频字幕提取推荐顺序： HunyuanOCR - 92.87%准确率，远超竞品 PaddleOCR-VL-1.5 - 综合能力强其他模型 - 不推荐理由：HunyuanOCR在视频字幕提取上有压倒性优势 HunyuanOCR - 综合得分34/40 最佳选择：多语言、信息提取、视频字幕核心优势：多语言最强 + 信息提取最优 + 轻量级第二梯队（特定场景优秀） DeepSeek-OCR-2 - 综合得分 │ └─ 是 → **GLM-OCR** │ ├─ 需要多语言支持或信息提取？ │ └─ 是 → **HunyuanOCR** │ ├─ 需要视频字幕提取？
2.5K10编辑于 2026-03-02
来自专栏素质云笔记
R+OCR︱借助tesseract包实现图片文本提取功能
从图像中提取文本时，需要提前安装训练数据（地址：https://github.com/tesseract-ocr/tessdata），系统默认为英语训练数据。 datapath 训练数据的路径，模型为系统库 options tesseract引擎的相关参数，默认为NULL，可查看文档 cache 可以使用训练数据的缓存版本，默认为TRUE 3. text_1<-ocr('e:/tess/eng_1.jpg', engine = tesseract("eng")) cat(text_1) #输出结果 ? 3. 批量提取图片文本内容 temp<-list.files(pattern='*.jpg') #处理默认路径下jpg格式图片 text<-ocr(temp, engine = tesseract("chi_tra ---- 三．文章小结目前R软件通过tesseract包调用OCR引擎提取图片文本信息，对图片文本格式、噪声、对比度要求比较高，同时在多种语言（简体中文、英文等）混合时，提取准确度比较低，目前可以借助
2.9K10发布于 2019-05-26
来自专栏翩翩白衣少年
开源原生端到端 OCR 模型，1B 参数吊打PaddleOCR！
• 全场景功能：单一模型覆盖文字检测和识别、复杂文档解析、卡证票据字段抽取、字幕提取等OCR经典任务，更支持端到端拍照翻译与文档问答。 3、开放字段信息提取对常见卡证和票据的感兴趣字段（如姓名/地址/单位等），采用标准的json格式解析。 ", "总金额": "￥77.10元", "发票代码": "161002018100", "下车时间": "09:51", "里程数": "26.1km" } 4、视频字幕提取能够对视频的字幕实现自动化抽取，包括双语字幕。这类能力通常只有商业付费 OCR 才能做到，现在免费开源了。 3、视频字幕提取（直接用）直接支持视频帧自动提取，提取视频字幕。这对视频号、短视频创作者、字幕组来说非常刚需。
66311编辑于 2026-03-16
来自专栏python3
Python3导入Asprise Ocr
Asprise是一个优秀的OCR软件，下面是Asprise_Python的官网网页 http://asprise.com/ocr/docs/html/asprise-ocr-package-dev-python.html 不过使用以下命令安装asprise之后，发现导入asprise的库会报错，提示找不到OCR模块 pip install asprise_ocr_sdk_python_api 再在命令行中输入asprise_ocr ，依然提示找不到OCR模块。按照报错信息查找，修改\Lib\site-packages\asprise_ocr_api\__init__.py 文件中的代码为： from .ocr import * from .ocr_app import 好像在ocr_app模块中也有一处导入语句要修改。最终输入asprise_ocr后启动一个demo程序，自动下载了Asprise 的Python动态链接库。
1.1K10发布于 2020-01-03
NarratorAI 翻译工作流架构拆解：四大Agent如何协作完成短剧出海翻译
大多数短剧没有独立的字幕文件，字幕是硬烧在视频画面里的。翻译之前，你得先把字幕从视频帧里提取出来，这是OCR的活，翻译接口管不了。第二，文化语义问题。" 二、架构全貌：四Agent流水线在展开每个Agent之前，先看整体数据流：内容输入：导入MP4视频、SRT字幕文件智能Agent1・字幕处理依托OCR识别提取内容，自动生成标准带时间轴SRT原始字幕智能字幕君的处理链路分为10个步骤：加载视频文件（10%）→初始化OCR引擎，加载识别模型（20%）→分析视频帧率和总时长（30%）→提取关键帧，执行OCR处理（40%）→应用文本识别算法（50%）→整合时间码信息 OCR提取的是文字，但SRT格式需要的是"时间码+文字"的组合。字幕君需要把每段文字对应的出现时间和消失时间准确标注出来，这是后续时间轴校准的基础。噪声清理。短剧出海翻译是一个多步骤工程问题，涉及OCR提取、文化适配、语义翻译、时间轴校准、字幕压制五个本质不同的子问题。
12610编辑于 2026-04-29
来自专栏腾讯技术工程官方号的专栏
ICPR2022多模态字幕识别比赛技术成果开放
不同于从单一模态中提取字幕，本次竞赛需同时考虑视觉和音频模态。仅利用单模态信息，视频字幕提取的准确性较差。，因此融合音频和视觉模态对于字幕提取极为重要。参赛队伍可根据每个赛道的特点，设计合适的字幕识别模型。赛道一：只包含有音频提供的字幕信息，参赛者需设计一个字幕识别的OCR模型。字幕提取模块通过对比前后帧的字幕内容、IoU信息、和文本框位置来提取字幕。赛道二：排名及冠军方案下面的表格列出了在赛道二上提交系统的Top5结果。 robindu etal队伍设置的方案中主要包含三个模块：视觉模态的字幕提取器，音频模态的字幕提取器，融合模块将两个模态结果进行融合。其中，前两个模块主要是基于OCR、ASR系统开发的。
1.6K20编辑于 2022-06-08

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

开源短剧翻译平台的OCR字幕提取技术：从视频帧到SRT的完整链路（2026）

这几个免费字幕在线工具你一定喜欢：视频字幕提取，字幕在线翻译，双字幕合并

OCR提取图片中的文字

【Python案例】OCR提取图片中的文字

使用Python正则表达式提取字幕

望言OCR视频字幕提取2025终极评测：免费版VS专业版提全方位对比(含免费下载)

DALL-E3 | （3）字幕生成器

短视频字幕提取合成超简单，掌握ffmpeg这个小技巧

提取哔哩哔哩(B站)视频中的字幕文件

OpenHarmony集成OCR三方库实现文字提取

Python视频处理案例三则：剪辑与拼接、提取音频、添加字幕

撸⼀套视频字幕提取⼯具，体验完美！

OCR截图文字识别提取(无需安装)「建议收藏」

推荐1款视频硬字幕提取软件，错过就找不到了！

OCR大模型选型指南：DeepSeek、百度、腾讯、智谱谁才是真正的王者？

R+OCR︱借助tesseract包实现图片文本提取功能

开源原生端到端 OCR 模型，1B 参数吊打PaddleOCR！

Python3导入Asprise Ocr

NarratorAI 翻译工作流架构拆解：四大Agent如何协作完成短剧出海翻译

ICPR2022多模态字幕识别比赛技术成果开放

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐