首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 开源短剧翻译平台的OCR字幕提取技术:从视频帧到SRT的完整链路(2026)

    二、OCR字幕提取10步处理链路详解Step 1|加载视频文件(进度 10%)第一步是文件解析,不是 OCR。 Step 4|提取关键帧,执行OCR处理(进度 40%)关键帧提取是整个链路里计算量最集中的环节。 对每一个关键帧,OCR 引擎执行检测+识别两阶段处理,输出该帧的字幕文字内容和对应的帧编号。Step 5|应用文字识别算法(进度 50%)文字识别阶段的核心挑战是字幕样式的多样性。 部分短剧使用艺术字体或手写体字幕,这类字体和 OCR 模型的训练数据分布差异较大,识别错误率明显上升。语速极快的对话。 每条字幕显示时间不足 0.5 秒时,关键帧提取可能遗漏这条字幕。 这些情况下,5% 的识别错误率意味着一部 100 集短剧里可能有数百条字幕存在问题。如果不经过人工校对直接进入翻译流程,错误会被翻译放大——原文识别错了,译文也会跟着错,而且译文错误更难被发现。

    19710编辑于 2026-04-29
  • 来自专栏好用工具集合

    这几个免费字幕在线工具你一定喜欢:视频字幕提取字幕在线翻译,双字幕合并

    不用设置API,也不用等待很久语音识别成字幕,也不用费各种心思去翻译字幕。双语也不用特别的去找某个播放器去挂载几个字幕文件。 今天会用到一个软件、三个在线工具,分别字幕格式提取字幕翻译,和字幕合并 视频字幕翻译教程 1.剪映专业版生成字幕 首先我们需要用的的工具是剪映,用来识别生成字幕,但是是单个语言。没有翻译。 我们需要把剪映生成子的字幕提取出来。 生成独立的srt格式的字幕 步骤:先导入视频—文本—智能字幕—开始识别 2.提取剪映字幕 这是不同系统的默认目录,即使你的剪映装到其他盘,草稿字幕也是在这个默认目录里面的 Windows 目录:C:\ 随后如图,点击箭头→,选择srt格式的字幕。 4.合并双语字幕 点击网址:https://www.nandongni.com/zmhb 将源字幕,和翻译的字幕挨个填进去,不用做其它的更改。

    40.6K50编辑于 2021-12-16
  • 来自专栏用户7627119的专栏

    OCR提取图片中的文字

    生活和工作中我们也经常需要从图片中提取文字信息,比如从扫描件,截图或照片中提取有用的信息。 做OCR的工具也很多,很多这样的网络工具,如 FREE ONLINE OCR SERVICE https://www.onlineocr.net/ Convertio https://convertio.co /zh/ocr/ 也有本地版的,最有名的当属tesseract-ocr https://github.com/tesseract-ocr/tesseract/wiki/Command-Line-Usage 那个这个时候,OCR就派上用处了。 ? 分别用上面提到的三个工具来识别,看效果 ONLINE OCR ? Convertio ? tesseract-ocr ? 我相信OCR在生活中还有很多的应用,比如信件或者包裹拍照,识别邮编之后分拣,手机拍名片自动提取姓名,手机号添加到通讯录,我相信即使在微信里面发图片,敏感信息还是能被后台监测到的,OCR对腾讯来说应该是小菜一碟

    22.3K31发布于 2020-08-06
  • 来自专栏CNN

    【Python案例】OCR提取图片中的文字

    很多软件内置了OCR功能,即图片提取文字功能。有些是免费提供给大家使用,但有些是收费的。不管是免费的还是收费的,终究逃离不了隐私问题。用别人的OCR,总得把图片传到对方的服务器。 今天我们使用Python开发一个OCR软件,如下图所示。图片1 安装环境本文基于PaddleOCR搭建本地开发图片提取文字软件,因此需要安装PaddlePaddle环境。 3 开发界面有了以上代码就可以完成OCR功能,但使用起来还不够方便,我们进一步将OCR功能封装成软件,便于交互。 首先安装PyQT5:pip install PyQt5接下来调用PyQT5完成界面交互,篇幅原因,这里只显示调用ocr部分代码,读者可以直接拉到最后获取完整源码。 def run_ocr(self, img_path): result = self.ocr.ocr(img_path, cls=True) self.text.clear(

    13.9K30编辑于 2022-06-20
  • 来自专栏前端进阶学习交流

    使用Python正则表达式提取字幕

    这里【月神】其实在上图中已经给了一个思路了,后来【瑜亮老师】也给了一个思路,如下图所示: 后来粉丝自己也在其他群得到了一个解答,如下图所示: 代码,如下所示: 序号列表 = [x for x in 字幕文件 ='\n'] 后来【瑜亮老师】提出一个疑问,明明是要字幕中的文字,为啥提出来的需求是取数字?粉丝自己也说了自己的理由。 5 00:00:09,984 --> 00:00:10,496 好。 6 00:00:12,288 --> 00:00:13,056 呵呵呵。 5 00:00:09,984 --> 00:00:10,496 好。 6 00:00:12,288 --> 00:00:13,056 呵呵呵。

    1.3K10编辑于 2022-08-17
  • 来自专栏程序小小事

    望言OCR视频字幕提取2025终极评测:免费版VS专业版提全方位对比(含免费下载)

    一、产品定位:AI时代的视频字幕处理专家望言OCR作为专业的视频硬字幕提取工具,在AI视频处理领域占据重要地位。 : 普通电脑:约5分钟RTX3060/M1:最快55秒准确率对比: 中文识别:96.5%英文识别:98.2%四、平台兼容性与系统要求4.1 最佳配置建议平台最低配置推荐配置Windowsi5+8GBRTX3060 :视频内容转文字稿企业会议:录制会议转录影视制作:字幕翻译辅助5.2 四步工作流拖入视频文件(支持MP4/MOV/AVI)自动分析字幕区域一键提取字幕内容导出所需格式(SRT/TXT等)六、下载指南开源版已停更 导出来的字幕效果非常好,一点不比收费的差。链接:https://pan.xunlei.com/s/VOWA3izVggtTKbKGLTidyPuHA1? 关注【程序视点】,回复ocr,获取免费下载地址!最后【程序视点】一直在助力提供更优秀、更高效的工具。关注【程序视点】,回复ocr,免费下载!后续小二哥会继续详细分享更多实用的工具和功能。

    2.3K11编辑于 2025-07-27
  • 来自专栏程序员小助手

    短视频字幕提取合成超简单,掌握ffmpeg这个小技巧

    但有些时候不是太方便,如果视频能有一个字幕就好了。 ? 好消息是,字幕制作的软件很专业很好用,而且上手超级简单。 坏消息是,如何把字幕合成到视频音频文件内? 或者把字幕文件从视频文件提取出来,都需要不少工具! 我们今天讲解使用 ffmpeg 解决大家的这个痛点。 ,专门给音视频文件配上字幕。 像国内比较常见的对国外影视作品的引进,需要翻译人员制作字幕,那么翻译组生成字幕文件后,如何合并入音视频文件内呢? 找一段高清完备的音视频,尝试着从中提取或合成新的文件,实践起来吧。

    4.3K20发布于 2020-06-04
  • 来自专栏细嗅蔷薇

    提取哔哩哔哩(B站)视频中的字幕文件

    哔哩哔哩有些视频是通过外挂字幕文件来实现字幕的,但是当我们把这些视频下载下来之后,发现并没有字幕,是因为只下载了视频,或者视频软件没有识别到B站外挂字幕文件。 ? 这时候我们可以用哔哩哔哩UWP版把视频下载下来之后,提取其中的外挂字幕文件即可。 然后打开sub文件夹(字幕文件夹) 里面的zh-cn.sub即是字幕文件 ? 打开后会发现B站的字幕文件不是用srt格式的标准实现的,那我们可以先查一查srt格式(视频软件普遍支持srt支持来外挂字幕)的规范是怎么样的。 srt格式的书写规范大概为: ? 参考:如何编写srt或txt格式字幕 用记事本写srt视频字幕文件 版权所有:可定博客 © WNAG.COM.CN 本文标题:《提取哔哩哔哩(B站)视频中的字幕文件》 本文链接:https://wnag.com.cn

    28.5K20发布于 2020-04-20
  • 来自专栏鸿蒙开发笔记

    OpenHarmony集成OCR三方库实现文字提取

    简介Tesseract(Apache 2.0 License)是一个可以进行图像OCR识别的C++库,可以跨平台运行 。 效果展示动物图片识别文字身份信息识别提取文字信息到本地文件3. 目录结构4. 5. 源码分析本样例源码的分析主要涉及到两个方面,一方面是N-API接口的实现,另一方面是应用层的页面布局和业务逻辑。N-API实现1. 动物图片文字识别build() { Column() { Row() { Text('点击图片进行文字提取 提取结果 :').fontSize('30fp').fontColor ,将提取出的文字显示在标题栏。

    93720编辑于 2025-04-24
  • 来自专栏翩翩白衣少年

    撸⼀套视频字幕提取⼯具,体验完美!

    最近在探索⼤模型应⽤开发时,我尝试将多模态能⼒与OCR技术结合,构建⼀套⾼度⾃动化的【AI视频字幕提取⼯具】。 为什么要做字幕提取? 说到视频字幕提取,很多⼈第⼀反应是“直接⽤播放器不是有吗?” 5. 导出格式:⽀持⼀键导出为 SRT 字幕格式,可直接⽤于视频剪辑、翻译或数据分析等场景。 整个流程实现了⾼度⾃动化,基本做到“喂视频,出字幕”,省时省⼒,⼤幅提升处理效率。 (字幕提取结果) (提取到的字幕结果) (保存下来的原始JSON数据) 应⽤场景拓展 除了最常⻅的字幕提取,基于这个⼯具我还发现了很多有趣的应⽤: • ⾃动视频摘要:结合⼤模型,把所有字幕聚合⽣成视频摘要 通过本次实践,PaddleOCR 在视频字幕提取场景中展现了其核⼼价值:精准的识别能⼒确保了字幕⽂本的准确提取,⽽完整的坐标和结构化输出则为后续的时序对⻬、位置过滤和可视化展示提供了坚实基础。

    55710编辑于 2026-03-16
  • 来自专栏Python小屋

    Python视频处理案例三则:剪辑与拼接、提取音频、添加字幕

    应用1、提取视频文件中的音频 ? 在命令提示符环境中执行该程序(后面两段程序也在命令提示符环境中执行): ? 应用2、删除视频中的音频 ? 应用3、视频剪辑、拼接、添加字幕 ? 添加字幕后的视频效果图: ?

    6.4K31发布于 2019-08-27
  • 来自专栏机器学习与统计学

    OCR大模型选型指南:DeepSeek、百度、腾讯、智谱谁才是真正的王者?

    235B(920分) Transformers性能:当前版本在Transformers框架下有性能损失 适用场景 边缘设备部署(资源受限环境) 高并发OCR服务 卡片/票据/发票批量处理 视频字幕自动提取 5. 场景4:视频字幕提取 推荐顺序: HunyuanOCR - 92.87%准确率,远超竞品 PaddleOCR-VL-1.5 - 综合能力强 其他模型 - 不推荐 理由:HunyuanOCR在视频字幕提取上有压倒性优势 HunyuanOCR - 综合得分34/40 最佳选择:多语言、信息提取、视频字幕 核心优势:多语言最强 + 信息提取最优 + 轻量级 第二梯队(特定场景优秀) DeepSeek-OCR-2 - 综合得分 │ └─ 是 → **GLM-OCR** │ ├─ 需要多语言支持或信息提取? │ └─ 是 → **HunyuanOCR** │ ├─ 需要视频字幕提取

    2.5K10编辑于 2026-03-02
  • 来自专栏腾讯技术工程官方号的专栏

    ICPR2022多模态字幕识别比赛技术成果开放

    不同于从单一模态中提取字幕,本次竞赛需同时考虑视觉和音频模态。仅利用单模态信息,视频字幕提取的准确性较差。 ,因此融合音频和视觉模态对于字幕提取极为重要。 通过计算预测字幕与真实标注字幕之间的cer来评测模型。 04 竞赛结果与排名 赛道一:排名及冠军方案 下面的表格列出了在赛道二上提交系统的Top5结果。 字幕提取模块通过对比前后帧的字幕内容、IoU信息、和文本框位置来提取字幕。 赛道二:排名及冠军方案 下面的表格列出了在赛道二上提交系统的Top5结果。 robindu etal队伍设置的方案中主要包含三个模块:视觉模态的字幕提取器,音频模态的字幕提取器,融合模块将两个模态结果进行融合。其中,前两个模块主要是基于OCR、ASR系统开发的。

    1.6K20编辑于 2022-06-08
  • 来自专栏全栈程序员必看

    OCR截图文字识别提取(无需安装)「建议收藏」

    本软件无需安装, 适用于Windows 平台,具有截图文字提取,贴图,翻译等功能,可以非常方便地提取出图片,网页中的文本信息。 亦可用于图片和PDF中文字的识别提取中。 截图文字提取 最新版下载地址如下: 蓝奏云下载 百度网盘下载链接 :百度网盘 请输入提取提取码:pajo 官网下载地址及教程:hanxinyumeng.cn 基于paddleOCR 的离线版 功能简介: 截图提取文字,提取得到的文字会自动复制到粘贴板。 ---- 主要功能演示: 截图文字提取功能演示: 拖拽文字提取功能演示: 贴图功能演示: 翻译功能演示: 具体使用方法: 1.从下载链接中下载压缩包,解压压缩包。 2. OCR功能需要电脑联网,截取图片后,会自动提取出里面的文字(ps:此时截图已经复制到粘贴板,可以粘贴到word和其他软件中) 4. 随后可以选择复制文本,清除文本框,再次截图等。 5.

    11.1K20编辑于 2022-08-10
  • 来自专栏多多神器

    推荐1款视频硬字幕提取软件,错过就找不到了!

    特别是里面的字幕。很多时候还是想把字幕单独提取出来。这样自己也有文案了。想没用,要行动。下面这款软件就可以提取视频字幕。软件介绍字幕提取工具工具界面非常简单,没有过多的操作项。 提取成功会有显示。效果如上,工具就介绍到这,更多功能请自行测试。

    5700编辑于 2026-04-21
  • 来自专栏素质云笔记

    R+OCR︱借助tesseract包实现图片文本提取功能

    利用开源OCR引擎进行图片处理,目前可以识别超过100种语言,R语言可以借助tesseract调用OCR引擎进行相应操作。 从图像中提取文本时,需要提前安装训练数据(地址:https://github.com/tesseract-ocr/tessdata),系统默认为英语训练数据。 批量提取图片文本内容 temp<-list.files(pattern='*.jpg') #处理默认路径下jpg格式图片 text<-ocr(temp, engine = tesseract("chi_tra ---- 三.文章小结 目前R软件通过tesseract包调用OCR引擎提取图片文本信息,对图片文本格式、噪声、对比度要求比较高,同时在多种语言(简体中文、英文等)混合时,提取准确度比较低,目前可以借助 tesseract包实现简单图片的文本提取,同时结合jiebaR包、tm包进行文本分析与挖掘。

    2.9K10发布于 2019-05-26
  • 来自专栏翩翩白衣少年

    开源原生端到端 OCR 模型,1B 参数吊打PaddleOCR!

    • 全场景功能:单一模型覆盖文字检测和识别、复杂文档解析、卡证票据字段抽取、字幕提取OCR经典任务,更支持端到端拍照翻译与文档问答。 ", "总金额": "¥77.10元", "发票代码": "161002018100", "下车时间": "09:51", "里程数": "26.1km" } 4、视频字幕提取 能够对视频的字幕实现自动化抽取,包括双语字幕5、图片翻译功能 对拍照或者字典文档的多语种图片能够进行端到端翻译成中文或英文的文本格式输出,目前主要支持14种高频应用小语种。 HunyuanOCR 为什么值得关注? 这类能力通常只有商业付费 OCR 才能做到,现在免费开源了。 3、视频字幕提取(直接用) 直接支持视频帧自动提取提取视频字幕。 这对视频号、短视频创作者、字幕组来说非常刚需。

    66311编辑于 2026-03-16
  • 结合ChatGPT,半天实现个人视频字幕导出为完整的文字稿文件

    因此我给出如下的prompt提示语: 我现在有一个视频文件,我希望将视频文件中的字幕全部提取出来形成一个文本文件,并通过python语言来实现。 d.对于每一帧视频,将其转换为灰度图像,以便于提取字幕。可以使用OpenCV库来进行图像处理。 e.利用pytesseract库提取灰度图像中的文字。 注意,由于视频字幕可能会有不同的颜色、背景等,因此可能需要尝试不同的参数来调整识别的准确率。 f.将提取到的文字写入文本文件。 最后,循环执行步骤3-5,将所有视频帧的字幕提取出来并写入文本文件。 字幕区域本身是黑色背景,黄色文字,你需要考虑进行相应的灰度处理或变换处理,去噪处理,方便后续的文字识别。 5. 大家可以参考下进行变换和降噪处理后的字幕图片效果如下: 而这个处理后图片才是传递给OCR接口进行文字识别使用的。 整体识别下来看,百度OCR接口的识别准确率也只能是在90%左右。

    45710编辑于 2025-06-24
  • 来自专栏程序员小灰

    OCR+NLP 提取信息并分析,这个开源项目火了!

    文字是传递信息的高效途径,利用OCR技术提取文本信息是各行业向数字智能化转型的第一步。与此同时,针对OCR提取的海量文本信息,利用NLP技术进一步加工提取、分析理解后才能最大化发挥文本信息的价值。 听说文档和代码已经开源了,来吧 https://github.com/PaddlePaddle/awesome-DeepLearning OCR + NLP 串联技术难点 市面上有不少开源的OCR、NLP PP-OCR Pipeline 对OCR识别出的文本进行整理后,调用PaddleNLP中的Taskflow API抽取文本信息中的组织机构实体。 无论是企业业务汇总,还是寄件信息填写,都少不了关键信息智能提取这一环节,这其中均采用了命名实体识别技术。 命名实体识别大体上有三种方案:字符串匹配、统计语言模型、序列标注。 此外,命名实体识别技术可以应用于各类关键信息的提取,例如电商评论中的商品名称、电子发票中的抬头信息、收入证明中的金额、法律文书中的犯罪地点等信息。

    5K10发布于 2021-10-26
  • 来自专栏IT技术分享社区

    腾讯云OCR技术助力企业证书识别和数据提取实践

    图片 一、OCR技术介绍 在当今数字化时代,OCR(Optical Character Recognition)识别技术正发挥着越来越重要的作用。 OCR技术通过将图像中的文字转化为可编辑的文本形式,实现了对大量纸质文档的数字化处理和信息提取。 特征提取:对于每个字符,需要提取出其特征,以便与已知的字符进行比较和匹配。常用的特征提取方法包括基于形状、纹理、投影等的特征描述。 字符识别:通过将提取的字符特征与预先训练好的模型进行比较,来识别每个字符。常用的字符识别方法包括基于模板匹配、统计模型(如隐马尔可夫模型)和深度学习模型(如卷积神经网络)等。 RecognizeWarnMsg":[ ], "IsDuplication":-1, "RegistrationDate":"", "RequestId":"3b68eaff-5c51

    2.5K82编辑于 2023-07-22
领券