首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏目标检测和深度学习

    OCR技术综述

    最近入坑研究OCR,看了比较多关于OCR的资料,对OCR的前世今生也有了一个比较清晰的了解。所以想写一篇关于OCR技术的综述,对OCR相关的知识点都好好总结一遍,以加深个人理解。 什么是OCR? 比如汉王OCR,百度OCR,阿里OCR等等,很多企业都有能力都是拿OCR技术开始挣钱了。 其实我们自己也能感受到,OCR技术确实也在改变着我们的生活:比如一个手机APP就能帮忙扫描名片、身份证,并识别出里面的信息;汽车进入停车场、收费站都不需要人工登记了,都是用车牌识别技术;我们看书时看到不懂的题 做过OCR的童鞋都知道,送入OCR模块的图像越清晰(即预处理做的越好),识别效果往往就越好。那现在对这流程中最为重要的字符识别技术做一个总结。 针对传统OCR解决方案的不足,学界业界纷纷拥抱基于深度学习的OCR。 这些年深度学习的出现,让OCR技术焕发第二春。

    16.2K92发布于 2018-04-18
  • 来自专栏SIGAI学习与实践平台

    OCR技术简介

    OCR的应用场景 根据识别场景,可大致将OCR分为识别特定场景的专用OCR和识别多种场景的通用OCR。比如现今方兴未艾的证件识别和车牌识别就是专用OCR的典型实例。 OCR技术路线 典型的OCR技术路线如下图所示 其中影响识别准确率的技术瓶颈是文字检测和文本识别,而这两部分也是OCR技术的重中之重。 在传统OCR技术中,图像预处理通常是针对图像的成像问题进行修正。 [4] TextBoxes是基于SSD改进的一个算法。调整了锚定框的长宽比,以适应文字的高长宽比。输出层也利用了利用非标准的卷积核。更适应文字细长的宽高比这一特点。 [12] 总结 尽管基于深度学习的OCR表现相较于传统方法更为出色,但是深度学习技术仍需要在OCR领域进行特化,而其中的关键正式传统OCR方法的精髓。

    18.5K20发布于 2018-09-26
  • 来自专栏SIGAI学习与实践平台

    OCR技术简介

    因此自然场景中的文字识别技术,也经常被单列为场景文字识别技术(Scene Text Recognition, STR),相关内容可回顾往期SigAI的文章。 OCR技术路线 典型的OCR技术路线如下图所示 ? 其中影响识别准确率的技术瓶颈是文字检测和文本识别,而这两部分也是OCR技术的重中之重。 在传统OCR技术中,图像预处理通常是针对图像的成像问题进行修正。常见的预处理过程包括:几何变换(透视、扭曲、旋转等)、畸变校正、去除模糊、图像增强和光线校正等。 [4] ? RRPN的网络结构[4] TextBoxes是基于SSD改进的一个算法。调整了锚定框的长宽比,以适应文字的高长宽比。输出层也利用了利用非标准的卷积核。更适应文字细长的宽高比这一特点。 FOTS的总体结构[12] 总结 尽管基于深度学习的OCR表现相较于传统方法更为出色,但是深度学习技术仍需要在OCR领域进行特化,而其中的关键正式传统OCR方法的精髓。

    8.6K50发布于 2018-10-18
  • OCR识别技术

    前言一、OCR是什么?OCR是光学字符识别的缩写,通俗来讲就是计算机可以通过图像来识别和处理文字信息。二、OCR应用领域OCR识别API对接步骤1、接入前文档查看需要什么协议? 3、引入相关三方工具类4、调试import com.mittang.util.HttpUtils;import org.apache.http.HttpResponse;import org.apache.http.util.EntityUtils args) throws Exception{ String host = "https://open.expauth.com"; String path = "/v2/ocr API为了简化开发者的工作,许多云服务提供商提供了强大且易于集成的OCR API1.文字OCR文字识别场景服务商提供的OCR API可选择性比较多,开发者可以根据自己的需求选择适合自己的服务商。 总结OCR识别技术让信息处理变得更加便捷。目前OCR技术已经广泛应用于我们的生活和工作中。

    4K10编辑于 2024-05-15
  • 来自专栏应用案例

    OCR技术浅析

    以深度学习兴起的时间为分割点,直至近五年之前,业界最为广泛使用的仍然是传统的OCR识别技术框架,而随着深度学习的崛起,基于这一技术OCR识别框架以另外一种新的思路迅速突破了原有的技术瓶颈(如文字定位、 笔者针对业务中的身份证照片文字识别需求分别尝试了传统OCR识别框架及基于深度学习的OCR识别框架。下面就以身份证文字识别为例分别简要介绍两种识别框架。 传统OCR技术框架 如上图所示,传统OCR技术框架主要分为五个步骤: 首先文本定位,接着进行倾斜文本矫正,之后分割出单字后,并对单字识别,最后基于统计模型(如隐马尔科夫链,HMM)进行语义纠错。 下面介绍基于传统OCR框架处理身份证文字识别: 身份证识别技术流程与上述框架稍微有所差异。对该问题,已知先验信息:a.证件长宽固定;b.字体及大小一致;c.文本相对于证件位置固定;d.存在固定文字。 基于深度学习的OCR识别框架 目前,从技术流程上来说,主要分为两步,首先是检测出图像中的文本行,接着进行序列识别。

    10.8K10发布于 2017-12-28
  • 来自专栏ocr

    OCR文字识别技术

    OCR,作为一种自动解读这种图像符号的技术,毫无疑问将是下阶段大数据发展的大方向。 因为随着移动互联网的繁荣发展,社会已经迎来了移动应用井喷时代,而出于对业务模式创新,以及用户体验优化的追求,以前很多依赖特定仪器才能实现的技术和操作开始适配到移动端, OCR技术就是这股移动化浪潮中相当受到瞩目的技术之一 从身份证识别、银行卡识别、车牌识别到名片识别、文档识别等各种形式的识别OCR都能轻松搞定。现在你只要用手机对准这些进行拍照扫描,OCR技术瞬间就能将图片中的文字转变为可编辑的文本信息。 在这信息高速发展的时代,信息电子化已经成为了时代的必然趋势,而OCR技术作为文字电子化过程中最重要的环节,它改变了传统纸质介质资料输入的概念。 全球数据信息量呈指数式爆炸增长之势,随处可见大数据的影响,顺应移动互联网大潮,OCR技术无论是面向行业用户还是面向普通用户都呈现出移动化的趋势。

    42.2K20发布于 2020-03-30
  • DeepSeek-OCR-2 开源 OCR 模型的技术

    DeepSeek-OCR-2开源OCR模型的技术OCR应用的场景和类型很广,本次使用Qwen2的架构,解决看的全(扫码方式优化)、看的的准(内容识别、视觉标记、降低重复率),多裁剪策略提取核心信息。 这两款模型代表了当前开源OCR技术的两大发展方向:DeepSeek-OCR-2主打视觉因果流(VisualCausalFlow)的创新架构,而HunyuanOCR则以极致轻量化+端到端统一见长。 ):DeepSeek-OCR-2的上下文压缩特性可以显著降低文档预处理成本六、总结与展望DeepSeek-OCR-2和HunyuanOCR的开源,标志着OCR技术进入了一个新的阶段——从传统的"字符识别 对于开发者而言,2026年是OCR技术选型最优的一年——既有成熟的传统方案,也有前沿的端到端模型,且都是免费开源的。 /GOT-OCR2.0Qwen2-VL:https://github.com/QwenLM/Qwen2-VL(本文由AI辅助整理技术资料,核心数据来源于各模型官方技术报告和GitHub仓库。)

    51310编辑于 2026-02-07
  • 来自专栏通用文字识别信息技术白皮书

    OCR技术的昨天今天和明天!2023年最全OCR技术指南!

    本文将介绍该技术的前世今生,一览该技术的阶段性发展:传统OCR技术统治的过去,深度学习OCR技术闪光的现在,预训练OCR大模型呼之欲出的未来! 一、OCR的前世:传统OCR技术统治的过去传统OCR技术的工作原理OCR的运作方式可以类比为人类阅读文本和识别模式的能力。传统OCR技术通过电脑视觉、模式识别技术来自动识别并提取图像或文档中的字符。 4.去斜和校正:OCR系统需要自动纠正图像中的扭曲和倾斜,以确保文本的正确识别。这个过程包括检测图像中文本行的倾斜角度,并进行相应的校正。 4.困难的手写识别:对于手写文字的识别,传统的OCR系统通常会遇到更大的挑战,因为手写文字的形状、大小和倾斜度变化非常大,且往往缺乏清晰的边界。 这也是为什么越来越多的研究者开始探索使用深度学习等更先进的技术来改进OCR系统。二、OCR的今生:深度学习OCR技术闪光的现在传统OCR技术在处理复杂的图像和不规则形状的文本时,效果并不理想。

    4K11编辑于 2023-07-21
  • 来自专栏IT技术精选文摘

    OCR检测与识别技术

    ”、“医学文献图像”等挑战任务中的4项冠军,获得了业内广泛好评,同时也再次证明了团队在OCR领域的技术研发能力。 (4)银行卡图片(部分内白为保护隐私) 图8 场景图片&垂直应用图片文字检测示例 目前数平精准推荐团队研发的OCR相关技术在公司内部众多产品中得到使用,例如:腾讯慧眼、手Q看点、话题圈、天御、社交广告等业务 在OCR方面,我们已经有了多年积累下的各项技术积累,愿意与任何有OCR技术相关需求的业务同行进行交流合作,持续打造业界一流的数据、算法和系统。 (图4) 此论文另一大贡献是提供了大规模合成数据的方法。标注文字的成本远高于标注人脸、物体等数据,高标注成本限制了OCR数据集规模。  腾讯DPPR团队场景文字识别技术 本章重点介绍腾讯数平精准推荐团队(Tencent-DPPR)的深度OCR算法。

    26.8K101发布于 2018-06-22
  • 来自专栏全栈程序员必看

    tess4j正确的使用 OCR

    在官网上下载下来的 tess4j 的zip,初见时看的云里雾里的,原以为是个jar,直接引用就好了,结果竟是个zip。 网上查一下用法,各种说法,各种菜,全是误导,自己不懂就敢瞎说… 实际上使用时需要注意一下几点: 一、引jar包 打开压缩包,在dist下边有tess4j的jar,这个jar包在lib下也可以找到,这是关键 路径可以设置: ITesseract instance = new Tesseract(); instance.setDatapath("D:\\IDEA\\mytest\\OCR"); //当tessdata 路径为"D:\IDEA\mytest\OCR\tessdata" 时 三、引dll库 好多网友说需要引入dll库,实际上无需引用任何dll库,tess4j.jar 内有所需dll库。 instance = new Tesseract(); // JNA Interface Mapping instance.setDatapath("D:\\IDEA\\mytest\\OCR

    1.4K20编辑于 2022-09-01
  • Datalab Marker与OCR文档解析技术

    本文介绍了Datalab公司的Marker和OCR模型在文档解析与文本提取方面的技术应用。 OCR可从图像和文档中检测九十种语言的文本,并返回阅读顺序和表格网格。Marker模型基于开源项目Marker(某代码托管平台29k星标),OCR基于Surya(19k星标)。 Marker在所有测试模型中表现优异,包括GPT-4o、Deepseek OCR、Mistral OCR和olmOCR。 (性能对比表格略,原文包含详细数据)定价Marker:快速/平衡模式,无page_schema,每1000页4元Marker:使用page_schema进行结构化提取,每1000页6元Marker:精确模式 ,每1000页6元OCR:每1000页2元FINISHED

    600编辑于 2026-04-16
  • 来自专栏闪电gogogo的专栏

    OCR技术系列一】光学字符识别技术介绍

    注:此篇内容主要是综合整理了光学字符识别 和OCR技术系列之一】字符识别技术总览,详情见文末参考文献 什么是 OCROCR(Optical Character Recognition,光学字符识别)。简单来说是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。 比如汉王OCR,百度OCR,阿里OCR等等,很多企业都有能力都是拿OCR技术开始挣钱了。 针对传统OCR解决方案的不足,学界业界纷纷拥抱基于深度学习的OCR。 这些年深度学习的出现,让OCR技术焕发第二春。 参考: [1] 光学字符识别,百度百科 [2] 【OCR技术系列之一】字符识别技术总览

    6.9K40发布于 2018-08-10
  • 来自专栏AI SPPECH

    20:GLM-OCR 深度解析:轻量级多模态OCR技术突破

    背景动机与当前热点 本节核心价值 分析当前OCR技术的发展现状与痛点,阐述GLM-OCR应运而生的技术背景和市场需求。 在文档智能处理领域,OCR(光学字符识别)技术一直是基础且关键的环节。 技术价值: 部署灵活性:仅需4GB显存即可运行,支持在消费级GPU、边缘设备甚至高端手机上部署 推理速度快:单张A4文档识别时间仅需100-200ms,满足实时应用需求 多模态融合:视觉信息与语言知识的深度融合 4. : 开源贡献:为OCR领域提供了轻量级、高性能的开源解决方案 技术创新:融合了多模态学习、强化学习等前沿技术,推动了OCR技术的发展 生态构建:基于ModelScope平台,构建了完整的OCR技术生态 : 开源生态繁荣:基于GLM-OCR的开源生态将不断壮大,促进OCR技术的普及 技术标准形成:推动OCR技术标准的形成,规范行业发展 跨领域融合:与AI、大数据等技术深度融合,形成新的技术范式 创业机会

    1.2K10编辑于 2026-02-08
  • 来自专栏ocr

    ocr手机扫描银行卡的技术

    手机扫描银行卡的技术应用背景 为了提高在移动终端上输入银行卡号的速度和准确性,我公司结合银行、保险、金融P2P及第三方支付等行业对自动识别银行卡号的迫切需求,推出手机扫描银行卡的技术SDK,各类APP只需集成手机扫描银行卡的技术 手机扫描银行卡的技术SDK可支持Android、iOS主流移动操作系统,APP集成手机扫描银行卡的技术SDK后,用户采用手机、平板电脑对银行卡进行拍摄识别即可自动识别银行卡号 手机扫描银行卡的技术技术功能特点 1.识别种类多:支持国内各个银行的卡,包括平面字体和凹凸字体; 2.识别速度快:单张手机扫描银行卡的技术速度小于1 秒; 3.银行卡OCR识别技术技术也可以部署在识别服务器上,可支持Linux 32/ 用户可部署到自有服务器上,APP可直接调用手机扫描银行卡的技术服务。 手机扫描银行卡的技术技术主要应用领域 1.金融保险:移动展业、移动查勘录入银行卡号; 2.银行:直销银行、手机银行绑卡; 3.移动支付:绑定银行卡支付; 4.金融P2P:绑定银行卡充值;

    2.3K30发布于 2020-04-29
  • 来自专栏vue全家桶

    【玩转OCR有奖征文】文字识别技术原理

    那么,有没有什么技术能帮助我们解决这些难题呢?有的,那就是OCR文字识别技术。 本文将以腾讯云文字识别OCR(Optical Character Recognition,光学字符识别)为例,详细介绍文字识别技术实现原理。 文字识别技术原理文字识别技术是一种将非结构化数据中的文字信息提取出来的技术。它主要通过光学方式对文字进行识别,因此被称为光学字符识别。 文字识别技术的基本原理是利用计算机视觉技术和深度学习技术对图像进行预处理、字符分割和字符识别等步骤,最终将图像中的文字信息提取出来。 字符分割主要采用计算机视觉技术和图像处理技术,通过设定不同的分割算法,将图像中的每个字符单独提取出来,便于后续的字符识别。字符分割算法可以分为基于规则的分割和基于学习的分割。

    1.9K30编辑于 2023-08-30
  • 【玩转OCR | 基于腾讯云智能结构化OCR技术应用实践】

    ​ 目录背景与业务挑战腾讯云智能结构化OCR的核心优势1. 全面的行业覆盖能力2. 高识别精度与版式适应性3. 个性化模板定制4. 便捷接入与资源优化应用实践案例:物流行业的单据自动化处理1. 在这些场景下,通用OCR产品无法满足高精度的识别需求,企业需要一种能够针对特定场景进行深度优化的解决方案。腾讯云智能结构化OCR凭借其强大的技术能力,为企业提供了灵活高效的文档解析服务。 高识别精度与版式适应性该产品借助多模态大模型技术,即便面对多样化版式或中英文混排的复杂场景,依然能够维持极高的识别准确率,且能够快速定位和提取关键信息。3. 4. 便捷接入与资源优化腾讯云提供简单易用的API接口,以及详细的接入指引文档,便于企业快速部署。此外,产品支持灵活的计费模式,让企业按需使用,降低初期投入。 在未来,随着多模态大模型技术的进一步发展,智能结构化OCR在更多行业场景中的应用潜力将更加广阔。​

    1.5K00编辑于 2024-12-30
  • 来自专栏AI SPPECH

    GOT-OCR-2.0-hf开源模型:多语言OCR技术的全面提升

    一句话承诺:深度解析GOT-OCR-2.0-hf的技术架构、性能优势与应用场景,附详细代码示例和性能对比图表,助你快速掌握领先的光学字符识别技术。 GOT-OCR-2.0-hf技术特点对照表 技术特性 GOT-OCR-2.0-hf 传统OCR技术 提升幅度 应用价值 骨干网络 改进的ResNet50-V1d 基础CNN网络 显著增强 更高效的特征提取 result = model.chat(tokenizer, image, ocr_type="ocr") # 输出结果 print(f"OCR结果: {result}")---- 核心技术模块详解 多语言翻译 应用场景 技术实现 优势 实时翻译 OCR + 机器翻译API 快速多语言内容理解 文档翻译 OCR + 文档翻译 完整保留文档结构 图像翻译 OCR + 图像翻译 直观的翻译结果呈现 3 ,提升整体性能 实时处理能力:进一步优化推理速度,支持实时应用 更广泛的语言支持:扩展到更多语言和方言 总结与建议 GOT-OCR-2.0-hf作为开源多语言OCR模型,通过改进的技术架构和高效的处理流程

    31610编辑于 2025-11-20
  • 来自专栏C/C++葵花宝典

    【玩转OCR | 基于腾讯云智能结构化OCR技术应用实践】

    在这些场景下,通用OCR产品无法满足高精度的识别需求,企业需要一种能够针对特定场景进行深度优化的解决方案。腾讯云智能结构化OCR凭借其强大的技术能力,为企业提供了灵活高效的文档解析服务。 高识别精度与版式适应性 该产品借助多模态大模型技术,即便面对多样化版式或中英文混排的复杂场景,依然能够维持极高的识别准确率,且能够快速定位和提取关键信息。 3. 4. 便捷接入与资源优化 腾讯云提供简单易用的API接口,以及详细的接入指引文档,便于企业快速部署。此外,产品支持灵活的计费模式,让企业按需使用,降低初期投入。 batch_ocr:循环处理多个文件,通过POST请求将图像发送至OCR API进行识别,并返回识别结果。 在未来,随着多模态大模型技术的进一步发展,智能结构化OCR在更多行业场景中的应用潜力将更加广阔。

    1.7K10编辑于 2024-12-31
  • 来自专栏翩翩白衣少年

    2.7K Star 本地高精度OCR!由GPT-4o-mini驱动的开源OCR

    核心优势 1、零样本 OCR 使用 GPT-4o-mini 模型进行文本识别,能够处理完全陌生的 PDF、图片等文档类型,不需要事先训练数据,即可提供高精度的 OCR 结果。 无论是扫描版 PDF 还是其他格式,Zerox 都可以对它们进行 OCR 识别,生成准确的文本内容。 4、本地运行与 API 支持 支持本地运行,无需担心隐私泄露问题。 技术栈 • Python • JavaScript • TypeScipt 工作流程 • 提交文件:支持的文件格式包括 PDF、DOCX、图片等,你可以轻松提交多种格式的文件进行 OCR 处理。 • GPT-4o-mini 转换:每个生成的图像将被发送至 GPT-4o-mini 模型进行文本识别。 是一款功能强大的本地开源工具,基于 GPT-4o-mini,能够高效处理复杂文档,并以 Markdown 格式输出,适合需要精确 OCR 处理的用户。

    2.6K10编辑于 2024-10-21
  • 来自专栏DeepHub IMBA

    DeepSeek=发布视觉压缩OCR模型 DeepSeek-OCR,哪些信息和技术亮点值得关注?

    传统的 OCR 是“图像 → 文本”,把图片里的字识出来然后输出成字符序列。但 DeepSeek 这次反着玩:它把文字重新“画成图”,再用视觉模型去理解这张图,然后再从视觉特征里还原出文字。 这里的 MoE 不太常见在 OCR 里出现,它更常见于语言模型。DeepSeek 把它搬进 OCR,目的是在不同文档类型之间自动选择最合适的专家,从而兼顾表格、段落、手写体等多种结构。 也就是说如果普通 OCR 需要 10,000 个 token 才能读完整篇文档,这个模型可能只用 1,000 个就能搞定。 DeepSeek-OCR 在这个基准上,用更少的视觉 token 数量就超过了 GOT-OCR 2.0 和 MinerU 2.0,这俩都是目前比较强的开源 OCR 模型。 某种程度上,它已经不是 OCR,而更接近“文档理解引擎”。 DeepSeek 团队在论文里提到,他们想验证“视觉模态是否能成为长上下文压缩的一种方式”。

    28310编辑于 2025-11-15
领券