搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏目标检测和深度学习
OCR技术综述
最近入坑研究OCR，看了比较多关于OCR的资料，对OCR的前世今生也有了一个比较清晰的了解。所以想写一篇关于OCR技术的综述，对OCR相关的知识点都好好总结一遍，以加深个人理解。什么是OCR？比如汉王OCR，百度OCR，阿里OCR等等，很多企业都有能力都是拿OCR技术开始挣钱了。其实我们自己也能感受到，OCR技术确实也在改变着我们的生活：比如一个手机APP就能帮忙扫描名片、身份证，并识别出里面的信息；汽车进入停车场、收费站都不需要人工登记了，都是用车牌识别技术；我们看书时看到不懂的题做过OCR的童鞋都知道，送入OCR模块的图像越清晰（即预处理做的越好），识别效果往往就越好。那现在对这流程中最为重要的字符识别技术做一个总结。针对传统OCR解决方案的不足，学界业界纷纷拥抱基于深度学习的OCR。这些年深度学习的出现，让OCR技术焕发第二春。
16.2K92发布于 2018-04-18
来自专栏SIGAI学习与实践平台
OCR技术简介
OCR的应用场景根据识别场景，可大致将OCR分为识别特定场景的专用OCR和识别多种场景的通用OCR。比如现今方兴未艾的证件识别和车牌识别就是专用OCR的典型实例。 OCR的技术路线典型的OCR的技术路线如下图所示其中影响识别准确率的技术瓶颈是文字检测和文本识别，而这两部分也是OCR技术的重中之重。在传统OCR技术中，图像预处理通常是针对图像的成像问题进行修正。 [10] 另一种方法是引入注意力机制。以CNN特征作为输入，通过注意力模型对RNN的状态和上一状态的注意力权重计算出新一状态的注意力权重。之后将CNN特征和权重输入RNN，通过编码和解码得到结果。 [12] 总结尽管基于深度学习的OCR表现相较于传统方法更为出色，但是深度学习技术仍需要在OCR领域进行特化，而其中的关键正式传统OCR方法的精髓。
18.5K20发布于 2018-09-26
来自专栏SIGAI学习与实践平台
OCR技术简介
因此自然场景中的文字识别技术，也经常被单列为场景文字识别技术(Scene Text Recognition, STR)，相关内容可回顾往期SigAI的文章。 OCR的技术路线典型的OCR的技术路线如下图所示 ? 其中影响识别准确率的技术瓶颈是文字检测和文本识别，而这两部分也是OCR技术的重中之重。在传统OCR技术中，图像预处理通常是针对图像的成像问题进行修正。常见的预处理过程包括：几何变换（透视、扭曲、旋转等）、畸变校正、去除模糊、图像增强和光线校正等。 [10] ? CRNN的网络结构[10] 另一种方法是引入注意力机制。以CNN特征作为输入，通过注意力模型对RNN的状态和上一状态的注意力权重计算出新一状态的注意力权重。 FOTS的总体结构[12] 总结尽管基于深度学习的OCR表现相较于传统方法更为出色，但是深度学习技术仍需要在OCR领域进行特化，而其中的关键正式传统OCR方法的精髓。
8.6K50发布于 2018-10-18
OCR识别技术
前言一、OCR是什么？OCR是光学字符识别的缩写，通俗来讲就是计算机可以通过图像来识别和处理文字信息。二、OCR应用领域OCR识别API对接步骤1、接入前文档查看需要什么协议？ args) throws Exception{ String host = "https://open.expauth.com"; String path = "/v2/ocr "cusNo":"MER20230227354812341234","subMerNo":"MER20230227354812341234","reqNo":"1654251116079"}三、好用的OCR API为了简化开发者的工作，许多云服务提供商提供了强大且易于集成的OCR API1.文字OCR文字识别场景服务商提供的OCR API可选择性比较多，开发者可以根据自己的需求选择适合自己的服务商。总结OCR识别技术让信息处理变得更加便捷。目前OCR技术已经广泛应用于我们的生活和工作中。
4K10编辑于 2024-05-15
来自专栏应用案例
OCR技术浅析
以深度学习兴起的时间为分割点，直至近五年之前，业界最为广泛使用的仍然是传统的OCR识别技术框架，而随着深度学习的崛起，基于这一技术的OCR识别框架以另外一种新的思路迅速突破了原有的技术瓶颈（如文字定位、笔者针对业务中的身份证照片文字识别需求分别尝试了传统OCR识别框架及基于深度学习的OCR识别框架。下面就以身份证文字识别为例分别简要介绍两种识别框架。传统OCR技术框架如上图所示，传统OCR技术框架主要分为五个步骤：首先文本定位，接着进行倾斜文本矫正，之后分割出单字后，并对单字识别，最后基于统计模型（如隐马尔科夫链，HMM）进行语义纠错。下面介绍基于传统OCR框架处理身份证文字识别：身份证识别技术流程与上述框架稍微有所差异。对该问题，已知先验信息：a.证件长宽固定；b.字体及大小一致；c.文本相对于证件位置固定；d.存在固定文字。基于深度学习的OCR识别框架目前，从技术流程上来说，主要分为两步，首先是检测出图像中的文本行，接着进行序列识别。
10.8K10发布于 2017-12-28
来自专栏ocr
OCR文字识别技术
OCR，作为一种自动解读这种图像符号的技术，毫无疑问将是下阶段大数据发展的大方向。因为随着移动互联网的繁荣发展，社会已经迎来了移动应用井喷时代，而出于对业务模式创新，以及用户体验优化的追求，以前很多依赖特定仪器才能实现的技术和操作开始适配到移动端， OCR技术就是这股移动化浪潮中相当受到瞩目的技术之一从身份证识别、银行卡识别、车牌识别到名片识别、文档识别等各种形式的识别OCR都能轻松搞定。现在你只要用手机对准这些进行拍照扫描，OCR技术瞬间就能将图片中的文字转变为可编辑的文本信息。在这信息高速发展的时代，信息电子化已经成为了时代的必然趋势，而OCR技术作为文字电子化过程中最重要的环节，它改变了传统纸质介质资料输入的概念。全球数据信息量呈指数式爆炸增长之势，随处可见大数据的影响，顺应移动互联网大潮，OCR技术无论是面向行业用户还是面向普通用户都呈现出移动化的趋势。
42.2K20发布于 2020-03-30
DeepSeek-OCR-2 开源 OCR 模型的技术
DeepSeek-OCR-2开源OCR模型的技术OCR应用的场景和类型很广，本次使用Qwen2的架构，解决看的全（扫码方式优化）、看的的准（内容识别、视觉标记、降低重复率），多裁剪策略提取核心信息。这两款模型代表了当前开源OCR技术的两大发展方向：DeepSeek-OCR-2主打视觉因果流（VisualCausalFlow）的创新架构，而HunyuanOCR则以极致轻量化+端到端统一见长。）：DeepSeek-OCR-2的上下文压缩特性可以显著降低文档预处理成本六、总结与展望DeepSeek-OCR-2和HunyuanOCR的开源，标志着OCR技术进入了一个新的阶段——从传统的"字符识别对于开发者而言，2026年是OCR技术选型最优的一年——既有成熟的传统方案，也有前沿的端到端模型，且都是免费开源的。 /GOT-OCR2.0Qwen2-VL:https://github.com/QwenLM/Qwen2-VL（本文由AI辅助整理技术资料，核心数据来源于各模型官方技术报告和GitHub仓库。）
51410编辑于 2026-02-07
来自专栏通用文字识别信息技术白皮书
OCR技术的昨天今天和明天！2023年最全OCR技术指南！
本文将介绍该技术的前世今生，一览该技术的阶段性发展：传统OCR技术统治的过去，深度学习OCR技术闪光的现在，预训练OCR大模型呼之欲出的未来！一、OCR的前世：传统OCR技术统治的过去传统OCR技术的工作原理OCR的运作方式可以类比为人类阅读文本和识别模式的能力。传统OCR技术通过电脑视觉、模式识别技术来自动识别并提取图像或文档中的字符。传统OCR的局限性虽然传统的光学字符识别（OCR）技术在许多场景中表现得相当出色，但这种技术确实存在一些局限性，尤其是在比较复杂或者具有挑战性的情况下。总的来说，虽然传统的OCR技术在一些场景中表现得非常出色，但在处理复杂或者具有挑战性的任务时，这种技术的局限性就会暴露出来。这也是为什么越来越多的研究者开始探索使用深度学习等更先进的技术来改进OCR系统。二、OCR的今生：深度学习OCR技术闪光的现在传统OCR技术在处理复杂的图像和不规则形状的文本时，效果并不理想。
4K11编辑于 2023-07-21
来自专栏IT技术精选文摘
OCR检测与识别技术
”、“医学文献图像”等挑战任务中的4项冠军，获得了业内广泛好评，同时也再次证明了团队在OCR领域的技术研发能力。 3、部分场景图片文本检测效果图腾讯数平精准推荐团队自研的OCR技术目前已经广泛服务于公司内部的多个业务。在OCR方面，我们已经有了多年积累下的各项技术积累，愿意与任何有OCR技术相关需求的业务同行进行交流合作，持续打造业界一流的数据、算法和系统。我们在注意力机制上，与文献[10]的设计不同，我们采用的网络结构如图6所示。特征编码阶段，我们采取类似于VGG的10层卷积网络。特征解码阶段，我们结合了注意力机制与LSTM层。 OCR技术在广告图像以及其他形式图像的研究与落地，仍存在巨大潜力尚待挖掘，本团队也会继续精耕细作。
26.8K101发布于 2018-06-22
来自专栏卓越笔记
window10 python 3.6.8 本地 OCR 模块 muggle_ocr 安装实践
模块介绍地址：https://pypi.org/project/muggle-ocr/1.0/#description 其实最主要还是 muggle-ocr-1.0.tar.gz （6.37M）和 tensorflow tensorflow/stream_executor/cuda/cuda_diagnostics.cc:176] hostname: DESKTOP-9K42C1Q MuggleOCR Session [ocr
2.4K20编辑于 2023-02-18
Datalab Marker与OCR文档解析技术
本文介绍了Datalab公司的Marker和OCR模型在文档解析与文本提取方面的技术应用。 OCR可从图像和文档中检测九十种语言的文本，并返回阅读顺序和表格网格。Marker模型基于开源项目Marker（某代码托管平台29k星标），OCR基于Surya（19k星标）。元数据 },)print(output["markdown"][:400])运行OCRimport replicateoutput = replicate.run( "datalab-to/ocr Marker在所有测试模型中表现优异，包括GPT-4o、Deepseek OCR、Mistral OCR和olmOCR。原文包含详细数据）定价Marker：快速/平衡模式，无page_schema，每1000页4元Marker：使用page_schema进行结构化提取，每1000页6元Marker：精确模式，每1000页6元OCR
1500编辑于 2026-04-16
来自专栏从ORACLE起航，领略精彩的IT技术。
Oracle 10g RAC OCR、Voting disk更换
1.替换OCR 2.替换voting disk 1.替换OCR 替换OCR（Oracle Cluster Registry）首先需要关闭RAC所有节点的crs，然后导出当前的ocr配置文件，手工修改ocr.loc 文件后，导入ocr配置文件，可选择性创建ocrmirror。文件 cat /etc/oracle/ocr.loc 实际测试替换OCR的关键操作： [root@rac1-server rules.d]# /s01/oracle/product/10.2.0/crs 2.新存储模拟：10块盘：其中前三块（raw11，raw12，raw13）给voting disk使用，第4块和第5块（raw14和raw15）给ocr使用： ? 3.使用新存储3块10G的盘和2块5G的盘分别新增DATADG和FRA2个ASM磁盘组，其中DATADG是Normal冗余，FRA是External冗余： ?
1K10发布于 2019-05-21
来自专栏闪电gogogo的专栏
【OCR技术系列一】光学字符识别技术介绍
注：此篇内容主要是综合整理了光学字符识别和OCR技术系列之一】字符识别技术总览，详情见文末参考文献什么是 OCR？ OCR（Optical Character Recognition，光学字符识别）。简单来说是利用光学技术和计算机技术把印在或写在纸上的文字读取出来，并转换成一种计算机能够接受、人又可以理解的格式。比如汉王OCR，百度OCR，阿里OCR等等，很多企业都有能力都是拿OCR技术开始挣钱了。针对传统OCR解决方案的不足，学界业界纷纷拥抱基于深度学习的OCR。这些年深度学习的出现，让OCR技术焕发第二春。参考： [1] 光学字符识别，百度百科 [2] 【OCR技术系列之一】字符识别技术总览
6.9K40发布于 2018-08-10
来自专栏施炯的IoT开发专栏
Windows 10 IoT Serials 10 – 如何使用OCR引擎进行文字识别
；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。在Windows 10通用应用程序UWP示例中，包含了OCR应用程序，具体请参考（https://github.com/Microsoft/Windows-universal-samples/tree/ 但是部署到Windows 10 IoT Core设备以后，会出现如下错误：“No available OCR languages.” 、”English is not supported”，如下图所示。解决方法上述问题的出现，是由于Windows 10 IoT Core设备上没有OCR的相关资源，导致程序无法正常运行。解决方法如下：首先，将Windows 10设备的C:\\Windows\OCR目录拷贝到Windows 10 IoT Core设备的c$\Windows目录，如下图所示。 ?
3K40发布于 2018-03-27
来自专栏AI SPPECH
20：GLM-OCR 深度解析：轻量级多模态OCR的技术突破
背景动机与当前热点本节核心价值分析当前OCR技术的发展现状与痛点，阐述GLM-OCR应运而生的技术背景和市场需求。在文档智能处理领域，OCR（光学字符识别）技术一直是基础且关键的环节。：开源贡献：为OCR领域提供了轻量级、高性能的开源解决方案技术创新：融合了多模态学习、强化学习等前沿技术，推动了OCR技术的发展生态构建：基于ModelScope平台，构建了完整的OCR技术生态 OCR系统需要符合特定的合规要求责任界定：OCR结果错误导致的业务损失，责任界定不明确系统集成：与现有业务系统的集成可能面临挑战 5.3 局限性与缓解策略局限性：语言支持有限：虽然支持10+种语言未来趋势与前瞻预测本节核心价值基于当前技术发展趋势，预测GLM-OCR的未来发展方向和OCR技术的演进路径。：开源生态繁荣：基于GLM-OCR的开源生态将不断壮大，促进OCR技术的普及技术标准形成：推动OCR技术标准的形成，规范行业发展跨领域融合：与AI、大数据等技术深度融合，形成新的技术范式创业机会
1.2K10编辑于 2026-02-08
来自专栏ocr
ocr手机扫描银行卡的技术
手机扫描银行卡的技术应用背景为了提高在移动终端上输入银行卡号的速度和准确性，我公司结合银行、保险、金融P2P及第三方支付等行业对自动识别银行卡号的迫切需求，推出手机扫描银行卡的技术SDK，各类APP只需集成手机扫描银行卡的技术手机扫描银行卡的技术SDK可支持Android、iOS主流移动操作系统，APP集成手机扫描银行卡的技术SDK后，用户采用手机、平板电脑对银行卡进行拍摄识别即可自动识别银行卡号手机扫描银行卡的技术技术功能特点 1．识别种类多：支持国内各个银行的卡，包括平面字体和凹凸字体； 2．识别速度快：单张手机扫描银行卡的技术速度小于1 秒； 3．银行卡OCR识别技术技术也可以部署在识别服务器上，可支持Linux 32/ 用户可部署到自有服务器上，APP可直接调用手机扫描银行卡的技术服务。手机扫描银行卡的技术技术主要应用领域 1．金融保险：移动展业、移动查勘录入银行卡号； 2．银行：直销银行、手机银行绑卡； 3．移动支付：绑定银行卡支付； 4．金融P2P：绑定银行卡充值；
2.3K30发布于 2020-04-29
来自专栏vue全家桶
【玩转OCR有奖征文】文字识别技术原理
那么，有没有什么技术能帮助我们解决这些难题呢？有的，那就是OCR文字识别技术。本文将以腾讯云文字识别OCR（Optical Character Recognition，光学字符识别）为例，详细介绍文字识别技术实现原理。文字识别技术原理文字识别技术是一种将非结构化数据中的文字信息提取出来的技术。它主要通过光学方式对文字进行识别，因此被称为光学字符识别。文字识别技术的基本原理是利用计算机视觉技术和深度学习技术对图像进行预处理、字符分割和字符识别等步骤，最终将图像中的文字信息提取出来。字符分割主要采用计算机视觉技术和图像处理技术，通过设定不同的分割算法，将图像中的每个字符单独提取出来，便于后续的字符识别。字符分割算法可以分为基于规则的分割和基于学习的分割。
1.9K30编辑于 2023-08-30
【玩转OCR | 基于腾讯云智能结构化OCR的技术应用实践】
在这些场景下，通用OCR产品无法满足高精度的识别需求，企业需要一种能够针对特定场景进行深度优化的解决方案。腾讯云智能结构化OCR凭借其强大的技术能力，为企业提供了灵活高效的文档解析服务。高识别精度与版式适应性该产品借助多模态大模型技术，即便面对多样化版式或中英文混排的复杂场景，依然能够维持极高的识别准确率，且能够快速定位和提取关键信息。3. = batch_ocr(image_paths)print(ocr_results)代码解释：image_to_base64：将图像文件转化为Base64编码，符合OCR接口的输入要求。 batch_ocr：循环处理多个文件，通过POST请求将图像发送至OCR API进行识别，并返回识别结果。在未来，随着多模态大模型技术的进一步发展，智能结构化OCR在更多行业场景中的应用潜力将更加广阔。
1.5K00编辑于 2024-12-30
来自专栏AI SPPECH
GOT-OCR-2.0-hf开源模型：多语言OCR技术的全面提升
一句话承诺：深度解析GOT-OCR-2.0-hf的技术架构、性能优势与应用场景，附详细代码示例和性能对比图表，助你快速掌握领先的光学字符识别技术。 GOT-OCR-2.0-hf技术特点对照表技术特性 GOT-OCR-2.0-hf 传统OCR技术提升幅度应用价值骨干网络改进的ResNet50-V1d 基础CNN网络显著增强更高效的特征提取 result = model.chat(tokenizer, image, ocr_type="ocr") # 输出结果 print(f"OCR结果: {result}")---- 核心技术模块详解多语言翻译应用场景技术实现优势实时翻译 OCR + 机器翻译API 快速多语言内容理解文档翻译 OCR + 文档翻译完整保留文档结构图像翻译 OCR + 图像翻译直观的翻译结果呈现 3 ，提升整体性能实时处理能力：进一步优化推理速度，支持实时应用更广泛的语言支持：扩展到更多语言和方言总结与建议 GOT-OCR-2.0-hf作为开源多语言OCR模型，通过改进的技术架构和高效的处理流程
31610编辑于 2025-11-20
来自专栏C/C++葵花宝典
【玩转OCR | 基于腾讯云智能结构化OCR的技术应用实践】
在这些场景下，通用OCR产品无法满足高精度的识别需求，企业需要一种能够针对特定场景进行深度优化的解决方案。腾讯云智能结构化OCR凭借其强大的技术能力，为企业提供了灵活高效的文档解析服务。腾讯云智能结构化OCR的核心优势 1. 高识别精度与版式适应性该产品借助多模态大模型技术，即便面对多样化版式或中英文混排的复杂场景，依然能够维持极高的识别准确率，且能够快速定位和提取关键信息。 3. batch_ocr：循环处理多个文件，通过POST请求将图像发送至OCR API进行识别，并返回识别结果。在未来，随着多模态大模型技术的进一步发展，智能结构化OCR在更多行业场景中的应用潜力将更加广阔。
1.7K10编辑于 2024-12-31

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

OCR技术综述

OCR技术简介

OCR技术简介

OCR识别技术

OCR技术浅析

OCR文字识别技术

DeepSeek-OCR-2 开源 OCR 模型的技术

OCR技术的昨天今天和明天！2023年最全OCR技术指南！

OCR检测与识别技术

window10 python 3.6.8 本地 OCR 模块 muggle_ocr 安装实践

Datalab Marker与OCR文档解析技术

Oracle 10g RAC OCR、Voting disk更换

【OCR技术系列一】光学字符识别技术介绍

Windows 10 IoT Serials 10 – 如何使用OCR引擎进行文字识别

20：GLM-OCR 深度解析：轻量级多模态OCR的技术突破

ocr手机扫描银行卡的技术

【玩转OCR有奖征文】文字识别技术原理

【玩转OCR | 基于腾讯云智能结构化OCR的技术应用实践】

GOT-OCR-2.0-hf开源模型：多语言OCR技术的全面提升

【玩转OCR | 基于腾讯云智能结构化OCR的技术应用实践】

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐