首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏橙、

    光学字符识别】OCR 浅述

    光学字符识别(OCR)是一种通过将打字、手写或印刷文本的图像转换为数字化文本的技术,这种数字化的文本可以通过扫描文档、文档照片、场景照片,或者来自图像上叠加的字幕文本来获得。 开发了手持式扫描仪 Optophone ,会输出与特定字母或单次相对应的音调;1929 年德国的 Tausheck 取得光学字符识别的专利。 在 2005 年《低质量文本图像 OCR 技术的研究》中,提到,传统 OCR 面临一系列问题,包括:如二值化、灰度化等预处理损失了大量信息;定位和分割错误,难以处理连笔、断笔的字;相似字符识别率低;2. 同时,以往自然环境下的光学字符识别相比于传统的光学字符识别, 自然场景文字图像的前景文字和背景物体的变化很大, 光照情况也相当复杂,检测自然场景图像中的文字更具挑战,随着机器学习算法的引入,这一部分内容变得可信 J.计算机应用研究,2020,37(S2):22-24.5孙羽菲.

    1.5K30编辑于 2023-08-25
  • 来自专栏AIoT技术交流、分享

    SVM算法实现光学字符识别

    OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机字符的过程 ;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过字符识别模型将图像中的文字处理成文本格式。 光学字符识别是OCR的核心,然而对于许多类型的机器学习算法来说,这种图像处理都是一项艰巨的任务。 将像素模式连接到更高概念的关系是极其复杂的,而且很难定义。 )来构建光学字符识别模型。 y-ege 从下到上的边缘数目 yegvx y边缘与x的相关性 2、数据预处理 光学字符识别数据集中包含16个特征变量,这些变量用字符矩形区域的水平位置和竖直位置、黑色像素比例、黑色像素的平均水平和竖直位置来度量一个字符

    1.4K30发布于 2021-05-08
  • 来自专栏杨丝儿的小站

    【深度学习】光学字符识别(OCR)

    什么是OCR 1)定义 OCR (Optical Character Recognition,光学字符识别)是指对图片中的文字进行查找、提取、识别的一种技术,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程 λ1\lambda_1λ1​和λ2\lambda_2λ2​是损失权重,用来平衡不同的任务,将它们经验地设置为1.0和2.0。 (cross-layer)之间也存在link,同样是该方向有link还是没link(2分类问题),而link的个数是4个,所以参数总数为2×4=8。 =yq+yq2x_b=\frac{x_p + x_q}{2} \\ y_b=\frac{y_q + y_q}{2} xb​=2xp​+xq​​yb​=2yq​+yq​​ 文本行的宽度wbw_bwb​就是两个最远点的距离 如下表所示: IIIT5k,SVT,IC03,IC13表示4个数据集 50,1k,50k和Full表示使用的字典,None表示识别没有字典 识别图像中的乐谱被称为光学音乐识别(OMR)问题。

    7.9K10编辑于 2022-03-01
  • 来自专栏深度学习和计算机视觉

    OCR光学字符识别方法汇总

    光学字符识别(OCR)相信大家都不陌生,就是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。 对于文字识别,实际中一般首先需要通过文字检测定位文字在图像中的区域,然后提取区域的序列特征,在此基础上进行专门的字符识别。但是随着CV发展,也出现很多端到端的End2End OCR。 3.2.1 CNN + softmax [5] 此方法主要用于街牌号识别,对每个字符识别的架构为:先使用卷积网络提取特征,然后使用N+1个softmax分类器对每个字符进行分类。 其中Spatial Transformer Network(STN)核心就是将传统二维图像变换(如旋转/缩放/仿射等)End2End融入到网络中。 Springer, Cham, 2016. [2] Liao M et al.

    2.5K30编辑于 2022-04-06
  • 来自专栏Mac应用教程

    OCR Tool PRO Mac(OCR光学字符识别)

    推荐这款OCR光学字符识别工具OCR Tool PRO,以卓越的准确性和速度从图像和 PDF 中提取文本。

    20.2K20编辑于 2022-08-29
  • 来自专栏林德熙的博客

    win10 uwp 使用 OCR 光学字符识别

    在 UWP 里面可以很方便通过 Windows.Media.Ocr.OcrEngine 识别图片的字符,其实老周有写过这一篇技术博客,今天有小伙伴在问如何实现,我还以为老周的博客过时了,于是重新复制老周的代码跑了一次,然后就通过了

    1.8K20发布于 2020-04-10
  • 来自专栏reizhi

    微软为SkyDrive加入OCR光学字符识别功能

    OCR技术的中文译名为光学字符识别,该技术能够将图片中的文字提取为可编辑的文字。虽然时至今日技术仍不成熟,但在大多数情况下已经能够代替人工独立作业。

    1.4K20编辑于 2022-09-26
  • 来自专栏闪电gogogo的专栏

    【OCR技术系列一】光学字符识别技术介绍

    注:此篇内容主要是综合整理了光学字符识别 和OCR技术系列之一】字符识别技术总览,详情见文末参考文献 什么是 OCR? OCR(Optical Character Recognition,光学字符识别)。简单来说是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。 具体操作过程大致为电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件 OCR的发展 在一些简单环境下OCR的准确度已经比较高了(比如电子文档),但是在一些复杂环境下的字符识别,在当今还没有人敢说自己能做的很好。 参考: [1] 光学字符识别,百度百科 [2] 【OCR技术系列之一】字符识别技术总览

    6.9K40发布于 2018-08-10
  • 来自专栏站长的编程笔记

    【说站】python OpenCV中的光学字符识别介绍

    python OpenCV中的光学字符识别介绍 1、光字识别简称OCR,是用来描述将文本图像转换成机器编码文本的算法和技术。 2、图像预处理和OCR结果后处理步骤通常用于提高OCR精度。 以上就是python OpenCV中的光学字符识别介绍,希望对大家有所帮助。

    77410编辑于 2022-11-24
  • 来自专栏xingoo, 一个梦想做发明家的程序员

    吴恩达机器学习笔记 —— 19 应用举例:照片OCR(光学字符识别

    这种OCR识别的问题可以理解成三个步骤: 文本检测 字符切分 字符识别 ? 文本检测 文本的检测可以用行人的检测来做,思路差不多。 ? 我们定义几个固定大小尺寸的窗口,从照片的左上角开始扫描。 字符识别 最后的字符识别就很简单了,找够样本,就可以做多分类了。跟手写体识别一样的玩法~ ? 关于训练的样本 其实训练的样本可以根据已有的样本进行成倍的扩充。

    1.2K00发布于 2018-07-31
  • 来自专栏机器之心

    支持40+种语言和本地运行,这个OCR库轻松搞定光学字符识别

    机器之心报道 参与:路 Easy OCR 支持 40 多种语言,所需的 GPU 内存为 2GB+,并且支持在 CPU 模式中运行。 OCR(光学字符识别)是是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。目前,这项技术在拍照搜题、拍照翻译等应用中得到广泛使用。 Easy OCR 的识别结果 此外,Easy OCR 所需的 GPU 内存为 2GB+,并且支持在 CPU 模式中运行,因此具备较强的实用性。

    2.6K60发布于 2020-07-09
  • 来自专栏睐芯科技LightSense

    成像光学、非成像光学光学拓展量简介

    成像光学成像光学是传统几何光学的核心内容,成像光学系统包括三个部分:物体、透镜和像。 成像光学的根本任务是利用成像系统实现不失真或尽可能少失真的信息变换或传输。光学成像主要分为三类:小孔成像、镜面成像和透镜成像。 2. 配光系统配光系统的任务有两个:一是将来自光源的光线投射到目标区域形成指定的光强分布; 二是在完成第一个任务的前提下实现尽可能高的效率。 非成像光学理论1 光展理论光展(光学扩展量)来自法语单词etendue 是几何光学系统中的一个重要光学属性,用来刻画光学系统的通光能力。 对于理想光学系统光展是一个守恒量, 而对于非理想系统光展只增不减,正是光展守恒为非成像光学设计带来了方便。2 .

    1.2K10编辑于 2024-07-24
  • 来自专栏睐芯科技LightSense

    光学玻璃之光学特性

    (1)折射率每个牌号的光学玻璃均按下表所列的光谱线给出折射率,所记载的折射率依据(4)项的色散曲线方程式计算得出。 (3)特殊色散性一般光学玻璃的绝大部分,部分色散比和阿贝数之间存在如下线性关系,这样的硝材被称为正常部分色散玻璃,与此相反,如果在领域图上偏离这条直线的玻璃被称为特殊部分色散玻璃,特殊色散性的大小以“正常玻璃 ”K7和F2之间的连线作为基准,和这条连线的偏差值用部分色散比(Δ Px,y)来表示 。 n(λ)^2=A0+A1*λ^2+A2*λ^4+A3*λ^-2+A4*λ^-4+A5*λ^-6+A6*λ^-8+A7*λ^-10+A8*λ^-12以下A0~ A8 是依据玻璃的牌号所定的定数,对每种玻璃进行精密测试所得到的折射率使用最小二乘法计算得出 (n^2-1)/(n^2+2)=p1λ^2/(λ^2-Q1)+p2λ^2/(λ^2-Q2)+p3λ^2/(λ^2-Q3)对以上的两个色散曲线方程式存在偏差有标识请参考。

    84710编辑于 2024-07-24
  • 来自专栏计算摄影学

    手机中的计算摄影2-光学变焦

    今天这一篇我来谈谈“光学变焦”,其实这是一个容易误导人的功能名字。因为在传统上,变焦是通过操作相机镜头上的变焦环来完成的,而在绝大多数手机上显然无法承载这么复杂的机械机构。 因此手机上的光学变焦,通常是通过在不同焦距的相机之间切换来达成的。 而今天所谈的手机上的“光学变焦”,则是在一系列计算摄影算法支撑下的极力模仿传统相机的平滑变焦,如下面的动图所示。 就像下面视频所示: 这里面将会用到略微复杂的颜色空间的映射和查找表的构建,从而准确的对输入图像的质量进行变换: 以上只是粗略的介绍了SAT功能核心的要点,然而在工程中还有很多细节的问题要处理,例如: 如何处理光学防抖系统工作情况下相机位置的额外变换 图中手机机身图像来自小米、华为、苹果、荣耀、VIVO官网 2. 最开始的平滑变焦展示视频是小米发布会上展示的视频 3. 手机中的计算摄影1——人像模式(双摄虚化) 4. 文章28.

    3.3K30发布于 2021-10-13
  • 来自专栏算法进阶

    用Transformer实现OCR字符识别

    optimizer等) 其中 ocr_by_transformer.py 为主要的训练脚本,其依托 train_utils.py 和 transformer.py 两个文件构建 transformer 来完成字符识别模型的训练 : 7, '6': 46, '[': 2, ']': 2, 'É': 2, 'q': 3, ';': 3, '@': 9, '%': 42, '=': 1, '(': 7, ')': 5, '+': 2 ☯'] = 0 # padding标识符 lbl2id_map['■'] = 1 # 句子起始符 lbl2id_map['□'] = 2 # 句子结束符 # 生成其余字符的id映射关系 lbl2id_map_path : 字符-id 映射关系记录的txt文件路径 """ lbl2id_map = dict() id2lbl_map = dict() with = os.path.join('./', 'lbl2id_map.txt') lbl2id_map, id2lbl_map = load_lbl2id_map(lbl2id_map_path) #

    5.5K30编辑于 2022-06-02
  • 来自专栏TEL18600524535

    基于大模型与光学字符识别(OCR)融合的文档抽取技术,为证照管理提供了新的技术路径

    随着文档智能化处理技术的发展,基于大模型与光学字符识别(OCR)融合的文档抽取技术,为证照管理提供了新的技术路径。本文将就其技术原理与应用实践进行阐述。 2.大模型微调训练:实现语义理解单纯OCR输出的文本是离散且缺乏结构关联的。文档抽取系统引入大语言模型作为语义理解与信息抽取的核心引擎,并通过微调训练使其适配证照管理场景。

    11600编辑于 2026-04-01
  • 来自专栏流川疯编写程序的艺术

    OpenCV OpenGL手写字符识别

    = NULL; contour2 = contour2->h_next) { cvStartReadSeq(contour2, &reader); int N = contour2->total = NULL; contour2 = contour2->h_next) { cvStartReadSeq(contour2, &reader); int N = contour2->total image2->width/2; newpt.y =newpt.y/2+image2->height/2; cvLine(image2,cvPoint(image2->width/2,0 ),cvPoint(image2->width/2 ,image2->height),CV_RGB(255,255,0),2,8,0); cvLine(image2,cvPoint(0,image2 ->height/2),cvPoint(image2->width ,image2->height/2),CV_RGB(255,255,0),2,8,0); cvCircle(image2

    1K30编辑于 2022-11-29
  • 来自专栏Datawhale专栏

    用Transformer实现OCR字符识别

    optimizer等) 其中 ocr_by_transformer.py 为主要的训练脚本,其依托 train_utils.py 和 transformer.py 两个文件构建 transformer 来完成字符识别模型的训练 : 7, '6': 46, '[': 2, ']': 2, 'É': 2, 'q': 3, ';': 3, '@': 9, '%': 42, '=': 1, '(': 7, ')': 5, '+': 2 ☯'] = 0 # padding标识符 lbl2id_map['■'] = 1 # 句子起始符 lbl2id_map['□'] = 2 # 句子结束符 # 生成其余字符的id映射关系 lbl2id_map_path : 字符-id 映射关系记录的txt文件路径 """ lbl2id_map = dict() id2lbl_map = dict() with = os.path.join('./', 'lbl2id_map.txt') lbl2id_map, id2lbl_map = load_lbl2id_map(lbl2id_map_path) #

    5.9K30发布于 2021-12-02
  • 来自专栏计算摄影学

    光学词汇9-透镜2-实像虚像实物虚物

    实像(Real Image)和虚像(Virtual Image)是光学术语,它们描述了由透镜、镜子或其他光学系统形成的像(即视觉效果或图像)的性质。这些概念在理解和设计光学系统时非常关键。 实像通常是倒置的,但可以通过额外的光学元件调整为正立。 虚像则是由发散光线形成的像,这些光线在经过透镜或镜子反射、折射后,看起来像是从一个点汇聚出来的,但实际上并无实际交汇点。 实物(Real Object)和虚物(Virtual Object)也是光学术语,描述了物体相对于光学系统的位置。 实物是指位于透镜、镜子或其他光学系统前的物体,它发出或反射的光线直接进入光学系统。 透镜、镜子或其他光学元件接收到的光线,然后形成像。 虚物则是由光线的延长线形成的物体,这些光线在通过透镜、镜子或其他光学系统之前并未实际交汇。 虚物通常出现在复杂的光学系统中,如使用多个透镜的望远镜或显微镜中。

    1.7K20编辑于 2023-09-01
  • 来自专栏硅光技术分享

    光学相控阵列

    这一篇笔记主要介绍光学相控阵列。 光学相控阵列(optical phased array,以下简称OPA), 即通过调控阵列中不同通道光场的相位,实现光束传播方向的偏转与调节,示意图如下, ? (图片来自 http://spie.org/publications/journal/10.1117/1.OE.55.11.116115) 2)基于MEMS的光学相控阵列 通过MEMS结构调节两个镜面间的光程差 (图片来自文献2) 该方法的优势是调制速度快,但是光束偏转的角度非常小,应用受限。 得益于集成光学的发展,基于硅光、InP系统的光学相控阵列都已经在实验室实现。典型的结构如下图所示,有点类似阵列波导光栅结构(AWG)。黄色区域为相位调制区域。 ? 如果说激光雷达是无人驾驶汽车的眼睛,那么光学相控阵列决定了这个眼睛的视场、反应速度。 以上是对光学相控阵列的原理和应用的简单介绍。

    5.3K12发布于 2020-08-14
领券