首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏往期博文

    开源OCR工具基本使用:PaddleOCRTesseractCnOCR

    前言 因项目需要,调研了一下目前市面上一些开源OCR工具,支持本地部署,非调用API,主要有PaddleOCR/CnOCR/chinese_lite OCR/EasyOCR/Tesseract/chineseocr 测试例程: from cnocr import CnOcr img_fp = 'img/output_2.png' ocr = CnOcr() # 所有参数都使用默认值 out = ocr.ocr( _5.png' img = cv2.imread(image_input_fullname) result = ocr.ocr(img, cls=True) print(result img = cv2.imread(image_input_fullname) padded_img = add_padding_to_image(img) result = ocr.ocr 标注工具:PPOCRLabelv2 使用文档:https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.5/PPOCRLabel/README_ch.md

    6.4K00编辑于 2024-05-24
  • 来自专栏程序源代码

    【程序源代码】开源OCR图文识别工具

    内容描述 述 关键字:OCR图文 识别 Java调用百度OCR文字识别软件小工具,java版本 一款小巧方便,强大的文字识别软件,由Java编写,配上了窗口界面调用了百度ocr文字识别API 识别精度高

    3.6K30发布于 2019-12-25
  • 来自专栏张善友的专栏

    开源OCR引擎Tesseract

    知名的开源OCR引擎Tesseract 3.0版本日前发布,可以在项目网站下载:http://code.google.com/p/tesseract-ocr, 新版本支持中文,中文语言包定义http:/ 但作为一个引擎,它只提供命令行工具。 大致就是通过给定的包含已知字符的tiff文件生成相应的box文件,经过手工更正后,训练tesseract-OCR的识别能力。也可以用一些训练工具完成这个过程。 ImageMagick的大多数功能的使用都来源于命令行工具OCR开源程序tesseract

    9.3K102发布于 2018-01-30
  • 来自专栏快乐阿超

    开源ocr库tesseract

    ——爱默生 分享一个开源OCR库 文档链接:https://tesseract-ocr.github.io/ 源码地址:https://github.com/tesseract-ocr/tesseract

    2.2K40编辑于 2022-12-13
  • 来自专栏AI算法与图像处理

    Levenshtein OCR(已开源

    本文简要介绍ECCV 2022录用论文“Levenshtein OCR”的主要工作,该论文提出一个新的场景文本识别模型LevOCR。 本文的代码将会开源。 图1 LevOCR的解码过程。 五、相关资源 本文地址: https://link.springer.com/chapter/10.1007/978-3-031-19815-1_19 本文开源代码地址: https://github.com /wdp-007/Levenshtein-OCR (代码还没放出来) 参考文献 [1]Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D

    1.9K20编辑于 2022-12-11
  • 来自专栏小脑斧科技博客

    从图像中找到文字 -- 开源 OCR 工具 tesseract 使用简介

    OCR OCR 是 Optical Character Recognition (光学字符识别)的缩写,指的是通过检测图像,从而识别出文字的技术。 经过几十年的发展,如今 OCR 技术已经非常成熟,本文我们就来介绍由惠普公司开源OCR 算法组件 tesseract 的安装和使用。 例如在 Ubuntu 系统下,只需执行: apt-get install tesseract-ocr-all 3. 下面我们来看看如何通过 java SDK 调用 tesseract 实现 OCR 识别。 </exclusion> </exclusions> </dependency> 4.2 下载语言包 在官方文档网站找到需要识别的语言包: https://tesseract-ocr.github.io

    3.1K10编辑于 2022-06-27
  • 高效 OCR 图文识别工具盘点:熊猫 OCR 多引擎超便捷,Umi - OCR 开源可批量,天若 OCR 闪电识别!附下载攻略

    播放音乐等外部设置=>打开网址、运行文件、关闭窗口、关闭软件等变量设置=>自定义变量、内置变量、读取txt文件、读取excel文件等更多操作=>降低cpu、激活窗口、禁止外部输入扩展功能=>开启护盾、坐标工具 插件、umi-ocr、验证码识别、仿真驱动等生成脚本=>将制作好的脚本生成后发给客户、自定义软件页面内容Umi-OCR 截图OCROCR(光学字符识别)领域,Umi-OCR 一直凭借其强大的功能和开源特性备受关注 功能:截图OCR / 批量OCR / PDF识别 / 二维码 / 公式识别界面:全局设置:识别效果天若OCR_本地版天若OCR_本地版 比较简单,运行后,是在后台运行的,基本没什么界面,只需要像截图一样 天若OCR是一款高效的文字识别工具,作为生活类小程序,它能够快速将图片或截图中的文字转换为可编辑文本,支持多种语言识别且精度高 。 该工具支持多种语言识别,识别精度较高,用户可选择局部或全屏截图进行操作,流程简洁。适用于文档编辑、翻译等场景。天若OCR主要功能为高效文字识别,支持多语言转换,识别结果精准度高。

    2.5K10编辑于 2025-07-07
  • DeepSeek-OCR-2 开源 OCR 模型的技术

    DeepSeek-OCR-2开源OCR模型的技术OCR应用的场景和类型很广,本次使用Qwen2的架构,解决看的全(扫码方式优化)、看的的准(内容识别、视觉标记、降低重复率),多裁剪策略提取核心信息。 几乎同期,腾讯也在2025年底开源了HunyuanOCR(混元OCR)——一个仅1B参数却斩获多项SOTA的轻量级模型。 四、与其他主流OCR方案的对比4.1PaddleOCR:工业级成熟方案特点详情定位传统OCR工具库(检测+识别两阶段)优势生态完善、中文优化好、轻量模型多模型大小超轻量模型仅8.6MB适用场景移动端、边缘设备 、已知版式文档局限复杂版面需配合版面分析工具,非端到端对比结论:PaddleOCR适合需要精细控制和低资源占用的传统OCR任务,而DeepSeek-OCR-2和HunyuanOCR更适合需要端到端理解复杂文档的场景 通用多模态理解需求→选Qwen2-VL这两款中国团队开源OCR模型,不仅在技术指标上达到SOTA,更重要的是它们代表了开源社区对"文档智能"这一核心场景的深度思考。

    56710编辑于 2026-02-07
  • 来自专栏IT技术分享社区

    Umi-OCR开源可离线运行的高精度文字识别工具

    OCR(光学字符识别)技术正是解决这一痛点的利器,而在众多OCR工具中,Umi-OCR以其完全离线、免费开源、功能强大的特点可以帮大家解决识别相关的工作。 作为一款基于PaddleOCR-v3引擎开发的专业级OCR工具,Umi-OCR在GitHub上已经获得了超过36K的Star,成为了开源OCR领域的新里程碑。 官网:https://github.com/hiroi-sora/Umi-OCR项目介绍:开源免费的离线OCR解决方案Umi-OCR是一款基于PaddleOCR-json C++识别引擎构建的离线文字识别工具 该项目采用MIT开源协议,意味着用户可以自由使用、修改和分发软件,甚至可以进行商业化应用,而无需支付任何费用。这种开放性使得Umi-OCR不仅是一款工具,更是一个可以不断进化的生态系统。 总结:不可或缺的文字识别利器Umi-OCR作为一款完全离线、免费开源的文字识别工具,在功能丰富性、识别准确性和使用便捷性方面都表现出色。

    2.5K10编辑于 2025-11-10
  • 来自专栏编程进阶实战

    WPF开源的一款免费、开箱即用的翻译、OCR工具

    前言 今天大姚给大家分享一款由WPF开源的、免费的(MIT License)、即开即用、即用即走的翻译、OCR工具:STranslate。 工具快捷键 全局快捷键 可自行修改 Alt + A:打开软件界面,输入内容按回车翻译 Alt + D:复制当前鼠标选中内容并翻译 Alt + S:截图选中区域内容并翻译 Alt + G:打开主界面 Alt + Shift + D:打开监听鼠标划词,鼠标滑动选中文字立即翻译 Alt + Shift + S:完全离线文字识别(基于PaddleOCR) Alt + Shift + F:静默OCR(OCR后自动复制到剪贴板 宽度减少 Ctrl + Shift + + 最大高度增加 Ctrl + Shift + - 最大高度减少 Ctrl + 1...8 按顺序复制翻译服务结果 Ctrl + 9 复制最后一个翻译服务结果 工具源代码运行 /zggsong/STranslate/releases/tag/1.0.6.201 工具部分功能截图 项目源码地址 更多项目实用功能和特性欢迎前往项目开源地址查看,别忘了给项目一个Star支持。

    80910编辑于 2024-03-10
  • 来自专栏程序猿DD

    安利一款开源 OCR 工具,可快速提取截屏文字!

    这个实用小工具的开发也离不开谷歌经典 OCR 开源项目 Tesseract。 Tessract 的使用 Tesseract 是目前最好的用于机器打印字符识别的开源 OCR 工具。 Tesseract OCR 引擎于 20 世纪 80 年代出现,更新迭代至今,它已经包括内置的深度学习模型,变成了十分稳健的 OCR 工具。 Tesseract 支持 Unicode(UTF-8)字符集,可以识别超过 100 种语言,还包含多种输出支持,比如纯文本、PDF、TSV 等。 目前比较常用的中文 OCR 开源项目是 chineseocr,它基于 YOLO V3 与 CRNN 实现中文自然场景文字检测及识别,目前该项目已经有 2.5K 的 Star 量。 之前介绍过另一个开源的中文 OCR 项目,基于 chineseocr 做出改进,是一个超轻量级的中文字符识别项目,大家也可以关注下: 项目地址:https://github.com/ouyanghuiyu

    3.2K30发布于 2020-12-18
  • 来自专栏程序猿DD

    也许会成为你心中的OCR开源工具NO1!

    但凡是对国内OCR方面有所了解的工程师,一定或多或说听说过 PaddleOCR 这个项目。其主要推荐的 PP-OCR 算法更是被国内外企业OCR开发者广泛应用。 小编来给大家粗略的算一下: 2020年6月,发布OCR超轻量模型,登上GitHub Trending全球趋势榜日榜第一的宝座。 同年8月,开源CVPR2020算法,再次登上GitHub趋势榜单。 2021年1月,Style-Text文本合成算法发布,同时上线PPOCRLabel数据标注工具,被某主流报告评为中国GitHub Top20活跃项目。 同年4月,开源了PGNet端到端识别算法。 同年8月,开源了PP-Structure工具包,支持版面分析与表格识别。 同一月,GitHub上Star突破15k+,截止发文时点,已经16K+! 对于上述更新内容有兴趣想深度钻研的小伙伴,这里还有一份长达8页的文档,可供研究学习(下载地址同项目地址一并关注公众号回复关键字后提供) 从下面项目的更新记录我们也可以看到,就在前几天,项目组还就新技术的发布做了直播

    1.8K20编辑于 2023-04-04
  • OCR文字识别 在线工具分享

    这个时候,直接用在线OCR文字识别工具会更省事。 在线工具网址:https://see-tool.com/ocr-text-recognition工具截图:我做的这款OCR文字识别工具,主要面向普通用户,适合处理截图、笔记、表单、图片资料等内容。 这个工具适合谁学生整理课件、作业截图上班族提取表格、票据、通知里的文字日常把照片里的内容快速转成可编辑文本这个工具是我用Vue开发的,重点放在操作简单和反馈清晰上。 如果你经常需要把图片转成文字,这个工具会比手动敲字省下很多时间。

    17500编辑于 2026-04-15
  • 来自专栏AI科技时讯

    OCR文本图像合成工具

    OCR文本图像合成工具 问题 ---- 在进行文字识别时候,需要使用的数据集样式为一张含有文本的图片以及对应文本内容的标签。 数据来源有两种: 真实数据:通过真实数据去截取图片或者人工标注 生成数据:通过文本去生成对应的文本图片 真实数据的收集是比较费事费力的,因此可以使用一些生成数据的工具来无限量的生成想要的数据。 主要工具有: Text Recognition Data Generator: https://github.com/Belval/TextRecognitionDataGenerator Text Render : https://github.com/JarveeLee/SynthText_Chinese_version 这里详细介绍Text Recognition Data Generator工具的使用 Text -文本图像合成工具 OCR训练数据生成方法 GAN+文本生成:让文本以假乱真 GAN之根据文本描述生成图像 ocr文本合成 SynthText 文字识别(四)–大批量生成文字训练集

    2.3K10发布于 2020-11-03
  • 几大开源 OCR 超强工具,你值得拥有

    对比当前几大开源 OCR 超强工具 日常办公、资料整理、图片转文字场景中,OCR工具的出镜频率居高不下,谁还没被“手动打字录入图片文字”逼疯过? 一、前十大大开源OCR工具对比 地址可直接复制,一眼看清各工具底细: 排名 工具名称 GitHub 开源地址 核心优势 部署难度 适用场景 1 Tesseract OCR https://github.com Tesseract OCR开源OCR老大哥,稳就一个字 作为开源OCR圈的“老前辈”,Star数直接拉满56.3k+,生态成熟到离谱,虽然颜值一般,但耐造、免费、无套路。 OCR工具,覆盖了从新手办公到企业部署、从简单识别到高精度需求的全场景,全部免费开源,不用依赖付费接口,复制GitHub地址就能获取源码,安装也都简化到“复制命令”就能搞定。 #开源OCR #OCR工具推荐 #文字识别工具 #PaddleOCR #MinerU #DeepSeekOCR #HunyuanOCR #Tesseract #技术教程 #办公效率工具

    41710编辑于 2026-04-17
  • 来自专栏Oracle数据库技术

    浅谈Oracle RAC(8) -OCR和投票盘

    1.OCR功能 OCR是Oracle Cluster Register的缩写。OCR相当于集群软件GI的一个注册表,里面存储了关于集群的各种配置信息。 3.OCR的位置 我们可以通过下面的文件确定OCR的位置。 OCR既然是集群的注册表,那么OCR对于RAC来说则是非常重要的。所以甲骨文为OCR提供了备份和恢复机制。 OCR的备份分为自动备份和手动备份两种方式。 OCR的自动备份则是由OCR Cache Master节点上的CRSD进行的。CRSD进程每4小时备份一次OCR,并且将备份保留一个星期。 我们可以通过以下命令来查看OCR的备份信息。 8.投票盘设定规则 Oracle规定,当 某节点与过半数([投票盘数/2] +1) 的投票盘无法发生磁盘心跳时,该节点会被踢出集群。为了不造成浪费和产生多余的IO,配置奇数个投票盘更好一些。

    1.3K20编辑于 2022-08-19
  • 来自专栏程序那些事儿

    Umi-OCR开源、免费、离线、多功能的 OCR 图片文字识别软件

    幸运的是,现在有一款令人惊叹的工具出现了,它可以轻松解决这个问题,它就是 Umi-OCR。 Umi-OCR 是一款免费、离线且功能强大的 OCR 软件,它以其卓越的文字识别能力和众多实用功能闻名于世。 Umi-OCR 不仅仅是一款文字识别工具,它还提供了许多其他实用的功能,为用户带来更多的便利。其中包括强大的段落排版功能,能够优化文本的格式和排列,使您的文档呈现出更加整洁和专业的外观。 此外,Umi-OCR 还支持扫描和生成二维码,让您可以轻松处理与二维码相关的任务。 Umi-OCR 拥有直观简洁的用户界面,操作简单易用,无需专业技能即可上手。 最重要的是,Umi-OCR 完全离线运行,无需网络连接,保护您的隐私和数据安全。同时,它还提供了命令行调用和 HTTP 接口,方便开发者在自己的应用程序中集成 OCR 功能。 借助 Umi-OCR,您可以快速、准确地将纸质文档、图像中的文字转换为可编辑的电子文本。无论是日常办公、学习笔记,还是数字化档案管理,Umi-OCR 都是您的得力助手。

    22.9K20编辑于 2023-11-30
  • 来自专栏Mac资源分享

    TextMan mac(ocr文字识别工具)1.4.1

    想要快速的从图片提取文字,推荐ocr文字识别工具——TextMan,小巧简便,只需以和截图相同的方式选择屏幕区域,然后在剪贴板中找到所有已识别的文本即可粘贴到任何地方。  TextMan 下载功能特色选择屏幕区域通过绘制一个矩形来选择屏幕上的任何文本以启动 OCR 检测*。将它用于网站、PDF 和图像。

    7.8K10编辑于 2022-08-09
  • 来自专栏机器学习AI算法工程

    海康威视OCR表格识别开源

    LGPMA: Complicated Table Structure Recognition with Local and Global Pyramid Mask Alignment (ICDAR 2021).

    5.1K40发布于 2021-11-10
  • 来自专栏开源小分队

    免费的OCR识别工具就是香!

    哈喽,大家好,我是爱撸码的开源大叔! 经常在网上查询文档资料的朋友一定有过这样的经历:好不容易找到了需要的内容,可是别说下载了,连复制一句话都不给复制的。 PaddleOCR旨在打造一套丰富、领先、且实用的OCR工具库,助力使用者训练出更好的模型,并应用落地。 特性 丰富易用的OCR相关工具组件 半自动数据标注工具PPOCRLabel:支持快速高效的数据标注 数据合成工具Style-Text:批量合成大量与目标场景类似的图像 支持用户自定义训练,提供丰富的预测推理部署方案 支持PIP快速安装使用 可运行于Linux、Windows、MacOS等多种系统 支持多语言OCR模型 支持中英文数字组合识别、竖排文本识别、长文本识别 效果展示 不需要安装任何工具,可以直接在pc 该系统从骨干网络选择和调整、预测头部的设计、数据增强、学习率变换策略、正则化参数选择、预训练模型使用以及模型自动裁剪量化8个方面,采用19个有效策略,对各个模块的模型进行效果调优和瘦身,最终得到整体大小为

    7.6K30编辑于 2022-12-06
领券