搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏往期博文
开源的OCR工具基本使用：PaddleOCRTesseractCnOCR
前言因项目需要，调研了一下目前市面上一些开源的OCR工具，支持本地部署，非调用API，主要有PaddleOCR/CnOCR/chinese_lite OCR/EasyOCR/Tesseract/chineseocr = PaddleOCR(use_angle_cls=True, lang="ch", ocr_version='PP-OCRv4') image_input_fullname = 'img/output ) 根据PP-OCRv4的介绍文档，PP-OCRv4在训练时以(32,320), (48,320), (64,320)三个不同尺度上进行训练。 = PaddleOCR(use_angle_cls=True, lang="ch", ocr_version='PP-OCRv4') image_input_fullname = 'img/output 标注工具：PPOCRLabelv2 使用文档：https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.5/PPOCRLabel/README_ch.md
6.4K00编辑于 2024-05-24
来自专栏程序源代码
【程序源代码】开源OCR图文识别工具
内容描述述关键字：OCR图文识别 Java调用百度OCR文字识别软件小工具，java版本一款小巧方便，强大的文字识别软件，由Java编写，配上了窗口界面调用了百度ocr文字识别API 识别精度高
3.6K30发布于 2019-12-25
来自专栏张善友的专栏
开源OCR引擎Tesseract
知名的开源OCR引擎Tesseract 3.0版本日前发布，可以在项目网站下载：http://code.google.com/p/tesseract-ocr, 新版本支持中文,中文语言包定义http:/ 但作为一个引擎，它只提供命令行工具。大致就是通过给定的包含已知字符的tiff文件生成相应的box文件，经过手工更正后，训练tesseract-OCR的识别能力。也可以用一些训练工具完成这个过程。如果没有此参数，后果如下： Tesseract Open Source OCR Engine check_legal_image_size:Error:Only 1,2,4,5,6,8 OCR开源程序tesseract
9.3K102发布于 2018-01-30
来自专栏快乐阿超
开源ocr库tesseract
——爱默生分享一个开源的OCR库文档链接：https://tesseract-ocr.github.io/ 源码地址：https://github.com/tesseract-ocr/tesseract
2.2K40编辑于 2022-12-13
来自专栏AI算法与图像处理
Levenshtein OCR（已开源）
本文简要介绍ECCV 2022录用论文“Levenshtein OCR”的主要工作，该论文提出一个新的场景文本识别模型LevOCR。本文的代码将会开源。图1 LevOCR的解码过程。同样，在场景文本识别领域，一些最近的工作[4,5]开始通过融合视觉和语言这两个模态的信息来实现更高的识别准确率。受前面这些工作的启发，作者提出了一个新的场景文本识别模型LevOCR。五、相关资源本文地址： https://link.springer.com/chapter/10.1007/978-3-031-19815-1_19 本文开源代码地址： https://github.com /wdp-007/Levenshtein-OCR (代码还没放出来) 参考文献 [1]Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D
1.9K20编辑于 2022-12-11
来自专栏小脑斧科技博客
从图像中找到文字 -- 开源 OCR 工具 tesseract 使用简介
OCR OCR 是 Optical Character Recognition （光学字符识别）的缩写，指的是通过检测图像，从而识别出文字的技术。经过几十年的发展，如今 OCR 技术已经非常成熟，本文我们就来介绍由惠普公司开源的 OCR 算法组件 tesseract 的安装和使用。例如在 Ubuntu 系统下，只需执行： apt-get install tesseract-ocr-all 3. 下面我们来看看如何通过 java SDK 调用 tesseract 实现 OCR 识别。解决办法如下： cd ~/.m2/repository/net/sourceforge/tess4j/tess4j/2.0.1 mkdir darwin jar uf tess4j-2.0.1.jar
3.1K10编辑于 2022-06-27
高效 OCR 图文识别工具盘点：熊猫 OCR 多引擎超便捷，Umi - OCR 开源可批量，天若 OCR 闪电识别！附下载攻略
播放音乐等外部设置=>打开网址、运行文件、关闭窗口、关闭软件等变量设置=>自定义变量、内置变量、读取txt文件、读取excel文件等更多操作=>降低cpu、激活窗口、禁止外部输入扩展功能=>开启护盾、坐标工具插件、umi-ocr、验证码识别、仿真驱动等生成脚本=>将制作好的脚本生成后发给客户、自定义软件页面内容Umi-OCR 截图OCR在 OCR（光学字符识别）领域，Umi-OCR 一直凭借其强大的功能和开源特性备受关注功能：截图OCR / 批量OCR / PDF识别 / 二维码 / 公式识别界面：全局设置：识别效果天若OCR_本地版天若OCR_本地版比较简单，运行后，是在后台运行的，基本没什么界面，只需要像截图一样天若OCR是一款高效的文字识别工具，作为生活类小程序，它能够快速将图片或截图中的文字转换为可编辑文本，支持多种语言识别且精度高。该工具支持多种语言识别，识别精度较高，用户可选择局部或全屏截图进行操作，流程简洁。适用于文档编辑、翻译等场景。天若OCR主要功能为高效文字识别，支持多语言转换，识别结果精准度高。
2.5K10编辑于 2025-07-07
来自专栏翩翩白衣少年
2.7K Star 本地高精度OCR！由GPT-4o-mini驱动的开源OCR！
如果你正在寻找一款高精度、本地运行、支持复杂布局的 OCR 工具，那么 Zerox OCR 无疑是一个极佳的选择。核心优势 1、零样本 OCR 使用 GPT-4o-mini 模型进行文本识别，能够处理完全陌生的 PDF、图片等文档类型，不需要事先训练数据，即可提供高精度的 OCR 结果。无论是扫描版 PDF 还是其他格式，Zerox 都可以对它们进行 OCR 识别，生成准确的文本内容。 4、本地运行与 API 支持支持本地运行，无需担心隐私泄露问题。 • GPT-4o-mini 转换：每个生成的图像将被发送至 GPT-4o-mini 模型进行文本识别。是一款功能强大的本地开源工具，基于 GPT-4o-mini，能够高效处理复杂文档，并以 Markdown 格式输出，适合需要精确 OCR 处理的用户。
2.6K10编辑于 2024-10-21
DeepSeek-OCR-2 开源 OCR 模型的技术
DeepSeek-OCR-2开源OCR模型的技术OCR应用的场景和类型很广，本次使用Qwen2的架构，解决看的全（扫码方式优化）、看的的准（内容识别、视觉标记、降低重复率），多裁剪策略提取核心信息。几乎同期，腾讯也在2025年底开源了HunyuanOCR（混元OCR）——一个仅1B参数却斩获多项SOTA的轻量级模型。四、与其他主流OCR方案的对比4.1PaddleOCR：工业级成熟方案特点详情定位传统OCR工具库（检测+识别两阶段）优势生态完善、中文优化好、轻量模型多模型大小超轻量模型仅8.6MB适用场景移动端、边缘设备、已知版式文档局限复杂版面需配合版面分析工具，非端到端对比结论：PaddleOCR适合需要精细控制和低资源占用的传统OCR任务，而DeepSeek-OCR-2和HunyuanOCR更适合需要端到端理解复杂文档的场景通用多模态理解需求→选Qwen2-VL这两款中国团队开源的OCR模型，不仅在技术指标上达到SOTA，更重要的是它们代表了开源社区对"文档智能"这一核心场景的深度思考。
56610编辑于 2026-02-07
来自专栏IT技术分享社区
Umi-OCR：开源可离线运行的高精度文字识别工具
OCR（光学字符识别）技术正是解决这一痛点的利器，而在众多OCR工具中，Umi-OCR以其完全离线、免费开源、功能强大的特点可以帮大家解决识别相关的工作。作为一款基于PaddleOCR-v3引擎开发的专业级OCR工具，Umi-OCR在GitHub上已经获得了超过36K的Star，成为了开源OCR领域的新里程碑。官网：https://github.com/hiroi-sora/Umi-OCR项目介绍：开源免费的离线OCR解决方案Umi-OCR是一款基于PaddleOCR-json C++识别引擎构建的离线文字识别工具该项目采用MIT开源协议，意味着用户可以自由使用、修改和分发软件，甚至可以进行商业化应用，而无需支付任何费用。这种开放性使得Umi-OCR不仅是一款工具，更是一个可以不断进化的生态系统。总结：不可或缺的文字识别利器Umi-OCR作为一款完全离线、免费开源的文字识别工具，在功能丰富性、识别准确性和使用便捷性方面都表现出色。
2.5K10编辑于 2025-11-10
来自专栏编程进阶实战
WPF开源的一款免费、开箱即用的翻译、OCR工具
前言今天大姚给大家分享一款由WPF开源的、免费的（MIT License）、即开即用、即用即走的翻译、OCR工具：STranslate。工具快捷键全局快捷键可自行修改 Alt + A：打开软件界面，输入内容按回车翻译 Alt + D：复制当前鼠标选中内容并翻译 Alt + S：截图选中区域内容并翻译 Alt + G：打开主界面 Alt + Shift + D：打开监听鼠标划词，鼠标滑动选中文字立即翻译 Alt + Shift + S：完全离线文字识别(基于PaddleOCR) Alt + Shift + F：静默OCR(OCR后自动复制到剪贴板宽度减少 Ctrl + Shift + + 最大高度增加 Ctrl + Shift + - 最大高度减少 Ctrl + 1...8 按顺序复制翻译服务结果 Ctrl + 9 复制最后一个翻译服务结果工具源代码运行 /zggsong/STranslate/releases/tag/1.0.6.201 工具部分功能截图项目源码地址更多项目实用功能和特性欢迎前往项目开源地址查看，别忘了给项目一个Star支持。
80910编辑于 2024-03-10
来自专栏程序猿DD
安利一款开源 OCR 工具，可快速提取截屏文字！
这个实用小工具的开发也离不开谷歌经典 OCR 开源项目 Tesseract。 Tessract 的使用 Tesseract 是目前最好的用于机器打印字符识别的开源 OCR 工具。 Tesseract OCR 引擎于 20 世纪 80 年代出现，更新迭代至今，它已经包括内置的深度学习模型，变成了十分稳健的 OCR 工具。 Tesseract (v4) 最新版本支持基于深度学习的 OCR，准确率显著提高。底层的 OCR 引擎使用的是一种循环神经网络（RNN）——LSTM 网络。目前比较常用的中文 OCR 开源项目是 chineseocr，它基于 YOLO V3 与 CRNN 实现中文自然场景文字检测及识别，目前该项目已经有 2.5K 的 Star 量。之前介绍过另一个开源的中文 OCR 项目，基于 chineseocr 做出改进，是一个超轻量级的中文字符识别项目，大家也可以关注下：项目地址：https://github.com/ouyanghuiyu
3.2K30发布于 2020-12-18
来自专栏程序猿DD
也许会成为你心中的OCR开源工具NO1！
但凡是对国内OCR方面有所了解的工程师，一定或多或说听说过 PaddleOCR 这个项目。其主要推荐的 PP-OCR 算法更是被国内外企业OCR开发者广泛应用。小编来给大家粗略的算一下： 2020年6月，发布OCR超轻量模型，登上GitHub Trending全球趋势榜日榜第一的宝座。同年8月，开源CVPR2020算法，再次登上GitHub趋势榜单。 2021年1月，Style-Text文本合成算法发布，同时上线PPOCRLabel数据标注工具，被某主流报告评为中国GitHub Top20活跃项目。同年4月，开源了PGNet端到端识别算法。同年8月，开源了PP-Structure工具包，支持版面分析与表格识别。同一月，GitHub上Star突破15k+，截止发文时点，已经16K+！想加入体验OCR效果的小伙伴，别的不多说了，赶紧来关注获取项目地址及技术文档吧！点击下方卡片，关注公众号“TJ君” 回复“OCR”，获取仓库地址
1.8K20编辑于 2023-04-04
OCR文字识别在线工具分享
这个时候，直接用在线OCR文字识别工具会更省事。在线工具网址：https://see-tool.com/ocr-text-recognition工具截图：我做的这款OCR文字识别工具，主要面向普通用户，适合处理截图、笔记、表单、图片资料等内容。这个工具适合谁学生整理课件、作业截图上班族提取表格、票据、通知里的文字日常把照片里的内容快速转成可编辑文本这个工具是我用Vue开发的，重点放在操作简单和反馈清晰上。如果你经常需要把图片转成文字，这个工具会比手动敲字省下很多时间。
17500编辑于 2026-04-15
来自专栏AI科技时讯
OCR文本图像合成工具
OCR文本图像合成工具问题 ---- 在进行文字识别时候，需要使用的数据集样式为一张含有文本的图片以及对应文本内容的标签。数据来源有两种：真实数据：通过真实数据去截取图片或者人工标注生成数据：通过文本去生成对应的文本图片真实数据的收集是比较费事费力的，因此可以使用一些生成数据的工具来无限量的生成想要的数据。主要工具有： Text Recognition Data Generator: https://github.com/Belval/TextRecognitionDataGenerator Text Render : https://github.com/JarveeLee/SynthText_Chinese_version 这里详细介绍Text Recognition Data Generator工具的使用 Text -文本图像合成工具 OCR训练数据生成方法 GAN+文本生成：让文本以假乱真 GAN之根据文本描述生成图像 ocr文本合成 SynthText 文字识别（四）–大批量生成文字训练集
2.3K10发布于 2020-11-03
来自专栏运维开发故事
Kubernetes 可观测性：利用 4 个开源工具
在这篇文章中，我们将探讨四种开源工具和技术，你可以使用它们来减少停机时间、更有效地进行故障排除，并全面了解集群内发生的一切。开源工具和技术云原生计算基金会 (CNCF) 已经孵化和毕业了许多用于监控和可观察性的惊人技术和工具。其中四种工具和技术特别有用，可以被各种规模的组织利用。让我们跳进去。指标和警报 Prometheus于 2016 年 5 月 9 日被 CNCF 接受，是一个功能强大且 100% 开源的工具和时间序列数据库。鼓励团队合作：整个团队都可以了解如何使用这些工具。拥抱学习，并为你的工程团队提供他们需要的时间和资源，以便他们熟悉开源工具的世界。警惕告警疲劳：告警疲劳是组织规模扩大时的真正挑战。原文链接：https://www.cncf.io/blog/2022/08/01/kubernetes-monitoring-leveraging-4-open-source-toolsets/
1.2K30编辑于 2022-09-15
几大开源 OCR 超强工具，你值得拥有
对比当前几大开源 OCR 超强工具日常办公、资料整理、图片转文字场景中，OCR工具的出镜频率居高不下，谁还没被“手动打字录入图片文字”逼疯过？一、前十大大开源OCR工具对比地址可直接复制，一眼看清各工具底细：排名工具名称 GitHub 开源地址核心优势部署难度适用场景 1 Tesseract OCR https://github.com Tesseract OCR：开源OCR老大哥，稳就一个字作为开源OCR圈的“老前辈”，Star数直接拉满56.3k+，生态成熟到离谱，虽然颜值一般，但耐造、免费、无套路。 OCR工具，覆盖了从新手办公到企业部署、从简单识别到高精度需求的全场景，全部免费开源，不用依赖付费接口，复制GitHub地址就能获取源码，安装也都简化到“复制命令”就能搞定。 #开源OCR #OCR工具推荐 #文字识别工具 #PaddleOCR #MinerU #DeepSeekOCR #HunyuanOCR #Tesseract #技术教程 #办公效率工具
41710编辑于 2026-04-17
来自专栏程序那些事儿
Umi-OCR：开源、免费、离线、多功能的 OCR 图片文字识别软件
幸运的是，现在有一款令人惊叹的工具出现了，它可以轻松解决这个问题，它就是 Umi-OCR。 Umi-OCR 是一款免费、离线且功能强大的 OCR 软件，它以其卓越的文字识别能力和众多实用功能闻名于世。 Umi-OCR 不仅仅是一款文字识别工具，它还提供了许多其他实用的功能，为用户带来更多的便利。其中包括强大的段落排版功能，能够优化文本的格式和排列，使您的文档呈现出更加整洁和专业的外观。此外，Umi-OCR 还支持扫描和生成二维码，让您可以轻松处理与二维码相关的任务。 Umi-OCR 拥有直观简洁的用户界面，操作简单易用，无需专业技能即可上手。最重要的是，Umi-OCR 完全离线运行，无需网络连接，保护您的隐私和数据安全。同时，它还提供了命令行调用和 HTTP 接口，方便开发者在自己的应用程序中集成 OCR 功能。借助 Umi-OCR，您可以快速、准确地将纸质文档、图像中的文字转换为可编辑的电子文本。无论是日常办公、学习笔记，还是数字化档案管理，Umi-OCR 都是您的得力助手。
22.9K20编辑于 2023-11-30
来自专栏Mac资源分享
TextMan mac(ocr文字识别工具)1.4.1
想要快速的从图片提取文字，推荐ocr文字识别工具——TextMan，小巧简便，只需以和截图相同的方式选择屏幕区域，然后在剪贴板中找到所有已识别的文本即可粘贴到任何地方。 TextMan 下载功能特色选择屏幕区域通过绘制一个矩形来选择屏幕上的任何文本以启动 OCR 检测*。将它用于网站、PDF 和图像。
7.8K10编辑于 2022-08-09
来自专栏机器学习AI算法工程
海康威视OCR表格识别开源
LGPMA: Complicated Table Structure Recognition with Local and Global Pyramid Mask Alignment (ICDAR 2021).
5.1K40发布于 2021-11-10

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

开源的OCR工具基本使用：PaddleOCRTesseractCnOCR

【程序源代码】开源OCR图文识别工具

开源OCR引擎Tesseract

开源ocr库tesseract

Levenshtein OCR（已开源）

从图像中找到文字 -- 开源 OCR 工具 tesseract 使用简介

高效 OCR 图文识别工具盘点：熊猫 OCR 多引擎超便捷，Umi - OCR 开源可批量，天若 OCR 闪电识别！附下载攻略

2.7K Star 本地高精度OCR！由GPT-4o-mini驱动的开源OCR！

DeepSeek-OCR-2 开源 OCR 模型的技术

Umi-OCR：开源可离线运行的高精度文字识别工具

WPF开源的一款免费、开箱即用的翻译、OCR工具

安利一款开源 OCR 工具，可快速提取截屏文字！

也许会成为你心中的OCR开源工具NO1！

OCR文字识别在线工具分享

OCR文本图像合成工具

Kubernetes 可观测性：利用 4 个开源工具

几大开源 OCR 超强工具，你值得拥有

Umi-OCR：开源、免费、离线、多功能的 OCR 图片文字识别软件

TextMan mac(ocr文字识别工具)1.4.1

海康威视OCR表格识别开源

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

开源的OCR工具基本使用：PaddleOCRTesseractCnOCR

【程序源代码】开源OCR图文识别工具

开源OCR引擎Tesseract

开源ocr库tesseract

Levenshtein OCR（已开源）

从图像中找到文字 -- 开源 OCR 工具 tesseract 使用简介

高效 OCR 图文识别工具盘点：熊猫 OCR 多引擎超便捷，Umi - OCR 开源可批量，天若 OCR 闪电识别！附下载攻略

2.7K Star 本地高精度OCR！由GPT-4o-mini驱动的开源OCR！

DeepSeek-OCR-2 开源 OCR 模型的技术

Umi-OCR：开源可离线运行的高精度文字识别工具

WPF开源的一款免费、开箱即用的翻译、OCR工具

安利一款开源 OCR 工具，可快速提取截屏文字！

也许会成为你心中的OCR开源工具NO1！

OCR文字识别 在线工具分享

OCR文本图像合成工具

Kubernetes 可观测性：利用 4 个开源工具

几大开源 OCR 超强工具，你值得拥有

Umi-OCR：开源、免费、离线、多功能的 OCR 图片文字识别软件

TextMan mac(ocr文字识别工具)1.4.1

海康威视OCR表格识别开源

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

OCR文字识别在线工具分享