首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从报纸文章中提取古吉拉特语( Google输入工具支持的语言)

从报纸文章中提取古吉拉特语( Google输入工具支持的语言)
EN

Stack Overflow用户
提问于 2019-08-06 04:46:03
回答 1查看 744关注 0票数 0

我想从报纸文章(照片/数字拷贝)中提取(古吉拉特语)文本,

目前,我手动将文章裁剪成小片段,因为大多数工具都是水平地提取文本,这不适用于报纸文章的柱状结构。

然后,我垂直合并所有的图像,并上传到谷歌驱动器。

然后,我用google打开图像,在这里,我以良好的准确性获得图像和文本(因为Google输入工具支持Gujarati语言)。

我试图自动化所有上述任务,以便我只提供报纸文章作为输入,并得到最后的文本输出。

我听说过python自动化脚本,但不知道如何使用它。

因此,我最终需要执行2项任务:(1)从报纸文章中按顺序识别块,(2)图像->文本转换

这里是一个示例文章图像:

帮助我“我怎样才能加快我的任务?”

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-08-07 07:26:28

首先,您需要熟悉openCV.To,以下是基本思想:

代码语言:javascript
复制
# convert the image to binary
import cv2
image = cv2.imread('news.jpg')
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY) # convert2grayscale
(thresh, binary) = cv2.threshold(gray, 150, 255, cv2.THRESH_BINARY | cv2.THRESH_OTSU) # convert2binary
cv2.imshow('binary', binary)
(_, contours, _) = cv2.findContours(~binary,cv2.RETR_EXTERNAL,cv2.CHAIN_APPROX_SIMPLE) 
# find contours
for contour in contours:
    """
    draw a rectangle around those contours on main image
    """
    [x,y,w,h] = cv2.boundingRect(contour)
    cv2.rectangle(image, (x,y), (x+w,y+h), (0, 255, 0), 1)
cv2.imshow('contour', image)

然后阅读了Python-tesseract(用于python的光学字符识别工具)。

我谨提及一些有用的资料,这些资料可能对你们有帮助:

  1. article-extraction-from-newspaper-image-in-python-and-opencv
  2. finding-blocks-of-text-in-an-image-using-python-opencv-and-numpy
  3. opencv-ocr-and-text-recognition-with-tesseract
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/57369093

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档