文章/答案/技术大牛

发布

社区首页 >问答首页 >从报纸文章中提取古吉拉特语( Google输入工具支持的语言)

问从报纸文章中提取古吉拉特语( Google输入工具支持的语言)
EN

Stack Overflow用户

提问于 2019-08-06 04:46:03

回答 1查看 744关注 0票数 0

我想从报纸文章(照片/数字拷贝)中提取(古吉拉特语)文本，

目前，我手动将文章裁剪成小片段，因为大多数工具都是水平地提取文本，这不适用于报纸文章的柱状结构。

然后，我垂直合并所有的图像，并上传到谷歌驱动器。

然后，我用google打开图像，在这里，我以良好的准确性获得图像和文本(因为Google输入工具支持Gujarati语言)。

我试图自动化所有上述任务，以便我只提供报纸文章作为输入，并得到最后的文本输出。

我听说过python自动化脚本，但不知道如何使用它。

因此，我最终需要执行2项任务：(1)从报纸文章中按顺序识别块，(2)图像->文本转换

这里是一个示例文章图像：

帮助我“我怎样才能加快我的任务?”

python

text

extract

google-docs

google-docs-api

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-08-07 07:26:28

首先，您需要熟悉openCV.To，以下是基本思想：

# convert the image to binary
import cv2
image = cv2.imread('news.jpg')
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY) # convert2grayscale
(thresh, binary) = cv2.threshold(gray, 150, 255, cv2.THRESH_BINARY | cv2.THRESH_OTSU) # convert2binary
cv2.imshow('binary', binary)
(_, contours, _) = cv2.findContours(~binary,cv2.RETR_EXTERNAL,cv2.CHAIN_APPROX_SIMPLE) 
# find contours
for contour in contours:
    """
    draw a rectangle around those contours on main image
    """
    [x,y,w,h] = cv2.boundingRect(contour)
    cv2.rectangle(image, (x,y), (x+w,y+h), (0, 255, 0), 1)
cv2.imshow('contour', image)

然后阅读了Python-tesseract(用于python的光学字符识别工具)。

我谨提及一些有用的资料，这些资料可能对你们有帮助：

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/57369093

复制

相似问题

问从报纸文章中提取古吉拉特语( Google输入工具支持的语言)
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从报纸文章中提取古吉拉特语( Google输入工具支持的语言)EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从报纸文章中提取古吉拉特语( Google输入工具支持的语言)
EN