import boto3

# Document
s3BucketName = "ki-textract-demo-docs"
documentName = "simple-document-image.jpg"

# Amazon Textract client
textract = boto3.client('textract')

# Call Amazon Textract
response = textract.detect_document_text(
    Document={
        'S3Object': {
            'Bucket': s3BucketName,
            'Name': documentName
        }
    })

#print(response)

# Print detected text
for item in response["Blocks"]:
    if item["BlockType"] == "LINE":
        print ('\033[94m' +  item["Text"] + '\033[0m')

票数 2

Stack Overflow用户

发布于 2019-06-12 20:10:54

看起来你是新鸟，所以让我帮助你快速演练理解你的关键字中使用的术语。

OCR是光学字符识别的概念，Tesseract是用于OCR的特殊库处理。OpenCV在图像处理库中提供帮助，帮助进行目标检测和识别。

可以，如果文本超过300dpi，您可以使用tesseract库从图像中提取文本，但在此之前，如果文本的字体对系统非常新或未知，则应使用该字体训练tesseract模型。

还请记住，如果您能够在调用tesseract之前对文本进行框图像处理，它将更准确地工作。

某些文字框图像，dpi将创建警报，但这些是您工作的核心概念。

我的建议是，如果你想从图像中提取数字，请一步一步地进行。

通过增强其对要提取区域的quality.
Detect来处理图像。
找到等高线和面积。
将其传递给长方体图像编辑器并调整参数
最后将其提供给Tesseract。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/56561357

复制

相似问题

问在OCR/tesseract/OpenCV中，有没有什么方法可以从图像的特定区域提取文本？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在OCR/tesseract/OpenCV中，有没有什么方法可以从图像的特定区域提取文本？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在OCR/tesseract/OpenCV中，有没有什么方法可以从图像的特定区域提取文本？
EN