首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在AWS中存储和执行大文本搜索

在AWS中存储和执行大文本搜索
EN

Stack Overflow用户
提问于 2020-04-06 20:50:33
回答 1查看 286关注 0票数 1

我需要从S3中的PDF和图像文件中获取OCR (光学字符识别)数据,以便用户可以对这些OCR数据执行搜索。我正在使用AWS提取的文本提取来获取OCR数据。

我计划将OCR数据存储在Dynamo中,并在其中执行搜索查询。

我所面临的问题是因为发电机db项的大小限制,限制在400 db以内。

在我的情况下,用户上传100+ MB PDF文件在S3中,提取的文本内容将超过这一限制。那么,在这种情况下,最好的方法是什么。

请提前帮忙谢谢!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-04-08 06:39:03

我相信您仍然可以使用DynamoDB,您只需将数据拆分成多个项即可。在这种情况下,分区键可能是PDF文件键/名称,排序键可能是某种部件键。然后可以使用查询(而不是GetItem)获取包含文件文本的所有项。

当您处理大量数据时,DynamoDB变得非常昂贵,因此另一种选择可能是S3和雅典娜:

https://aws.amazon.com/blogs/big-data/analyzing-data-in-s3-using-amazon-athena/

基本上,您将OCR数据写入文本文件并将其存储在S3中。然后,您可以使用雅典娜对该数据运行查询。这种解决方案非常灵活,而且可能比DynamoDB便宜得多。业绩可能会有一些不利因素。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61068742

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档