文章/答案/技术大牛

发布

社区首页 >问答首页 >在AWS中存储和执行大文本搜索

问在AWS中存储和执行大文本搜索
EN

Stack Overflow用户

提问于 2020-04-06 20:50:33

回答 1查看 286关注 0票数 1

我需要从S3中的PDF和图像文件中获取OCR (光学字符识别)数据，以便用户可以对这些OCR数据执行搜索。我正在使用AWS提取的文本提取来获取OCR数据。

我计划将OCR数据存储在Dynamo中，并在其中执行搜索查询。

我所面临的问题是因为发电机db项的大小限制，限制在400 db以内。

在我的情况下，用户上传100+ MB PDF文件在S3中，提取的文本内容将超过这一限制。那么，在这种情况下，最好的方法是什么。

请提前帮忙谢谢！

amazon-s3

amazon-dynamodb

amazon-textract

amazon-web-services

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-04-08 06:39:03

我相信您仍然可以使用DynamoDB，您只需将数据拆分成多个项即可。在这种情况下，分区键可能是PDF文件键/名称，排序键可能是某种部件键。然后可以使用查询(而不是GetItem)获取包含文件文本的所有项。

当您处理大量数据时，DynamoDB变得非常昂贵，因此另一种选择可能是S3和雅典娜：

https://aws.amazon.com/blogs/big-data/analyzing-data-in-s3-using-amazon-athena/

基本上，您将OCR数据写入文本文件并将其存储在S3中。然后，您可以使用雅典娜对该数据运行查询。这种解决方案非常灵活，而且可能比DynamoDB便宜得多。业绩可能会有一些不利因素。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/61068742

复制

相似问题

问在AWS中存储和执行大文本搜索
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在AWS中存储和执行大文本搜索EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在AWS中存储和执行大文本搜索
EN