我需要从S3中的PDF和图像文件中获取OCR (光学字符识别)数据,以便用户可以对这些OCR数据执行搜索。我正在使用AWS提取的文本提取来获取OCR数据。
我计划将OCR数据存储在Dynamo中,并在其中执行搜索查询。
我所面临的问题是因为发电机db项的大小限制,限制在400 db以内。
在我的情况下,用户上传100+ MB PDF文件在S3中,提取的文本内容将超过这一限制。那么,在这种情况下,最好的方法是什么。
请提前帮忙谢谢!
发布于 2020-04-08 06:39:03
我相信您仍然可以使用DynamoDB,您只需将数据拆分成多个项即可。在这种情况下,分区键可能是PDF文件键/名称,排序键可能是某种部件键。然后可以使用查询(而不是GetItem)获取包含文件文本的所有项。
当您处理大量数据时,DynamoDB变得非常昂贵,因此另一种选择可能是S3和雅典娜:
https://aws.amazon.com/blogs/big-data/analyzing-data-in-s3-using-amazon-athena/
基本上,您将OCR数据写入文本文件并将其存储在S3中。然后,您可以使用雅典娜对该数据运行查询。这种解决方案非常灵活,而且可能比DynamoDB便宜得多。业绩可能会有一些不利因素。
https://stackoverflow.com/questions/61068742
复制相似问题