我是亚马逊的新手。我有一个Java文件,它读取爬行数据的GBs,我正在使用AWS ToolKit for Eclipse运行这个文件。这里的缺点是,如果我需要读取所有爬行的数据,我必须让我的机器运行数周,这是不可能的。除此之外,我不能将GBs数据下载到我的本地PC上(因为它正在读取数据)。我听说网络爬虫在亚马逊运行了几个星期,没有将数据下载到开发人员机器中,也没有让开发人员在不关闭几个月的情况下打开机器。
我想要的功能就像亚马逊Ela
我正在通过aws glue爬行数据到数据目录。但是我对数据库的定义有点困惑。根据我在亚马逊网络服务文档A database in the AWS Glue Data Catalog is a container that holds tables.我想知道数据库到底包含了什么。它是否加载来自其他数据源的所有数据并在这些数据源上创建目录?或者它只包含目录?如何知道glue数据库中表的大小?以及它使用的数据库类型,如no