我创建了一个glue爬虫,它爬行数据并在glue数据目录中创建表。假设我有一个CSV文件(file1.csv),它的模式类似于(id,name),一旦爬虫作业执行完毕,它就会创建包含2列(id,name)的雅典娜表(crawler_file)。现在有了一个新文件(file2.csv),它的模式类似于(id,name,roll_no)。目前,当glue爬虫正在执行时,它正在创建一个新的带有模式(id,name,roll_no)的雅典娜表(crawler_file_111)。我是否可以这样配置crawler,使crawler不创建新表,而是更新表的现有架构?在这个场景中,它应该更新现有的雅典娜表(crawler_file),而不是创建一个新的雅典娜表(crawler_file_111)。我能以某种方式实现这个场景吗?
发布于 2018-12-20 00:53:36
在“编辑爬网程序”页中,请启用以下选项。这对你一定很管用。

https://stackoverflow.com/questions/53849366
复制相似问题