我已经创建了一个爬虫,当在S3上添加新对象时,它会从SQS中提取消息,但是当它运行消息“接收到的目标的唯一事件数为0”时,就会打印出预期的表。当我从爬虫设置中删除S3事件时,将成功地创建表。
执行日志:
BENCHMARK : Running Start Crawl for Crawler [crawler_name]
INFO : The crawl is running by consuming Amazon S3 events.
INFO : The number of messages in the SQS queue arn:aws:sqs:[myqueue] is 17
INFO : The number of messages in the SQS queue arn:aws:sqs:[myqueue-dlq] is 0
INFO : The number of unique events received is 0 for the target s3://[mybucket]/[myfolder]
BENCHMARK : Crawler has finished running and is in state READY发布于 2022-04-27 16:21:21
您是使用Amazon事件通知,还是使用Amazon S3桶通知向Amazon发送通知?我也面临着同样的问题,对我来说,这个问题是由于我使用S3事件通知(通过AWS事件桥服务)而不是普通的旧亚马逊S3桶通知将S3通知消息转发到Amazon时造成的。切换到亚马逊的S3桶通知之后,这个问题就解决了。亚马逊的S3桶通知和S3事件通知的消息格式不同,看起来AWS爬虫不处理/识别通过Amazon事件通知接收的消息。希望这能有所帮助。
https://stackoverflow.com/questions/70807055
复制相似问题