我正在努力创建一个Java的网络爬虫。爬虫访问网站,使用JDBC访问/存储数据库中的数据,还将文件存储在本地或云存储上。作为爬行的一部分,我想记录爬虫使用的确切细节--Number of sites visited (HTTP+HTTPS)Number of bytes of data stored+accessed in cloud storage (like <e
我已经创建了一个爬虫,当在S3上添加新对象时,它会从SQS中提取消息,但是当它运行消息“接收到的目标的唯一事件数为0”时,就会打印出预期的表。当我从爬虫设置中删除S3事件时,将成功地创建表。BENCHMARK : Running Start Crawl for Crawler [crawler_name]
INFO : The crawl is running by consuming Amazon