有人能告诉我nutch使用哪种协议来获取页面吗?我想看看nutch提出了什么样的请求?
我使用charles proxy来查看请求信息,但遗憾的是没有从那里获得任何信息。我是不是错过了charles proxy或者nutch的什么?
我也尝试过wireshark,但有太多的数据包,我不能识别哪个是nutch?
请帮帮我..
发布于 2012-07-02 23:28:17
Nutch是一个网络爬虫,所以我猜它使用的是HTTP协议。最有可能的是HTTP GET来获取页面。
如果您需要更多信息(例如,nutch的用户代理),请考虑在您的机器上设置apache web服务器,并抓取一些测试页面。然后查看apache访问日志。
https://stackoverflow.com/questions/10892893
复制相似问题