我想抓取一个网站使用C#或VB.NET。我希望爬虫从网页中提取网址,我也希望爬虫遵循网址,以便我能够从网站中提取所有的网址。
我该怎么写呢?
发布于 2011-04-06 17:39:43
在这种情况下,什么是网站?
本地虚拟目录?静态网页?动态页面托管在什么地方?
看
wget --mirrorCurl在这里也可以有选择。
此外,在开始搜索网络之前,请先阅读有关robots.txt的信息:)
https://stackoverflow.com/questions/5564269
复制相似问题