我用Perl构建了一个网络爬虫。
我在用
HTML::ContentExtractor
LWP::UserAgent
HTML::LinkExtor从网页中提取文本。
示例代码web cralwer perl的参考链接
发行:
问题是,它不会从具有.aspx扩展名的网页中获取文本。它非常适合其他网页,我不知道为什么这个爬虫在aspx页面上会失败。
发布于 2014-04-25 07:04:44
若要使用JavaScript访问处理网站,请使用WWW::Mechanize::Firefox
https://stackoverflow.com/questions/23286099
复制相似问题