我想检索网页中的所有链接,但网页使用的是javascript,并且每个页面都包含许多链接。
如何转到下一页并读取其在java程序中的内容?
发布于 2010-12-14 17:08:34
从Javascript页面获取这些信息可能是一项艰巨的工作。您的程序必须解释整个页面,并理解JS正在做什么。并不是所有的网络蜘蛛都这么做。
大多数现代的JS库(jquery等)大多是操纵CSS和HTML元素的属性。因此,首先必须从HTML源代码和JS生成“平面”HTML,然后可能在平面HTML代码上运行一个经典的网络爬行器。
(例如,FF webdeveloper插件允许在所有JS完成后查看页面的原始源代码和生成的代码)。
发布于 2010-12-14 16:50:41
您要查找的内容名为Web Spider engine。有很多开源的网络蜘蛛引擎是可用的。检查http://j-spider.sourceforge.net/,例如
https://stackoverflow.com/questions/4437324
复制相似问题