我有一个(前)同事几年前用Jaxer写的旧工具,我想替换/重写它。
Jaxer是一个基于无头Mozilla/Gecko浏览器的(废弃的)服务器端框架,允许您使用JavaScript和DOM服务器端。
由于Jaxer被抛弃了,而且我在一台新计算机上安装和运行Aptana Studio1.5和Jaxer时遇到了很大的问题,所以我正在寻找一个库/框架/一些东西,我可以基于它来创建一个新的版本。
此工具仅在Aptana Studio (Jaxer的IDE )中本地运行,并且从未打算成为实际的web应用程序。它通过将我们的客户网站一页一页地加载到服务器端的Mozilla中来抓取它们。为了做到这一点,它使用jQuery和预定义的CSS选择器来查找菜单中的链接,并解析出页面中的其他信息。最终的结果基本上是一个美化的网站地图。
如果可能,我希望保持这种工作方式,继续使用jQuery/JavaScript/ DOM来加载和解析/访问页面,但可以将其包装在基于另一种语言(如Java )的框架中。我考虑过自己写一些基于Gecko的东西,但这似乎有点过分了,所以我对其他建议持开放态度。
发布于 2012-02-21 20:26:38
就HTML爬行/解析而言:http://ccil.org/~cowan/XML/tagsoup/
或
http://jsoup.org/
https://stackoverflow.com/questions/9375920
复制相似问题