首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用于解析/爬行网站的Jaxer的替代品

用于解析/爬行网站的Jaxer的替代品
EN

Stack Overflow用户
提问于 2012-02-21 18:30:10
回答 1查看 189关注 0票数 0

我有一个(前)同事几年前用Jaxer写的旧工具,我想替换/重写它。

Jaxer是一个基于无头Mozilla/Gecko浏览器的(废弃的)服务器端框架,允许您使用JavaScript和DOM服务器端。

由于Jaxer被抛弃了,而且我在一台新计算机上安装和运行Aptana Studio1.5和Jaxer时遇到了很大的问题,所以我正在寻找一个库/框架/一些东西,我可以基于它来创建一个新的版本。

此工具仅在Aptana Studio (Jaxer的IDE )中本地运行,并且从未打算成为实际的web应用程序。它通过将我们的客户网站一页一页地加载到服务器端的Mozilla中来抓取它们。为了做到这一点,它使用jQuery和预定义的CSS选择器来查找菜单中的链接,并解析出页面中的其他信息。最终的结果基本上是一个美化的网站地图。

如果可能,我希望保持这种工作方式,继续使用jQuery/JavaScript/ DOM来加载和解析/访问页面,但可以将其包装在基于另一种语言(如Java )的框架中。我考虑过自己写一些基于Gecko的东西,但这似乎有点过分了,所以我对其他建议持开放态度。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-02-21 20:26:38

就HTML爬行/解析而言:http://ccil.org/~cowan/XML/tagsoup/

http://jsoup.org/

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/9375920

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档