我需要一个工具
这样的工具需要在Linux上运行,如果这种工具看起来像HTTP服务器上的通用浏览器,那就太好了。
我可以使用哪些工具/库?
发布于 2011-03-21 17:42:52
如果您熟悉Python,那么刮痕是可用的。有一个学习曲线,因为它是一个完整的爬行和屏幕抓取框架。它应该能做你想做的事。以下是模拟用户登录的文档链接。它还支持用户代理欺骗,因此它可以看起来是一个浏览器。它将遇到的一件事是与动态内容(即JavaScript)交互。
如果您想要一些非常简单的东西,请尝试刮伤。我已经在几个项目中使用过它,它已经能够完成这项工作。它更像是一个刮刀器,所以你必须自己添加爬行逻辑。
发布于 2011-03-21 17:47:08
惠特支持身份验证和其他大多数支持web的技术。因为该软件在控制台上工作,所以可以使用您选择的语言包装它(输入/输出)。
您也可以使用它作为一个实用程序,就像现在一样,不需要任何额外的编程,以获得您认为需要的几个页面。例如,医生们显示了在HTTP服务器上进行身份验证的行选项--http-user=user和--http-password=password。
事实上,该网站指出:
它是一个非交互式的命令行工具,因此可以很容易地从脚本、cron作业、没有terminals支持的终端调用它。
它可以在大多数平台上运行。
发布于 2011-03-21 17:48:56
一个著名的工具是BeautifulSoup (在Python中)。这里有一个例子:
http://lethain.com/entry/2008/aug/10/an-introduction-to-compassionate-screenscraping/和这里:
https://stackoverflow.com/questions/5381447
复制相似问题