首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >写爬虫的工具/库是什么?

写爬虫的工具/库是什么?
EN

Stack Overflow用户
提问于 2011-03-21 17:41:13
回答 4查看 118关注 0票数 1

我需要一个工具

  1. 登录网站(在表单中插入名称和密码)
  2. 一旦登录下载我需要的几个HTML页面

这样的工具需要在Linux上运行,如果这种工具看起来像HTTP服务器上的通用浏览器,那就太好了。

我可以使用哪些工具/库?

EN

回答 4

Stack Overflow用户

回答已采纳

发布于 2011-03-21 17:42:52

如果您熟悉Python,那么刮痕是可用的。有一个学习曲线,因为它是一个完整的爬行和屏幕抓取框架。它应该能做你想做的事。以下是模拟用户登录的文档链接。它还支持用户代理欺骗,因此它可以看起来是一个浏览器。它将遇到的一件事是与动态内容(即JavaScript)交互。

如果您想要一些非常简单的东西,请尝试刮伤。我已经在几个项目中使用过它,它已经能够完成这项工作。它更像是一个刮刀器,所以你必须自己添加爬行逻辑。

票数 0
EN

Stack Overflow用户

发布于 2011-03-21 17:47:08

惠特支持身份验证和其他大多数支持web的技术。因为该软件在控制台上工作,所以可以使用您选择的语言包装它(输入/输出)。

您也可以使用它作为一个实用程序,就像现在一样,不需要任何额外的编程,以获得您认为需要的几个页面。例如,医生们显示了在HTTP服务器上进行身份验证的行选项--http-user=user--http-password=password

事实上,该网站指出:

它是一个非交互式的命令行工具,因此可以很容易地从脚本、cron作业、没有terminals支持的终端调用它。

它可以在大多数平台上运行。

票数 0
EN

Stack Overflow用户

发布于 2011-03-21 17:48:56

一个著名的工具是BeautifulSoup (在Python中)。这里有一个例子:

http://lethain.com/entry/2008/aug/10/an-introduction-to-compassionate-screenscraping/和这里:

我在哪里可以找到一些“你好世界”-simple美丽汤的例子?

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5381447

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档