首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >获取Google搜索结果和清理HTML标签的建议

获取Google搜索结果和清理HTML标签的建议
EN

Stack Overflow用户
提问于 2011-03-05 05:36:50
回答 3查看 419关注 0票数 1

我正在从事一个项目,以获得谷歌搜索网页,然后清理HTML标签,以获得纯文本内容。

对可用工具(特别是Python工具)

非常感谢。

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2011-09-16 02:33:12

终于找到了一套不错的BootCat

票数 0
EN

Stack Overflow用户

发布于 2011-03-05 23:08:49

我会看看Pattern,这是一个Python web挖掘模块,提供了一套文本检索、分析和viz工具。我没有亲自使用过它,但看起来很强大。

模块pattern.web是一个网络工具包,捆绑了各种应用程序接口(谷歌,Gmail,冰,推特,维基百科,Flickr)与一个强大的超文本标记语言解析器和网络蜘蛛。它的目的是以一种易于使用、统一的方式检索在线内容。

票数 2
EN

Stack Overflow用户

发布于 2011-03-05 09:38:07

Python有一个内置的,实际上非常快,找到了here。还有一个非常强大的叫做Beautiful Soup的插件,它提供了额外的功能,特别是对于HTML抓取。

然而,我也不得不问,为什么不使用搜索API呢?

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5199552

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档