我正在从事一个项目,以获得谷歌搜索网页,然后清理HTML标签,以获得纯文本内容。
对可用工具(特别是Python工具)
非常感谢。
发布于 2011-09-16 02:33:12
终于找到了一套不错的BootCat。
发布于 2011-03-05 23:08:49
我会看看Pattern,这是一个Python web挖掘模块,提供了一套文本检索、分析和viz工具。我没有亲自使用过它,但看起来很强大。
模块pattern.web是一个网络工具包,捆绑了各种应用程序接口(谷歌,Gmail,冰,推特,维基百科,Flickr)与一个强大的超文本标记语言解析器和网络蜘蛛。它的目的是以一种易于使用、统一的方式检索在线内容。
发布于 2011-03-05 09:38:07
Python有一个内置的,实际上非常快,找到了here。还有一个非常强大的叫做Beautiful Soup的插件,它提供了额外的功能,特别是对于HTML抓取。
然而,我也不得不问,为什么不使用搜索API呢?
https://stackoverflow.com/questions/5199552
复制相似问题