首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Scrapy可以用作实时包装吗?

Scrapy可以用作实时包装吗?
EN

Stack Overflow用户
提问于 2013-08-20 15:53:16
回答 1查看 590关注 0票数 2

我希望有人能够对利用scrapy框架创建实时包装器的可行性提供一些见解。

为了澄清我对“包装器”一词的定义,请允许我描述一下我的情况.我希望使用scrapy来编写一个解决方案,允许用户在一个网站上执行搜索查询,而这个搜索查询反过来又会实时调用一只刮刮蜘蛛,在该蜘蛛被告知的范围内:

  1. 登录到第三方写
  2. 执行用户搜索查询
  3. 只检索返回查询的实际html结果,方法是通过指定唯一的结果集容器类和/或xpath来提取结果html内容。
  4. 修改提取的html结果(通过修改html和/或注入新的页眉/页脚或css元素)。5)最后将修改后的html实时返回,这样就可以通过对用户透明的方式直接将html注入到原来的域中。

我应该指出,我对大批量爬行的抓取蜘蛛很熟悉,但我不太熟悉用它来构建一个实时类型的“包装器”的前景或可行性。

如果任何人有任何洞察力、建议或例子来说明类似的情况,我将不胜感激。CH

EN

回答 1

Stack Overflow用户

发布于 2013-08-25 01:06:18

您可以在http://htql.net/上尝试用于python的HTQL浏览器接口。Bing实时搜索的一个例子是:

代码语言:javascript
复制
import htql;
a=htql.Browser(); 
b=a.goUrl("http://www.bing.com/");
c=a.goForm("<form>1", {"q":"test"});
for d in htql.HTQL(c[0], "<a (tx like '%test%')>"): 
    print(d);

e=a.click("<a (tx like '%test%' and not (href like '/search%'))>1");

它可以通过将浏览器更改为: IRobotSoft刮取器来可视化地完成所有操作:

代码语言:javascript
复制
a=htql.Browser(2); 

更多详细信息可从本手册http://htql.net/htql-python-manual.pdf或在http://irobotsoft.org/bb/上查询。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/18339628

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档