文章/答案/技术大牛

发布

社区首页 >问答首页 >Scrapy可以用作实时包装吗？

问Scrapy可以用作实时包装吗？
EN

Stack Overflow用户

提问于 2013-08-20 15:53:16

回答 1查看 590关注 0票数 2

我希望有人能够对利用scrapy框架创建实时包装器的可行性提供一些见解。

为了澄清我对“包装器”一词的定义，请允许我描述一下我的情况.我希望使用scrapy来编写一个解决方案，允许用户在一个网站上执行搜索查询，而这个搜索查询反过来又会实时调用一只刮刮蜘蛛，在该蜘蛛被告知的范围内：

登录到第三方写
执行用户搜索查询
只检索返回查询的实际html结果，方法是通过指定唯一的结果集容器类和/或xpath来提取结果html内容。
修改提取的html结果(通过修改html和/或注入新的页眉/页脚或css元素)。5)最后将修改后的html实时返回，这样就可以通过对用户透明的方式直接将html注入到原来的域中。

我应该指出，我对大批量爬行的抓取蜘蛛很熟悉，但我不太熟悉用它来构建一个实时类型的“包装器”的前景或可行性。

如果任何人有任何洞察力、建议或例子来说明类似的情况，我将不胜感激。CH

scrapy

word-wrap

python

screen-scraping

wrapper

回答 1

Stack Overflow用户

发布于 2013-08-25 01:06:18

您可以在http://htql.net/上尝试用于python的HTQL浏览器接口。Bing实时搜索的一个例子是：

import htql;
a=htql.Browser(); 
b=a.goUrl("http://www.bing.com/");
c=a.goForm("<form>1", {"q":"test"});
for d in htql.HTQL(c[0], "<a (tx like '%test%')>"): 
    print(d);

e=a.click("<a (tx like '%test%' and not (href like '/search%'))>1");

它可以通过将浏览器更改为: IRobotSoft刮取器来可视化地完成所有操作：

a=htql.Browser(2);

更多详细信息可从本手册http://htql.net/htql-python-manual.pdf或在http://irobotsoft.org/bb/上查询。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/18339628

复制

相似问题

问Scrapy可以用作实时包装吗？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Scrapy可以用作实时包装吗？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Scrapy可以用作实时包装吗？
EN