我希望有人能够对利用scrapy框架创建实时包装器的可行性提供一些见解。
为了澄清我对“包装器”一词的定义,请允许我描述一下我的情况.我希望使用scrapy来编写一个解决方案,允许用户在一个网站上执行搜索查询,而这个搜索查询反过来又会实时调用一只刮刮蜘蛛,在该蜘蛛被告知的范围内:
我应该指出,我对大批量爬行的抓取蜘蛛很熟悉,但我不太熟悉用它来构建一个实时类型的“包装器”的前景或可行性。
如果任何人有任何洞察力、建议或例子来说明类似的情况,我将不胜感激。CH
发布于 2013-08-25 01:06:18
您可以在http://htql.net/上尝试用于python的HTQL浏览器接口。Bing实时搜索的一个例子是:
import htql;
a=htql.Browser();
b=a.goUrl("http://www.bing.com/");
c=a.goForm("<form>1", {"q":"test"});
for d in htql.HTQL(c[0], "<a (tx like '%test%')>"):
print(d);
e=a.click("<a (tx like '%test%' and not (href like '/search%'))>1");它可以通过将浏览器更改为: IRobotSoft刮取器来可视化地完成所有操作:
a=htql.Browser(2); 更多详细信息可从本手册http://htql.net/htql-python-manual.pdf或在http://irobotsoft.org/bb/上查询。
https://stackoverflow.com/questions/18339628
复制相似问题