我需要创建一个搜索引擎,通过一个网站列表,并在那里搜索一个查询,而这些网站都返回一些不同的格式和结构的数据,我需要收集特定的信息(在一个独特的结构)从所有这些网站。
有什么方法,我可以这样做,与现有的引擎,如谷歌自定义搜索引擎?还是我最好自己创造一个?如果是的话,我应该采取的第一步是学习如何有效地索引和搜索这些网站,而不是用无用的垃圾填满我的服务器。
总之,除了在这些网站的搜索框上搜索一个查询之外,我还需要对每个网站的搜索结果进行适当的处理,并将其放在一个地方的一个联合结构中。所有的结果都将被解析并提取到4-6个字段中(当然,除非,谷歌CSE有办法做到这一点。
发布于 2014-04-07 21:10:28
Google为标准的Google搜索提供了一些接口。您可以控制用户界面和搜索参数,但无法控制索引,也不能直接访问索引数据。
您可能对GAE提供的Google更感兴趣。这些是完全不同的:它们是搜索服务,您可以在其中提供数据并控制索引。
发布于 2018-12-26 21:57:22
2018年12月,在谷歌CSE的帮助下,我们可以定义一套网站,我们可以在那里完成我们的请求。谷歌CSE提供了多达2000的网站来源,包括和多达5000源的整体。
一个简单的比较:
要而论之。这取决于你真正需要它的哪一边。
https://stackoverflow.com/questions/22901263
复制相似问题