文章/答案/技术大牛

发布

社区首页 >问答首页 >聚合器是如何构建的？

问聚合器是如何构建的？
EN

Stack Overflow用户

提问于 2009-05-29 22:36:15

回答 3查看 11.3K关注 0票数 14

比方说，我想要从许多来源(可以是旅行、技术或其他任何来源)聚合与特定利基相关的信息。我该怎么做呢？

有一个爬虫/爬虫，它会爬网寻找我需要的信息(我如何告诉爬虫要爬行什么，因为我不想获取整个网络？)？然后有一个索引系统来索引和组织我抓取的信息，也是一个搜索引擎？

像Nutch lucene.apache.org/nutch这样的系统可以用于我想要的吗？你有推荐的其他东西吗？

或者你能推荐另一种方法吗？

例如，Techmeme.com是如何构建的？(它是一个技术新闻的聚合器，而且它是完全自动化的--直到最近他们才增加了一些人工干预)。构建这样的服务需要做些什么？

或者Kayak.com如何聚合他们的数据？(这是一项旅游聚合服务。)

nutch

web-services

aggregation

web-crawler

回答 3

Stack Overflow用户

发布于 2009-10-08 05:41:14

这完全取决于您正在寻找的聚合器。

类型：

Losely -一般来说，这要求您的数据源非常灵活地确定信息集合的类型(回答此站点/信息是否与旅行相关？幽默？与业务相关？)
Specific -这放宽了数据存储中的要求，即所有数据都是与特定旅行相关的航班、酒店价格等要求。

通常，聚合器是一个子程序系统：

这通常是通过查询数据库来完成的，并且可以通过编程逻辑summarized

Summerization-

根据用户的偏好进行调整。

可以设置用户希望看到的信息的格式，并且可以响应用户对所建议项目的喜欢或不喜欢的反馈。

票数 9

Stack Overflow用户

发布于 2009-05-29 23:17:52

要了解基本外观，请查看以下内容：http://en.wikipedia.org/wiki/Aggregator

它将给你一个概括性的聚合器概述。

关于如何构建自己的聚合器，如果你正在寻找开箱即用的东西，可以获得你想要的内容--我建议这样做：http://dailyme.com/

如果你正在寻找一个代码库/架构来构建你自己的聚合器服务--我建议你直接看一下--比如:从http://www.reddit.com/打开Reddit

票数 1

Stack Overflow用户

发布于 2010-08-04 08:20:35

你需要定义你的应用程序要做什么。构建自己的网络爬虫是一项艰巨的任务，因为当你发现自己需要新功能时，你往往会不断添加新功能。只会使你的设计复杂化，等等。

构建聚合器则有很大不同。爬虫只是检索数据以便稍后处理，而聚合器获取已经定义的数据集并将它们放在一起。如果您使用聚合器，您可能需要查找已经定义的旅行提要、金融提要、旅行数据等……聚合器更容易构建IMO，但它有更多的限制。

相反，如果你想构建一个爬虫，你需要定义起始页面，定义结束条件(爬行深度、时间等)。然后仍然对数据进行处理(即聚合、汇总等)。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/928433

复制

相似问题

问聚合器是如何构建的？
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问聚合器是如何构建的？EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问聚合器是如何构建的？
EN