问网络爬虫对所发现网页的分析
EN

Stack Overflow用户

提问于 2011-05-17 02:31:17

回答 1查看 117关注 0票数 0

我写了一个简单的网络爬虫。我得到了所有的网站，但他们在我的硬盘上。现在我想分析它们，这样我就可以编写一个简单的接口，如www.google.de，并在获取的页面中搜索信息。

问题是如何以“快速”的方式找到重要的信息。所以计算很重要。它可以是实时的，也可以是在获取之后。我的想法是写一本包含英语单词列表的字典，然后统计词条。或者该怎么做？我需要讲解如何提取信息并压缩它们。但我不知道该去哪里找。

该爬虫是基于c++与mysql中存储链接的地方。

我希望我的问题是清楚的。:D

顺便说一句，我的英语不好，但德语里有这样一块板：

回答已采纳

发布于 2011-05-17 03:24:25

信息检索是一门复杂的学科。

你有没有看过任何标准文本？像这样：

在亚马逊上搜索“信息检索”可以获得更多信息。

你也可以看看我对Design Question for Notification System的回答，它概述了一个用于搜索的爬行式网站的一般架构。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/6021734

复制

相似问题

问网络爬虫对所发现网页的分析EN