首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >网络爬虫对所发现网页的分析

网络爬虫对所发现网页的分析
EN

Stack Overflow用户
提问于 2011-05-17 02:31:17
回答 1查看 117关注 0票数 0

我写了一个简单的网络爬虫。我得到了所有的网站,但他们在我的硬盘上。现在我想分析它们,这样我就可以编写一个简单的接口,如www.google.de,并在获取的页面中搜索信息。

问题是如何以“快速”的方式找到重要的信息。所以计算很重要。它可以是实时的,也可以是在获取之后。我的想法是写一本包含英语单词列表的字典,然后统计词条。或者该怎么做?我需要讲解如何提取信息并压缩它们。但我不知道该去哪里找。

该爬虫是基于c++与mysql中存储链接的地方。

我希望我的问题是清楚的。:D

顺便说一句,我的英语不好,但德语里有这样一块板:

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-05-17 03:24:25

信息检索是一门复杂的学科。

你有没有看过任何标准文本?像这样:

由Christopher D. Manning,Prabhakar Raghavan和Hinrich Schütze所著的Introduction to Information Retrieval (2008年7月7日)-- http://www.amazon.com/Introduction-Information-Retrieval-Christopher-Manning/dp/0521865719/ref=sr_1_1?s=books&ie=UTF8&qid=1305573574&sr=1-1

《信息检索:实现和评估搜索引擎》,作者: Stefan Büttcher,Charles L.A.Clarke和Gordon V. Cormack (2010年7月23日)- http://www.amazon.com/Information-Retrieval-Implementing-Evaluating-Engines/dp/0262026511/ref=sr_1_3?s=books&ie=UTF8&qid=1305573574&sr=1-3

在亚马逊上搜索“信息检索”可以获得更多信息。

你也可以看看我对Design Question for Notification System的回答,它概述了一个用于搜索的爬行式网站的一般架构。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/6021734

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档