首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >爬行数据或使用API

爬行数据或使用API
EN

Stack Overflow用户
提问于 2010-11-23 18:05:26
回答 1查看 369关注 0票数 1

这些站点是如何收集所有数据的--问题中心、大资源、开发者、开发人员?

像bigresource那样在frame中显示数据合法吗?

EN

回答 1

Stack Overflow用户

发布于 2011-03-07 12:52:11

@惊叹

编辑:修复了一些拼写问题20110310

这些网站是如何收集所有数据的-

集线器,大资源...

下面是像questionhub.com这样的网站后台可能正在发生的事情的一个非常大致的草图

  1. 爬虫程序(谷歌“蜘蛛程序”了解更多信息)

a.配置为开始阅读stackoverflow.com上的网页(例如)

运行程序,使其转到stackoverflow.com的主页,并开始访问在这些页面上找到的所有链接。

c.从所有这些页面返回超文本标记语言数据

  • 搜索索引程序

读取爬虫返回的超文本标记语言数据,并创建搜索索引,存储它找到的单词以及这些单词在

  • 用户界面网页上找到的URL

提供功能丰富的用户界面,以便您可以搜索已爬行的站点。

像bigresource那样在frame中显示数据合法吗?

从技术上讲,“这一切都要看情况”;-)

通常情况下,网站希望在google中可见,那么为什么其他搜索引擎不能。

就像谷歌显示爬行网站时发现的部分文本一样,questionhub.com (或其他网站)选择显示更多在原始页面上找到的文本,可能会保留原始超文本标记语言中的格式,或者更改格式以适应其标准视觉样式。

远程站点可以通过在名为robots.txt的已知文件中添加规则来“请求”spyders不要浏览其部分/全部网页。蜘蛛不一定要遵守robots.txt,但警惕的网站将跟踪不遵守其robots.txt文件的间谍程序的IP地址,然后阻止该IP地址查看其网站上的任何内容。你可以在stackoverflow上找到大量关于robots.txt的信息,或者在谷歌上查询。

有几个行业(除了谷歌)建立了你想要的东西。堆栈溢出中有标签用于搜索引擎,搜索;阅读其中的一些问题/答案。Lucene/Solr是开源的搜索引擎组件。还有一个开源爬虫,但我现在想不起这个名字了。祝好运。

我希望这能帮到你。

附注:当您是一个新用户时,如果您得到了一个对您有帮助的答案,请记住将其标记为已接受,或者给它一个+(或-)作为有用的答案。这也适用于你的其他帖子;-)

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/4254844

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档