这些站点是如何收集所有数据的--问题中心、大资源、开发者、开发人员?
像bigresource那样在frame中显示数据合法吗?
发布于 2011-03-07 12:52:11
@惊叹
编辑:修复了一些拼写问题20110310
这些网站是如何收集所有数据的-
集线器,大资源...
下面是像questionhub.com这样的网站后台可能正在发生的事情的一个非常大致的草图
a.配置为开始阅读stackoverflow.com上的网页(例如)
运行程序,使其转到stackoverflow.com的主页,并开始访问在这些页面上找到的所有链接。
c.从所有这些页面返回超文本标记语言数据
读取爬虫返回的超文本标记语言数据,并创建搜索索引,存储它找到的单词以及这些单词在
提供功能丰富的用户界面,以便您可以搜索已爬行的站点。
像bigresource那样在frame中显示数据合法吗?
从技术上讲,“这一切都要看情况”;-)
通常情况下,网站希望在google中可见,那么为什么其他搜索引擎不能。
就像谷歌显示爬行网站时发现的部分文本一样,questionhub.com (或其他网站)选择显示更多在原始页面上找到的文本,可能会保留原始超文本标记语言中的格式,或者更改格式以适应其标准视觉样式。
远程站点可以通过在名为robots.txt的已知文件中添加规则来“请求”spyders不要浏览其部分/全部网页。蜘蛛不一定要遵守robots.txt,但警惕的网站将跟踪不遵守其robots.txt文件的间谍程序的IP地址,然后阻止该IP地址查看其网站上的任何内容。你可以在stackoverflow上找到大量关于robots.txt的信息,或者在谷歌上查询。
有几个行业(除了谷歌)建立了你想要的东西。堆栈溢出中有标签用于搜索引擎,搜索;阅读其中的一些问题/答案。Lucene/Solr是开源的搜索引擎组件。还有一个开源爬虫,但我现在想不起这个名字了。祝好运。
我希望这能帮到你。
附注:当您是一个新用户时,如果您得到了一个对您有帮助的答案,请记住将其标记为已接受,或者给它一个+(或-)作为有用的答案。这也适用于你的其他帖子;-)
https://stackoverflow.com/questions/4254844
复制相似问题