文章/答案/技术大牛

发布

社区首页 >问答首页 >爬行数据或使用API

问爬行数据或使用API
EN

Stack Overflow用户

提问于 2010-11-23 18:05:26

回答 1查看 369关注 0票数 1

这些站点是如何收集所有数据的--问题中心、大资源、开发者、开发人员？

像bigresource那样在frame中显示数据合法吗？

web-crawler

html

regex

回答 1

Stack Overflow用户

发布于 2011-03-07 12:52:11

@惊叹

编辑:修复了一些拼写问题20110310

这些网站是如何收集所有数据的-

集线器，大资源...

下面是像questionhub.com这样的网站后台可能正在发生的事情的一个非常大致的草图

爬虫程序(谷歌“蜘蛛程序”了解更多信息)

a.配置为开始阅读stackoverflow.com上的网页(例如)

运行程序，使其转到stackoverflow.com的主页，并开始访问在这些页面上找到的所有链接。

c.从所有这些页面返回超文本标记语言数据

搜索索引程序

读取爬虫返回的超文本标记语言数据，并创建搜索索引，存储它找到的单词以及这些单词在

用户界面网页上找到的URL

提供功能丰富的用户界面，以便您可以搜索已爬行的站点。

像bigresource那样在frame中显示数据合法吗？

从技术上讲，“这一切都要看情况”;-)

通常情况下，网站希望在google中可见，那么为什么其他搜索引擎不能。

就像谷歌显示爬行网站时发现的部分文本一样，questionhub.com (或其他网站)选择显示更多在原始页面上找到的文本，可能会保留原始超文本标记语言中的格式，或者更改格式以适应其标准视觉样式。

远程站点可以通过在名为robots.txt的已知文件中添加规则来“请求”spyders不要浏览其部分/全部网页。蜘蛛不一定要遵守robots.txt，但警惕的网站将跟踪不遵守其robots.txt文件的间谍程序的IP地址，然后阻止该IP地址查看其网站上的任何内容。你可以在stackoverflow上找到大量关于robots.txt的信息，或者在谷歌上查询。

有几个行业(除了谷歌)建立了你想要的东西。堆栈溢出中有标签用于搜索引擎，搜索；阅读其中的一些问题/答案。Lucene/Solr是开源的搜索引擎组件。还有一个开源爬虫，但我现在想不起这个名字了。祝好运。

我希望这能帮到你。

附注:当您是一个新用户时，如果您得到了一个对您有帮助的答案，请记住将其标记为已接受，或者给它一个+(或-)作为有用的答案。这也适用于你的其他帖子;-)

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/4254844

复制

相似问题

问爬行数据或使用API
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问爬行数据或使用APIEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问爬行数据或使用API
EN