你好,我正在试着做一只小蜘蛛。当我构建它的时候,我遇到了一个问题,我需要检查一个链接是根域链接还是子域链接。
例如:
http://www.domain.com or
http://domain.com
http://domain.com/index.php
http://domain.com/default.php
http://domain.com/index.html
http://domain.com/default.html。。等都是一样的。
所以我需要一个函数,它实际上接受字符串url作为输入,并检查它是否是一个网站的根或主页,无论你喜欢怎么叫它。
发布于 2011-12-06 23:41:00
正如评论中提到的,这确实是对爬行器进行编码的一个基本方面。如果您打算编写一个通用爬行器,您将需要添加解析URL的方法,并检测它们是否指向相同的内容,以何种方式(通过重定向或简单地通过重复内容),以及它们指向的内容类型。
你至少需要处理:
PHP相对paths
这些只是一些方面,但所有这些都归结到一点,如果您打算以任何一种通用的方式使用它,那么您之后的检测必须是爬虫的基本部分。
https://stackoverflow.com/questions/8402128
复制相似问题