首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Curl检查域名是否为根域名

Curl检查域名是否为根域名
EN

Stack Overflow用户
提问于 2011-12-06 23:12:11
回答 1查看 258关注 0票数 0

你好,我正在试着做一只小蜘蛛。当我构建它的时候,我遇到了一个问题,我需要检查一个链接是根域链接还是子域链接。

例如:

代码语言:javascript
复制
http://www.domain.com or
http://domain.com 
http://domain.com/index.php
http://domain.com/default.php
http://domain.com/index.html
http://domain.com/default.html

。。等都是一样的。

所以我需要一个函数,它实际上接受字符串url作为输入,并检查它是否是一个网站的根或主页,无论你喜欢怎么叫它。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-12-06 23:41:00

正如评论中提到的,这确实是对爬行器进行编码的一个基本方面。如果您打算编写一个通用爬行器,您将需要添加解析URL的方法,并检测它们是否指向相同的内容,以何种方式(通过重定向或简单地通过重复内容),以及它们指向的内容类型。

你至少需要处理:

PHP相对paths

  • GET-variables在某种程度上对网页有重要意义,但不会将href attribute.

  • Links中与content.

  • Malformed URLs.

  • JavaScript相关的信息呈现为非材料--直接下载指向PDF、图像等的链接(在扩展上检测它并不总是足够的,使用
  • 脚本提供图像)。

这些只是一些方面,但所有这些都归结到一点,如果您打算以任何一种通用的方式使用它,那么您之后的检测必须是爬虫的基本部分。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/8402128

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档