首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >处理错误的机器人请求的实践中,url包含"&“而不是"&”

处理错误的机器人请求的实践中,url包含"&“而不是"&”
EN

Stack Overflow用户
提问于 2012-06-18 22:05:41
回答 2查看 230关注 0票数 9

因此,我把url指向的路径放在&,而不是&,这样我得到了有效的& is a reserved character in html

有许多不同的爬虫在网站上搜索并访问这个url,但它们不使用html解码方法来获得正确的url值,所以它们向我的网站发出以下请求:

代码语言:javascript
复制
mywebsite.com/?p1=v1&p2=v2

而不是

代码语言:javascript
复制
mywebsite.com/?p1=v1&p2=v2

现在,我使用错误页面进行响应,因为发出此请求的机器人对我不感兴趣。

但我的问题是,处理这类请求的最佳实践是什么?

你知道支持处理这类请求有什么用处吗?(例如,有没有流行的爬虫或浏览器不能正确转换这个url ?)

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2012-06-27 16:57:07

我认为你可以期望任何主要的爬虫都能够处理有效的转义URL。所以剩下的我就不用担心了。

如果您真的喜欢,那么您可能想要添加重写规则到您的Apache或您使用的任何东西。但这可能会导致其他问题,当一个URL确实包含charsequence &,并被您的重写规则错误替换为&

在我看来,最好不去碰这个。这不是你的错,当你不真正关心这些爬虫时-那又如何?:)

票数 1
EN

Stack Overflow用户

发布于 2012-07-03 16:10:22

是的&是一个保留的字符,但是你不会把它放在网站链接中。

对,是这样

代码语言:javascript
复制
<a href="mywebsite.com/?p1=v1&p2=v2">mywebsite.com/?p1=v1&amp;p2=v2</a>

不正确

代码语言:javascript
复制
<a href="mywebsite.com/?p1=v1&amp;p2=v2">mywebsite.com/?p1=v1&amp;p2=v2</a>
票数 -3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/11084582

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档