因此,我把url指向的路径放在&,而不是&,这样我得到了有效的& is a reserved character in html。
有许多不同的爬虫在网站上搜索并访问这个url,但它们不使用html解码方法来获得正确的url值,所以它们向我的网站发出以下请求:
mywebsite.com/?p1=v1&p2=v2而不是
mywebsite.com/?p1=v1&p2=v2现在,我使用错误页面进行响应,因为发出此请求的机器人对我不感兴趣。
但我的问题是,处理这类请求的最佳实践是什么?
你知道支持处理这类请求有什么用处吗?(例如,有没有流行的爬虫或浏览器不能正确转换这个url ?)
发布于 2012-06-27 16:57:07
我认为你可以期望任何主要的爬虫都能够处理有效的转义URL。所以剩下的我就不用担心了。
如果您真的喜欢,那么您可能想要添加重写规则到您的Apache或您使用的任何东西。但这可能会导致其他问题,当一个URL确实包含charsequence &,并被您的重写规则错误替换为&。
在我看来,最好不去碰这个。这不是你的错,当你不真正关心这些爬虫时-那又如何?:)
发布于 2012-07-03 16:10:22
是的&是一个保留的字符,但是你不会把它放在网站链接中。
对,是这样
<a href="mywebsite.com/?p1=v1&p2=v2">mywebsite.com/?p1=v1&p2=v2</a>不正确
<a href="mywebsite.com/?p1=v1&p2=v2">mywebsite.com/?p1=v1&p2=v2</a>https://stackoverflow.com/questions/11084582
复制相似问题