因此,我加入了这个相当恼人的项目,一个客户对小事挑剔,他让我的人下地狱,他很乐意按照古老的规则来回馈我,把他*推下指挥链。
现在我的问题来了。该应用程序基本上由3个不同的迷你项目组成。管理员的后端界面,客户端的后端界面和每个人的前端界面。
我被特别要求应用MOD_REWRITE规则,使事情搜索引擎优化友好。这就是我们的终极目标,所以这基本上是一个让搜索更友好的练习,而不是让链接看起来更美观。
所以我在前端工作,这基本上是每个人的登录页。它看起来很漂亮,链接最糟糕的是后面跟着一个反斜杠。
我的客户发行的。他想知道为什么管理员和用户的后端界面仍然显示那些巨大的丑陋链接。这些是非常非常丑陋的链接,我说的是三到四个反斜杠,后面跟着不同的get序列等等,所以你可能会理解MOD_REWRITING背后的复杂性。
一时冲动,我说我让它保持原样是为了确保后端接口不会被任何爬虫嗅探到。但我不确定这是否一定是真的。爬虫在哪里停下来?他们什么时候会放弃尝试解析链接呢?我知道我可以使用.robot文件来指定规则。但是,作为本土生物,它们的本能是什么?
我知道这更像是一种咆哮,而且我的第一个问题被拒绝的风险很高:|但嘿,把这件事说出来感觉很好。
干杯!
发布于 2012-03-16 11:52:06
爬虫在哪里停止?他们什么时候会放弃尝试解析链接呢?
Robots.txt并不适用于所有的机器人。
如果前端不需要文件,您可以使用基本身份验证或按IP限制访问来隐藏后端。
如果不可行,请尝试为后端文件发送404或401标头。但这只是一个想法,不能保证。
但是,作为本土生物,它们的本能是什么?
用于恶意软件、垃圾邮件和欺诈警告的超链接、工具栏和浏览器侧预激活功能...
https://stackoverflow.com/questions/9731453
复制相似问题