我正在使用WGET来刮两个几乎相同的站点。
然后,我计划运行一个DIFF来找出任何不同之处。(我将一个站点移到一个新的服务器上,希望确保所有的内容都符合标准)
下面是我在旧服务器和新服务器上刮擦的结果:

您可以在下面看到新服务器上有许多index.html?p=?文件。
我已经计算出,这是由于代码中的标签链接到页面的“短链接”版本。这是通过一个名为“Yoast”的插件进行的,该插件存在于新服务器上,而不是旧服务器上。除此之外,网站几乎完全相同。(甚至服务器设置等)
(目录中有2,000多个索引文件)

我需要每个WGET的结果是相同的,以便我可以DIFF这两个网站。
这是代码中的标记,导致这种情况发生在新服务器上:

现在是主要问题。我如何让WGET忽略这些短链接标记并像在旧服务器上那样刮掉站点呢?
我尝试过各种不同的WGET参数,但都没有效果。这是我当前的WGET命令:
wget --recursive --html-extension --page-requisites --convert-links www.domain.ac.uk如何修改此命令以忽略“短链接”标记?
谢谢
我已经找到了如何移除实际的标签。这对我来说不是一个解决办法,因为我需要标记,但是对于其他遇到这种情况的人,请将其添加到您的functions.php中:
remove_action('wp_head', 'wp_shortlink_wp_head', 10, 0);发布于 2016-03-09 21:05:18
没有解决这个问题,但是如果你也是你正在扫描的网站的所有者,你可以简单地添加:
remove_action('wp_head', 'wp_shortlink_wp_head', 10, 0);以隐藏元标记。
https://stackoverflow.com/questions/34680191
复制相似问题