我有这个GenerateSitemap.php文件,我可以在其中配置爬虫程序,但我不知道如何让爬虫程序删除一些特定的URL,例如(https://example.com/?page=1) (https://example.com/?page=10) (https://example.com/?page=125)。我将spatie in laravel用于此解决方案,并尝试下面的解决方案,但它不起作用
public function sitemap()
{
SitemapGenerator::create('https://example.com')
->shouldCrawl(function (UriInterface $url) {
return strpos($url->getPath(), '?page') === false;
})
->writeToFile(public_path('sitemap.xml'));
}发布于 2021-03-19 21:34:29
问题是您使用的是UriInterface的getPath()方法,只有当您的url在路径中包含您要传递的strpos的"?page“时才有效,但是,您希望在url中找到的是查询,因此您应该使用getQuery()而不是getPath(),并且strpos的指针应该类似于"page=”。
public function sitemap(){
SitemapGenerator::create('https://example.com')
->shouldCrawl(function (UriInterface $url) {
return strpos($url->getQuery(), 'page=1') === false &&
strpos($url->getQuery(), 'page=10') === false &&
strpos($url->getQuery(), 'page=125') === false ;
})->writeToFile(public_path('sitemap.xml'));
}当然,如果你有更多的页面,你可以把你想要排除的数字放在一个数组中,然后迭代它的元素。
https://stackoverflow.com/questions/66706300
复制相似问题