搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

Angular js动态爬虫不工作

og:title" content="The post title" /> 但是使用动态数据的时候是行不通的

浏览 0提问于2017-09-26得票数 0

1回答

动态内容和爬虫

搜索引擎爬虫会使用Javascript和API调用来索引动态加载的内容吗？或者我必须通过服务器端编程(PHP、ASP等)加载此内容。

浏览 7修改于2014-02-20得票数 1

回答已采纳

3回答

如何告诉抓取爬虫停止动态跟踪更多的链接？

基本上，我对在页面后面有一个正则表达式当我点击一个太老的链接(基于预定义的日期-时间)我能在蜘蛛里面做这个吗？

浏览 0修改于2015-07-22得票数 1

回答已采纳

2回答

web爬虫在动态更改网站代码上的应用

为了一个小项目，我想为一个网站建立一个网络爬虫。所以我读到了，scrapy，和网站结构这是一个简单的网站，有一个下拉菜单，可供选择。如果我选择其中之一，网站的网址不会改变。

浏览 4修改于2017-03-10得票数 1

回答已采纳

1回答

C#爬虫程序无法加载动态内容

爬虫可以正确地请求页面，但问题是几乎所有内容都是通过knockout.js动态加载的。爬虫程序目前无法请求此内容，这导致只加载了页面的一小部分。我试着让程序等待，希望动态的请求无论如何都会被发送，但这似乎不起作用。如何才能使crawler请求所有数据？谢谢!

浏览 12提问于2019-07-09得票数 0

2回答

Asp.net Request.Browser.Crawler -动态爬虫列表？

有没有人使用某种方法来动态更新爬虫列表，所以Request.Browser.Crawler真的会很有用？

浏览 3修改于2014-04-24得票数 8

回答已采纳

2回答

Google爬虫如何查看PHP动态内容？

它会用GET和PHP动态加载--如果它“不存在”，Google可以爬行吗？页面在?GET变量(如home.com/seevehicles?

浏览 0提问于2013-08-18得票数 0

回答已采纳

1回答

使用python的动态网页爬虫

所以，经过4周的试验后，我来到这里，所有的问题都归结于我这个爬虫似乎无法阅读网页的内容，即使在所有的喧闹之后。最初的问题是，所有的信息没有出现在一个页面上，所以使用按钮导航网站本身的内容.爬虫无法读取页面的原因似乎是robot.txt文件(单个页面的爬虫等待时间为3600页，文章大约有10页，这是可以忍受的，但如果它说100+会发生什么情况)，我不知道如何绕过它或绕过它。

浏览 5提问于2020-08-31得票数 0

回答已采纳

1回答

爬行url \如何在node.js中获取动态链接

我正在使用js爬虫来抓取网站，现在我遇到了CNN，的那一部分(基于某种原因动态生成的urls)。事情是爬虫，不要真正接触脚本-我应该如何解决它？除了我的node.js爬虫之外，我还应该编写自己的代码吗？是否有先进的爬虫知道如何处理这种动态行为？

浏览 1提问于2016-07-23得票数 2

回答已采纳

1回答

如何设置支持一系列动态URL的AdSense爬虫登录？

我有一个网站，主要功能动态内容。每一段动态内容都有自己的网址，如"www.example.com/page/\*/\*“ 我遇到的问题是，其中许多页面都需要用户登录。我读过关于AdSense爬虫登录的文章，并试图实现它。但是，我发现没有提到通配符或URL的正则表达式。据我所知，AdSense爬虫登录只支持静态URL。是否有任何方法来设置支持一系列动态URL的AdSense爬虫登录？

浏览 0修改于2015-10-08得票数 3

1回答

Scrapy管理动态爬行器

我正在建设一个项目，我需要一个网络爬虫爬行不同的网页列表。此列表可以随时更改。这是如何用scrapy最好地实现的？我应该为所有网站创建一个爬虫，还是动态创建蜘蛛？我读过关于的文章，我猜动态创建爬行器是最好的方法。不过，我需要一个关于如何实现它的提示。

浏览 2提问于2013-07-02得票数 3

回答已采纳

1回答

我的网站提供了动态创建的内容，爬虫可以看到，基于以下规范：。这样，谷歌爬虫用以下语法索引了大约5000个： urls 用谷歌的网站管理员工具查看我的抓取报告，我确信这些页面都被成功抓取了。请注意，我确实找到了我的通用网站，在“更多结果”下，我找到了大约40个动态生成的页面，但显然这不是我想要的。我想根据它们的内容(AAPL，GOOG，...)找到页面。也许，爬虫认为我的页面或多或少是一样的。但事实并非如此。

浏览 3提问于2013-06-09得票数 0

1回答

我可以使用powershell制作一个从动态网页获取数据的网络爬虫吗？

我正在做一个网络爬虫的项目，从内部网站获取一些信息。我发现静态页面可以通过几个简单的步骤(设置cookie，然后使用Cmdlet Invoke-RestMethod)来捕获，但是动态页面的数据不能通过这种方式获得。此外，我发现动态页面上的链接并不是持续不断的，例如，它总是由jsessionid或其他东西组成，它们总是随时间而变化。有人能给我一个提示来解决这个问题吗？爬虫能抓取动态网页吗？谢谢..。

浏览 149提问于2017-02-13得票数 0

1回答

如何使用动态数据启用页面索引？

我有一个网站，它有特定的urls指向具有永久数据的页面，还有一些指向动态网页的urls。谷歌定期对这两种情况进行索引。当用户找到一个动态内容urls时，页面上的数据已经改变了，用户没有找到他想要的内容。此外，动态url页面包含指向永久url的链接(我希望Google或任何爬虫进行索引)。Google爬虫控件(网站管理员工具)不能从页面中读取urls，但不能对它们进行索引。解决办法？爬行策略系统架构。

浏览 3提问于2010-04-26得票数 3

2回答

如何为AngularJS网站构建sitemap.xml？

它有一些静态页面，除此之外还有基于配置文件id生成动态页面的配置文件页面。为了搜索引擎优化的目的，我使用了PhantomJS和生成HTML来给爬虫响应。但是，我如何才能生成包含所有动态页面地址的sitemap.xml，这样爬虫就可以在搜索引擎上获取并列出这些URL了呢？

浏览 22提问于2016-11-14得票数 8

2回答

抓取: Web抓取由于结构变化而停止

当抓取一个网页时，网页的结构一直在变化，我的意思是它的动态性导致我的爬虫停止工作。是否有一种机制可以在运行完整的爬虫程序之前识别网页结构的变化，以便识别结构是否已经改变。

浏览 32修改于2020-10-01得票数 0

2回答

塔防御:重叠的塔范围

我计划用一些动态的方法来创建一个塔防御游戏。场景是这样的：有没有一种算法可以帮助我做到这一点？

浏览 2提问于2016-11-23得票数 0

1回答

为什么Kinesis或Crawler要在我的数据中创建分区？

上下文:根据胶水模式，我使用动态技术将来自lambda的数据流到一个S3桶中。然后，我在我的S3桶上运行一个爬虫来编目我的数据。但是，当数据存储在我的S3桶中时，数据存储在以下dir结构中：然后，当我在上面运行我的爬虫时，我的爬虫会创建4个额外的分区键问:为什么胶水爬虫要创建这些附加属性，我如何阻止它创建它们？或者，如何防止动态在S3中创建上面的dir结构，而只是转储带有时间戳的文件？

浏览 10提问于2022-07-26得票数 0

回答已采纳

2回答

如果我用Ajax在我的页面上做所有事情，我如何才能做搜索引擎优化？

网页爬虫或浏览器读取动态创建的元标记吗？动态添加元标记。

浏览 3提问于2011-12-10得票数 4

回答已采纳

1回答

向爬虫提供数据库内容的最佳方式是什么

我的网站的内容是由用户提供的问题和评论定义的，并且是动态的，本质上是不断增长的。本质上，这些内容对于搜索引擎爬虫是不可见的。使这些内容可供爬虫使用的最佳方式是什么？我是否应该定期运行批处理操作，创建静态网页，并通过站点地图将其提供给爬虫？请提个建议。谢谢。

浏览 1提问于2014-11-08得票数 0

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

Angular js动态爬虫不工作

动态内容和爬虫

如何告诉抓取爬虫停止动态跟踪更多的链接？

web爬虫在动态更改网站代码上的应用

C#爬虫程序无法加载动态内容

Asp.net Request.Browser.Crawler -动态爬虫列表？

Google爬虫如何查看PHP动态内容？

使用python的动态网页爬虫

爬行url \如何在node.js中获取动态链接

如何设置支持一系列动态URL的AdSense爬虫登录？

Scrapy管理动态爬行器

为什么我的动态创建的内容不能在Google中搜索

我可以使用powershell制作一个从动态网页获取数据的网络爬虫吗？

如何使用动态数据启用页面索引？

如何为AngularJS网站构建sitemap.xml？

抓取: Web抓取由于结构变化而停止

塔防御:重叠的塔范围

为什么Kinesis或Crawler要在我的数据中创建分区？

如果我用Ajax在我的页面上做所有事情，我如何才能做搜索引擎优化？

向爬虫提供数据库内容的最佳方式是什么

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐