腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
Angular js
动态
爬虫
不工作
og:title" content="The post title" /> 但是使用
动态
数据的时候是行不通的
浏览 0
提问于2017-09-26
得票数 0
1
回答
动态
内容和
爬虫
搜索引擎
爬虫
会使用Javascript和API调用来索引
动态
加载的内容吗?或者我必须通过服务器端编程(PHP、ASP等)加载此内容。
浏览 7
修改于2014-02-20
得票数 1
回答已采纳
3
回答
如何告诉抓取
爬虫
停止
动态
跟踪更多的链接?
基本上,我对在页面后面有一个正则表达式当我点击一个太老的链接(基于预定义的日期-时间)我能在蜘蛛里面做这个吗?
浏览 0
修改于2015-07-22
得票数 1
回答已采纳
2
回答
web
爬虫
在
动态
更改网站代码上的应用
为了一个小项目,我想为一个网站建立一个网络
爬虫
。所以我读到了,scrapy,和网站结构 这是一个简单的网站,有一个下拉菜单,可供选择。如果我选择其中之一,网站的网址不会改变。
浏览 4
修改于2017-03-10
得票数 1
回答已采纳
1
回答
C#
爬虫
程序无法加载
动态
内容
爬虫
可以正确地请求页面,但问题是几乎所有内容都是通过knockout.js
动态
加载的。
爬虫
程序目前无法请求此内容,这导致只加载了页面的一小部分。我试着让程序等待,希望
动态
的请求无论如何都会被发送,但这似乎不起作用。如何才能使crawler请求所有数据? 谢谢!
浏览 12
提问于2019-07-09
得票数 0
2
回答
Asp.net Request.Browser.Crawler -
动态
爬虫
列表?
有没有人使用某种方法来
动态
更新
爬虫
列表,所以Request.Browser.Crawler真的会很有用?
浏览 3
修改于2014-04-24
得票数 8
回答已采纳
2
回答
Google
爬虫
如何查看PHP
动态
内容?
它会用GET和PHP
动态
加载--如果它“不存在”,Google可以爬行吗? 页面在?GET变量(如home.com/seevehicles?
浏览 0
提问于2013-08-18
得票数 0
回答已采纳
1
回答
使用python的
动态
网页
爬虫
所以,经过4周的试验后,我来到这里,所有的问题都归结于我这个
爬虫
似乎无法阅读网页的内容,即使在所有的喧闹之后。 最初的问题是,所有的信息没有出现在一个页面上,所以使用按钮导航网站本身的内容.
爬虫
无法读取页面的原因似乎是robot.txt文件(单个页面的
爬虫
等待时间为3600页,文章大约有10页,这是可以忍受的,但如果它说100+会发生什么情况),我不知道如何绕过它或绕过它。
浏览 5
提问于2020-08-31
得票数 0
回答已采纳
1
回答
爬行url \如何在node.js中获取
动态
链接
我正在使用js
爬虫
来抓取网站,现在我遇到了CNN,的那一部分(基于某种原因
动态
生成的urls)。事情是
爬虫
,不要真正接触脚本-我应该如何解决它?除了我的node.js
爬虫
之外,我还应该编写自己的代码吗?是否有先进的
爬虫
知道如何处理这种
动态
行为?
浏览 1
提问于2016-07-23
得票数 2
回答已采纳
1
回答
如何设置支持一系列
动态
URL的AdSense
爬虫
登录?
我有一个网站,主要功能
动态
内容。每一段
动态
内容都有自己的网址,如"www.example.com/page/\*/\*“ 我遇到的问题是,其中许多页面都需要用户登录。我读过关于AdSense
爬虫
登录的文章,并试图实现它。但是,我发现没有提到通配符或URL的正则表达式。据我所知,AdSense
爬虫
登录只支持静态URL。是否有任何方法来设置支持一系列
动态
URL的AdSense
爬虫
登录?
浏览 0
修改于2015-10-08
得票数 3
1
回答
Scrapy管理
动态
爬行器
我正在建设一个项目,我需要一个网络
爬虫
爬行不同的网页列表。此列表可以随时更改。这是如何用scrapy最好地实现的?我应该为所有网站创建一个
爬虫
,还是
动态
创建蜘蛛?我读过关于的文章,我猜
动态
创建爬行器是最好的方法。不过,我需要一个关于如何实现它的提示。
浏览 2
提问于2013-07-02
得票数 3
回答已采纳
1
回答
为什么我的
动态
创建的内容不能在Google中搜索
我的网站提供了
动态
创建的内容,
爬虫
可以看到,基于以下规范:。这样,谷歌
爬虫
用以下语法索引了大约5000个: urls 用谷歌的网站管理员工具查看我的抓取报告,我确信这些页面都被成功抓取了。请注意,我确实找到了我的通用网站,在“更多结果”下,我找到了大约40个
动态
生成的页面,但显然这不是我想要的。我想根据它们的内容(AAPL,GOOG,...)找到页面。也许,
爬虫
认为我的页面或多或少是一样的。但事实并非如此。
浏览 3
提问于2013-06-09
得票数 0
1
回答
我可以使用powershell制作一个从
动态
网页获取数据的网络
爬虫
吗?
我正在做一个网络
爬虫
的项目,从内部网站获取一些信息。我发现静态页面可以通过几个简单的步骤(设置cookie,然后使用Cmdlet Invoke-RestMethod)来捕获,但是
动态
页面的数据不能通过这种方式获得。此外,我发现
动态
页面上的链接并不是持续不断的,例如,它总是由jsessionid或其他东西组成,它们总是随时间而变化。 有人能给我一个提示来解决这个问题吗?
爬虫
能抓取
动态
网页吗?谢谢..。
浏览 149
提问于2017-02-13
得票数 0
1
回答
如何使用
动态
数据启用页面索引?
我有一个网站,它有特定的urls指向具有永久数据的页面,还有一些指向
动态
网页的urls。谷歌定期对这两种情况进行索引。当用户找到一个
动态
内容urls时,页面上的数据已经改变了,用户没有找到他想要的内容。此外,
动态
url页面包含指向永久url的链接(我希望Google或任何
爬虫
进行索引)。Google
爬虫
控件(网站管理员工具)不能从页面中读取urls,但不能对它们进行索引。解决办法?爬行策略系统架构。
浏览 3
提问于2010-04-26
得票数 3
2
回答
如何为AngularJS网站构建sitemap.xml?
它有一些静态页面,除此之外还有基于配置文件id生成
动态
页面的配置文件页面。 为了搜索引擎优化的目的,我使用了PhantomJS和生成HTML来给
爬虫
响应。但是,我如何才能生成包含所有
动态
页面地址的sitemap.xml,这样
爬虫
就可以在搜索引擎上获取并列出这些URL了呢?
浏览 22
提问于2016-11-14
得票数 8
2
回答
抓取: Web抓取由于结构变化而停止
当抓取一个网页时,网页的结构一直在变化,我的意思是它的
动态
性导致我的
爬虫
停止工作。是否有一种机制可以在运行完整的
爬虫
程序之前识别网页结构的变化,以便识别结构是否已经改变。
浏览 32
修改于2020-10-01
得票数 0
2
回答
塔防御:重叠的塔范围
我计划用一些
动态
的方法来创建一个塔防御游戏。场景是这样的: 有没有一种算法可以帮助我做到这一点?
浏览 2
提问于2016-11-23
得票数 0
1
回答
为什么Kinesis或Crawler要在我的数据中创建分区?
上下文:根据胶水模式,我使用
动态
技术将来自lambda的数据流到一个S3桶中。然后,我在我的S3桶上运行一个
爬虫
来编目我的数据。但是,当数据存储在我的S3桶中时,数据存储在以下dir结构中:然后,当我在上面运行我的
爬虫
时,我的
爬虫
会创建4个额外的分区键问:为什么胶水
爬虫
要创建这些附加属性,我如何阻止它创建它们?或者,如何防止
动态
在S3中创建上面的dir结构,而只是转储带有时间戳的文件?
浏览 10
提问于2022-07-26
得票数 0
回答已采纳
2
回答
如果我用Ajax在我的页面上做所有事情,我如何才能做搜索引擎优化?
网页
爬虫
或浏览器读取
动态
创建的元标记吗?
动态
添加元标记。
浏览 3
提问于2011-12-10
得票数 4
回答已采纳
1
回答
向
爬虫
提供数据库内容的最佳方式是什么
我的网站的内容是由用户提供的问题和评论定义的,并且是
动态
的,本质上是不断增长的。本质上,这些内容对于搜索引擎
爬虫
是不可见的。使这些内容可供
爬虫
使用的最佳方式是什么?我是否应该定期运行批处理操作,创建静态网页,并通过站点地图将其提供给
爬虫
?请提个建议。谢谢。
浏览 1
提问于2014-11-08
得票数 0
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券