腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
使用AWS Glue Crawler创建列名时删除/重命名特殊字符
我正在使用AWS
爬虫
爬行S3桶,它在雅典娜中创建表模式。据我所知,雅典娜不支持具有特殊字符的列名,比如(
反
斜杠)等等。这是一种可以在
爬虫
从S3桶中爬行时排除/重命名这些列名的方法。
浏览 3
修改于2021-10-14
得票数 2
回答已采纳
1
回答
在数据库中查找和替换URL,而不尾随URL末尾的斜杠
但是,一些放置内容的人在<a href""></a> URL的末尾没有添加
反
斜杠(尾斜杠)的情况下就生成了URL。它会自动添加一个
反
斜杠到末尾,这可以算作谷歌
爬虫
的重定向。TL;博士 如何在没有
反
斜杠的情况下替换WordPress内容中的所有URL,使用(https://test.com/testpage)并添加
反
斜杠(https://test.com/testpage/
浏览 0
修改于2020-10-16
得票数 0
21
回答
围棋练习#
10
之旅:
爬虫
是一个练习,它要求读者对网络
爬虫
进行并行化(并使其不包含重复,但我还没有做到这一点)。
浏览 6
修改于2021-09-12
得票数 23
回答已采纳
0
回答
使用Python
爬虫
,怎么处理
反
爬机制?
python
、
爬虫
、
验证码
、
requests
、
数据
我用Python requests来请求数据,但经常出现bug,要没ip无效,要么需要验证码,怎么处理呢?
浏览 177
提问于2025-07-19
2
回答
在它们的真实符号中变成utf
我刚刚自己做了第一个网络
爬虫
,它上了维基百科,下载了整个页面的html。我设法获得了一个列表的内容。列表中的值包含正数或负数。但它给了我一个'\xe2\x88\x922',而不是打印出一个'-2'。我尝试了string.replace("\xe2\x88\x92","-"),但由于
反
斜杠的原因,这似乎不起作用。你知道我怎样才能把这些utf东西转换成它们真正的符号吗?
浏览 18
修改于2020-07-04
得票数 3
1
回答
用Scrapy爬行多个页面
目标问题->website.com--->
浏览 2
提问于2017-07-17
得票数 0
1
回答
什么是爬行延迟:1意味着如果它被解释为是?
我很难理解crawl-delay: 1的含义,如果它没有被忽略,并且实际上被一个给定的网络
爬虫
所解释。我从斯蒂芬·奥斯特米勒的回答中了解到表示:爬行A页爬行B页换句话说, 什么是爬行延迟:1表示如果它被解释为是?
浏览 0
修改于2020-03-04
得票数 1
1
回答
如何抓取Vue构建的基于组件的web应用程序并作出反应?
javascript src=/static/js/app.335a9e9866cb7dc6a517.js></script> </html>我使用Abot框架爬行建议
浏览 7
提问于2022-03-06
得票数 0
回答已采纳
1
回答
在Scrapy中顺序运行多个
爬虫
我正在试图找出一种同时运行多个Scrapy
爬虫
的方法,而不会遇到内存问题等。为了应对这个问题,我希望能够一次运行
10
个
爬虫
,按顺序遍历种子列表,直到所有100+域都被爬行。while True: start_the_ne
浏览 2
提问于2014-11-28
得票数 4
1
回答
爬虫
/SEO友好/Mod重写/它没有任何意义
它看起来很漂亮,链接最糟糕的是后面跟着一个
反
斜杠。 我的客户发行的。他想知道为什么管理员和用户的后端界面仍然显示那些巨大的丑陋链接。这些是非常非常丑陋的链接,我说的是三到四个
反
斜杠,后面跟着不同的get序列等等,所以你可能会理解MOD_REWRITING背后的复杂性。一时冲动,我说我让它保持原样是为了确保后端接口不会被任何
爬虫
嗅探到。但我不确定这是否一定是真的。
爬虫
在哪里停下来?他们什么时候会放弃尝试解析链接呢?我知道我可以使用.robot文件来指定规则。
浏览 1
提问于2012-03-16
得票数 1
回答已采纳
4
回答
AWS胶在CSV中不检测标头
嗨,我有一堆CSV位于S3中,这是一个通过AWS建立的
爬虫
程序,这个
爬虫
构建了大约
10
个表,因为它扫描了
10
个文件夹,其中只有一个没有检测到标头。csv的结构和其他的一样。请给我建议?
浏览 3
提问于2020-05-17
得票数 4
回答已采纳
1
回答
如何在Scrapy中运行多个相同的
爬虫
?
这些urls在一个域名中,我用Scrapy编写了一个
爬虫
程序,我需要使用相同的
爬虫
程序一起运行这些urls。如果我有
10
个urls,我想创建
10
个相同的进程来运行
爬虫
程序,以提高效率。有解决方案吗?我尝试使用CrawlerProcess来运行
爬虫
,但是如果urls太多,它会提醒我有太多TCP连接的错误。虽然crawler始终处于运行状态,但这种方法不利于维护。
浏览 0
提问于2019-01-06
得票数 0
2
回答
在Service Fabric服务之间移动大型数据是一种
反
模式吗?
我正在使用Service Fabric开发一个web数据
爬虫
。我已经将爬行过程划分为无状态服务管道。第一个服务加载HTML。(S1)第二个函数解析其中的数据。本身就是大量的数据,我不得不设置这种设计是
反
模式吗
浏览 0
修改于2017-10-01
得票数 0
2
回答
PHP:无法使用CURL解析特定站点
SubmitToSearch=Search&lctr=1&rvsd=-1&o1=2&p1=1&ipp=
10
&city=&fromsearchpage=true&cg=11&cg=12&cg=13&cg=这就是有问题的URL: 这个页面上是否有某种
反
爬虫
代码在运行?
浏览 0
提问于2012-02-18
得票数 0
回答已采纳
1
回答
Clojure大猩猩
爬虫
和JVM
10
异常
Linux 17.1.11Java10.0.1的Leiningen 2.8.1 OpenJDK 64位服务器VM行得通! 也许它可以用于新的Java运行时,但是我决定一次按下所有的按钮.
浏览 2
修改于2018-07-23
得票数 2
回答已采纳
2
回答
如何在python中编写无休止的循环
爬虫
?
编辑的while True: sleep(
10
minutes)run() doCarwl
浏览 4
修改于2015-05-31
得票数 0
2
回答
如何在scrapy中使用中间件的self.crawler.engine.pause()
我正在尝试从中间件中暂停运行抓取引擎(运行
爬虫
)。'cRetry‘对象没有属性’
爬虫
‘ self.errorCounter = self.errorCounter + 1 os.system("resta
浏览 3
提问于2014-01-14
得票数 1
回答已采纳
3
回答
Kentico
10
使用的Web Crawler引擎
根据文档,是否有更多关于Kentico
10
使用的网络
爬虫
技术/引擎的信息?我之所以问这个问题,是因为我想把它用于一个定制的
爬虫
项目,这个项目可以位于Kentico之外,并且仍然允许它与Kentico平台具有内在的兼容性。
浏览 0
修改于2017-08-31
得票数 7
回答已采纳
6
回答
如何让搜索
爬虫
正确地索引无限滚动的页面?
然而,这意味着搜索
爬虫
无法获得第一个“分页符”之后的所有内容。例如,我有一个页面,其中列出了所有带有"infographic“标签的项目。实际上有几十个这样的项目,但
爬虫
只能看到前
10
个项目,因为其他项目是根据内容相对于浏览器窗口的位置加载的。由于
爬虫
没有浏览器窗口,所以根本不会加载新项目。那么,什么才是正确的方式,让搜索
爬虫
通过无限滚动访问网页的全部内容,同时又允许用户享受无限滚动和没有分页的情况?
浏览 0
提问于2012-05-28
得票数 13
回答已采纳
1
回答
crawler JMeter中出错
我在JMeter中有一个
爬虫
测试(
爬虫
)的问题,我在java中也有本机代码,它不能工作,因为我需要在POST中发送一个名为javax.faces.ViewState的参数 .userAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X
10
浏览 2
提问于2017-04-06
得票数 0
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券