腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
使用AWS Glue Crawler创建列名时删除/重命名特殊字符
我正在使用AWS
爬虫
爬行S3桶,它在雅典娜中创建表模式。据我所知,雅典娜不支持具有特殊字符的列名,比如(
反
斜杠)等等。这是一种可以在
爬虫
从S3桶中爬行时排除/重命名这些列名的方法。
浏览 3
修改于2021-10-14
得票数 2
回答已采纳
1
回答
在数据库中查找和替换URL,而不尾随URL末尾的斜杠
但是,一些放置内容的人在<a href""></a> URL的末尾没有添加
反
斜杠(尾斜杠)的情况下就生成了URL。它会自动添加一个
反
斜杠到末尾,这可以算作谷歌
爬虫
的重定向。TL;博士 如何在没有
反
斜杠的情况下替换WordPress内容中的所有URL,使用(https://test.com/testpage)并添加
反
斜杠(https://test.com/testpage/
浏览 0
修改于2020-10-16
得票数 0
0
回答
使用Python
爬虫
,怎么处理
反
爬机制?
python
、
爬虫
、
验证码
、
requests
、
数据
我用Python requests来请求数据,但经常出现bug,要没ip无效,要么需要验证码,怎么处理呢?
浏览 177
提问于2025-07-19
2
回答
在它们的真实符号中变成utf
我刚刚自己做了第一个网络
爬虫
,它上了维基百科,下载了整个页面的html。我设法获得了一个列表的内容。列表中的值包含正数或负数。但它给了我一个'\xe2\x88\x922',而不是打印出一个'-2'。我尝试了string.replace("\xe2\x88\x92","-"),但由于
反
斜杠的原因,这似乎不起作用。你知道我怎样才能把这些utf东西转换成它们真正的符号吗?
浏览 18
修改于2020-07-04
得票数 3
1
回答
如何抓取Vue构建的基于组件的web应用程序并作出反应?
javascript src=/static/js/app.335a9e9866cb7dc6a517.js></script> </html>我使用Abot框架爬行建议
浏览 7
提问于2022-03-06
得票数 0
回答已采纳
1
回答
爬虫
/SEO友好/Mod重写/它没有任何意义
它看起来很漂亮,链接最糟糕的是后面跟着一个
反
斜杠。 我的客户发行的。他想知道为什么管理员和用户的后端界面仍然显示那些巨大的丑陋链接。这些是非常非常丑陋的链接,我说的是三到四个
反
斜杠,后面跟着不同的get序列等等,所以你可能会理解MOD_REWRITING背后的复杂性。一时冲动,我说我让它保持原样是为了确保后端接口不会被任何
爬虫
嗅探到。但我不确定这是否一定是真的。
爬虫
在哪里停下来?他们什么时候会放弃尝试解析链接呢?我知道我可以使用.robot文件来指定规则。
浏览 1
提问于2012-03-16
得票数 1
回答已采纳
2
回答
有没有可以下载整个网站的网络
爬虫
?
需要知道是否有一个
爬虫
/下载器,可以抓取和下载和整个网站的链接深度至少为
4
页。我正在尝试下载的站点有java script超链接,这些超链接只能由浏览器呈现,因此
爬虫
程序无法抓取这些超链接,除非
爬虫
程序自己呈现它们!
浏览 4
提问于2010-09-30
得票数 0
回答已采纳
2
回答
在Service Fabric服务之间移动大型数据是一种
反
模式吗?
我正在使用Service Fabric开发一个web数据
爬虫
。我已经将爬行过程划分为无状态服务管道。第一个服务加载HTML。(S1)第二个函数解析其中的数据。本身就是大量的数据,我不得不设置这种设计是
反
模式吗
浏览 0
修改于2017-10-01
得票数 0
1
回答
支持windows增量爬行的Web
爬虫
我需要一个开源的web
爬虫
在java开发的增量爬行支持。 是
浏览 4
提问于2014-09-22
得票数 1
回答已采纳
1
回答
调试Glue Crawler EOFException
我创建了一个新的
爬虫
并手动运行它。
爬虫
作业运行时没有出错,但是当我检查日志时,我会收到下面的EOF异常通知。Error java.io.EOFException retrieving file at s3://insurance-transparency-data/2022-09-05_796b7d27-c275-
4
e37-b
4
c8-be2e
4
c0c6eda_Aetna-Life-Insurance-Company.json.gz.我尝试将一个简单的测试json文件上传到同一
浏览 9
提问于2022-09-16
得票数 0
回答已采纳
1
回答
反
斜杠之间的preg_match_all
尝试提取两个
反
斜杠之间的数据 阅读文字
反
斜杠必须是
4
...为什么有
4
个
反
斜杠?是的,必须使用
4
个
反
斜杠才能匹配一个文字
反
斜杠,这似乎很疯狂!
浏览 1
提问于2015-01-11
得票数 0
2
回答
为什么在php中3
反
斜杠等于
4
反
斜杠?
php$b='/\\\\/';var_dump($b);//string '/\\/' (length=
4
)?> 为什么带有3个
反
斜杠的字符串与
浏览 4
修改于2015-01-21
得票数 5
回答已采纳
1
回答
在ubuntu的后台运行时,
爬虫
停止。
我使用具有无限循环的python制作了一个简单的
爬虫
,所以它不能停止。随机延迟17 ~ 30,这个
爬虫
爬行相同的一个页面,并找到'href‘链接,定期更新,并存储到Mysql。因为我使用了Linux命令这个
爬虫
是在Ubuntu服务器背景下运行的。我想它已经运行了大约
4
个小时。但
爬虫
突然停止了。第二天我再试一次。
浏览 1
修改于2014-05-20
得票数 0
回答已采纳
1
回答
如何减少/更改爬网后的延迟?
有人使用过Crawler
4
j吗? 我按照的例子实现了我自己的
爬虫
。
爬虫
运行良好,爬行速度非常快。唯一的问题是我总是有20-30秒的延迟。有没有办法避免等待时间?
浏览 1
修改于2014-05-02
得票数 1
1
回答
如何将刮过的项目导出为Scrapy中的字典列表
我做了一个抓取代码,有
4
个
爬虫
从
4
个不同的电子商务网站抓取。对于每个
爬虫
,我想从每个网站输出价格最低的5产品,并将它们导出到一个CSV文件中。CrawlerProcess()process.crawl(Crawler2)process.crawl(Crawler
4
)process.start() 我希望每个
爬虫
返回一个字典列表,这样我就可以使用for循环迭代它,并比较价格。
浏览 9
提问于2021-12-09
得票数 0
回答已采纳
1
回答
如何使用crawler
4
j添加(集成)
爬虫
?
我的工作是网络
爬虫
,从网站上获取数据使用crawler
4
j和一切顺利,但主要问题是基于ajax的事件。所以,我发现了
爬虫
库做了这件事,但我不能使用它的地点和时间。在使用crawler
4
j获取页面之前。 我是否使用url来使用crawler
4
j,并使用它来使用爬行获取Ajax数据(页面)。
浏览 5
提问于2019-03-05
得票数 0
2
回答
使用crawler
4
j库实现Java crwaler中模式匹配的一些信息
我想用Java实现一个非常简单的web
爬虫
,我已经找到了这个库: crawler
4
j:从URL开始(由我指定),并识别当前页面中是否有一个特定的单词,比如自己的名称或公司名称因此,没有语义分析,只有语法分析(
爬虫
必须尝试将网页内容与我指定的标记匹配)。我会知道这个令牌研究(如果在当前页面中包含一个单词)是由抽象类WebCrawler of crawler
4
j实现的,还是我必须自己实现它?
浏览 4
修改于2018-07-17
得票数 0
回答已采纳
1
回答
为什么Kinesis或Crawler要在我的数据中创建分区?
然后,我在我的S3桶上运行一个
爬虫
来编目我的数据。我的数据,当写入运动消防软管时,有以下属性:'dataset_datetime,attr1,attr2,attr3,attr2
4
.‘。但是,当数据存储在我的S3桶中时,数据存储在以下dir结构中:然后,当我在上面运行我的
爬虫
时,我的
爬虫
会创建
4
个额外的分区键问:为什么胶水
爬虫
要创建这些附加属性,我如何阻止它创建它们?或者,如何防止动态在S3中
浏览 10
提问于2022-07-26
得票数 0
回答已采纳
2
回答
如何将.java和html结合起来?
然后,我想执行一个
爬虫
到rottentomatoes.com并获取与这部电影相关的所有html页面。我已经使用Tomcat在Eclipse中创建了我的web应用程序( GUI)。我有一个web
爬虫
: crawler
4
j,如果我选择将主.java文件作为应用程序运行,它就会运行。我怎么才能把这两者结合起来? 是否可以使用html中的参数(电影名称)调用java类文件?为了在我的html中执行它,我必须用
爬虫
创建一个单独的Applet吗?我可以这样做并用它发送字符串( html中的电影名称,所以我需要通过
爬虫</e
浏览 3
修改于2019-12-03
得票数 0
回答已采纳
2
回答
如何将
反
斜杠(\)插入数据帧列名?
为了显示目的,我试图在数据帧列名中插入一个
反
斜杠(\)。21.0 6 160# Datsun 710 22.8
4
108但是,如果我试图转义
反
斜杠('\\'),则在列名中得到两个
反
斜杠:##two backslashes nam
浏览 5
提问于2020-08-18
得票数 1
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券