腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
使用AWS Glue Crawler创建列名时删除/重命名特殊字符
我正在使用AWS
爬虫
爬行S3桶,它在雅典娜中创建表模式。据我所知,雅典娜不支持具有特殊字符的列名,比如(
反
斜杠)等等。这是一种可以在
爬虫
从S3桶中爬行时排除/重命名这些列名的方法。
浏览 3
修改于2021-10-14
得票数 2
回答已采纳
1
回答
在数据库中查找和替换URL,而不尾随URL末尾的斜杠
但是,一些放置内容的人在<a href""></a> URL的末尾没有添加
反
斜杠(尾斜杠)的情况下就生成了URL。它会自动添加一个
反
斜杠到末尾,这可以算作谷歌
爬虫
的重定向。TL;博士 如何在没有
反
斜杠的情况下替换WordPress内容中的所有URL,使用(https://test.com/testpage)并添加
反
斜杠(https://test.com/testpage/
浏览 0
修改于2020-10-16
得票数 0
2
回答
在它们的真实符号中变成utf
我刚刚自己做了第一个网络
爬虫
,它上了维基百科,下载了整个页面的html。我设法获得了一个列表的内容。列表中的值包含正数或负数。但它给了我一个'\xe
2
\x88\x922',而不是打印出一个'-
2
'。我尝试了string.replace("\xe
2
\x88\x92","-"),但由于
反
斜杠的原因,这似乎不起作用。你知道我怎样才能把这些utf东西转换成它们真正的符号吗?
浏览 18
修改于2020-07-04
得票数 3
1
回答
如何抓取Vue构建的基于组件的web应用程序并作出反应?
HTML> <div id=app> <script type=text/javascript src=/static/js/manifest.
2
ae
2
e69a05c33dfc65f8javascript src=/static/js/app.335a9e9866cb7dc6a517.js></script> </body>
浏览 7
提问于2022-03-06
得票数 0
回答已采纳
0
回答
使用Python
爬虫
,怎么处理
反
爬机制?
python
、
爬虫
、
验证码
、
requests
、
数据
我用Python requests来请求数据,但经常出现bug,要没ip无效,要么需要验证码,怎么处理呢?
浏览 177
提问于2025-07-19
2
回答
在Service Fabric服务之间移动大型数据是一种
反
模式吗?
我正在使用Service Fabric开发一个web数据
爬虫
。我已经将爬行过程划分为无状态服务管道。第一个服务加载HTML。(S1)第二个函数解析其中的数据。(S
2
)第三个将结果保存到DB中并执行其他操作。( S3 ) HTML代码从S1移动到S
2
,然后移动到S3(根据设计,我需要在第三个服务中使用HTML )。本身就是大量的数据,我不得不设置这种设计是
反
模式吗
浏览 0
修改于2017-10-01
得票数 0
1
回答
爬虫
/SEO友好/Mod重写/它没有任何意义
它看起来很漂亮,链接最糟糕的是后面跟着一个
反
斜杠。 我的客户发行的。他想知道为什么管理员和用户的后端界面仍然显示那些巨大的丑陋链接。这些是非常非常丑陋的链接,我说的是三到四个
反
斜杠,后面跟着不同的get序列等等,所以你可能会理解MOD_REWRITING背后的复杂性。一时冲动,我说我让它保持原样是为了确保后端接口不会被任何
爬虫
嗅探到。但我不确定这是否一定是真的。
爬虫
在哪里停下来?他们什么时候会放弃尝试解析链接呢?我知道我可以使用.robot文件来指定规则。
浏览 1
提问于2012-03-16
得票数 1
回答已采纳
2
回答
为什么UI-路由器停止使用散列字符?
我已经开始看到一些关于Angular
2
的东西,特别是UI-路由器状态和路由。我注意到的是,与Ang1相
反
,现在我不能使用'#'字符来从一条路线导航到另一条路线。当然,在Ang1中,响应将是404 (除非我以前创建了一个静态的幽灵页面,例如用于
爬虫
),但是使用Ang
2
,我得到了与我所要求的相同的html ( index.html): mydomain.com/app
浏览 0
修改于2017-02-28
得票数 1
2
回答
返回-
2
的
爬虫
getDirectionTo
enemy_creep) 我试着在screeps中做类似的事情,但是这个函数一直返回-
2
。
浏览 4
修改于2015-01-11
得票数 0
2
回答
爬行时管理URL的常见方法是什么?
我正在尝试编写一个网络
爬虫
程序,但现在我想知道:存储所有urls的最佳方法是什么,这样
爬虫
就可以一起工作,但不会干扰。 将所有已找到的URL保存在由所有Queue实例共享的PriorityQueue如果数据库最终是一致的,我如何防止多个<em
浏览 5
提问于2011-12-28
得票数 0
回答已采纳
1
回答
用Scrapy爬行多个页面
目标问题->website.com--->
浏览 2
提问于2017-07-17
得票数 0
2
回答
与多个小脚本相比,使用一个大脚本更好吗?
我计划通过编写新的
爬虫
来提取更多类型的数据。在我看来,我现在有两个选择:选项
2
.将新的爬行函数编写到不同的脚本文件:从现在起,我正在考虑在不同的.py文件(1
爬虫
=1 .py文件)上编写新的
爬虫
,并将当前脚本然后,我可以分别运行每个
爬虫
,并将所有
爬虫
的结果写入一个CSV文件(如上面所示)。通过使用多个
爬虫
文件(假设),我认为与像现在这样将所有
爬虫
放在一个.py文件中相比,我将拥有更干净、更少错误敏感性、更快
浏览 2
修改于2017-03-10
得票数 1
回答已采纳
1
回答
阻止crawler更改表属性
我有一个由
爬虫
创建的粘合表,默认的是org.apache.hadoop.hive.serde
2
.lazy.LazySimpleSerDe属性。我将其更改为使用org.apache.hadoop.hive.serde
2
.OpenCSVSerDe,但是
爬虫
程序会在运行时恢复该更改。我用
爬虫
设置了什么配置来阻止它这样做?
浏览 26
修改于2021-10-04
得票数 0
1
回答
使用多个EC
2
实例爬行
我用python编写了一个爬行过程,它运行在亚马逊上的一个ec
2
实例上。我已经编写了这个
爬虫
,这样它就可以用它的结果向一个单独的"hub“实例报告。集线器处理
爬虫
的结果,
爬虫
可以自由地继续爬行。我在这个爬行实例中想到的是,克隆
爬虫
的几个实例很容易,每个实例都要向中心报告以便处理。 有冗余,所以如果一个
爬虫
被挂断,其余的
爬虫
可以继续工
浏览 2
修改于2015-01-08
得票数 0
回答已采纳
2
回答
PHP:无法使用CURL解析特定站点
SubmitToSearch=Search&lctr=1&rvsd=-1&o1=
2
&p1=1&ipp=10&city=&fromsearchpage=true&cg=11&cg=12&cg=13&cg=这就是有问题的URL: 这个页面上是否有某种
反
爬虫
代码在运行?
浏览 0
提问于2012-02-18
得票数 0
回答已采纳
1
回答
AWS Boto启动实例,部署Docker映像,运行和终止
我有一个网络
爬虫
,是一个码头形象。我想使用boto创建一个EC
2
实例,部署我的
爬虫
,运行这个
爬虫
,然后在它完成后终止这个实例。我现在的想法是: 我真的需要使用像Fabric这样的工具来对我的实例进行SSH并运行命令吗?
浏览 0
提问于2018-03-19
得票数 2
1
回答
无法在Lambda中创建AWS胶水爬行器,Lambda由Step函数触发
该查询成功运行,并在给定的S桶中生成结果 要在Lambda中创建AWS
爬虫
,下面是我在Lambda (NodeJS)中的代码: }; return response
浏览 2
修改于2021-08-16
得票数 1
1
回答
不认识的
反
爬虫
技术,提示412错误,有高手知道?
爬虫
近期发现大量网站采用相似的
反
爬技术,Heritrix提示412,网址http://www.xgrsks.cn/,还有湖北省编制网、检察院、政府网都采用这种,网上查不到相关办法
浏览 1022
提问于2021-04-26
1
回答
向机器人隐藏代码
有没有一种方法只对
爬虫
隐藏页面的特定部分?那么,有没有办法对机器人隐藏某些部件,但在未来不会对用户隐瞒?不是整页,只是部分。PS #
2
:也许AJAX是可能的?但没有理由不让智能js阅读
爬虫
来隐藏它。麦芽酒
浏览 6
修改于2014-10-16
得票数 0
回答已采纳
1
回答
匹配具有特定背引号组合的单词
我需要用regex匹配一个单词,它位于
反
引号/
反
引号之间,最多有1和
2
个
反
引号。 and ```more``` than ```three```````` quotes ```````not``` matched 比赛:
浏览 4
修改于2017-03-20
得票数 2
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券