腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
2
回答
有没有办法在python中抓取网页,让
爬虫
只抓取新的链接。
我有一个
爬虫
代码,从一个网站获得所有的链接,需要
2-3
个小时来获得大约30000个链接,并在数据库中存储。如果下次运行
爬虫
程序时,我只想插入新的链接,该怎么办?我知道我可以在插入数据库之前做一个过滤器,但我希望
爬虫
只抓取新的链接,而不是再次抓取旧链接(基本上是整个网站)。有没有可能做这样的事情?
浏览 1
提问于2018-04-18
得票数 0
1
回答
如何在Google上爬行
我的计划是我的网络
爬虫
google.com/robots.txtDisallow: /search我的新计划我的网络
爬虫
会 打开谷歌、
浏览 3
提问于2017-09-15
得票数 0
1
回答
使用AWS Glue Crawler创建列名时删除/重命名特殊字符
我正在使用AWS
爬虫
爬行S3桶,它在雅典娜中创建表模式。据我所知,雅典娜不支持具有特殊字符的列名,比如(
反
斜杠)等等。这是一种可以在
爬虫
从S3桶中爬行时排除/重命名这些列名的方法。
浏览 3
修改于2021-10-14
得票数 2
回答已采纳
1
回答
在数据库中查找和替换URL,而不尾随URL末尾的斜杠
但是,一些放置内容的人在<a href""></a> URL的末尾没有添加
反
斜杠(尾斜杠)的情况下就生成了URL。它会自动添加一个
反
斜杠到末尾,这可以算作谷歌
爬虫
的重定向。TL;博士 如何在没有
反
斜杠的情况下替换WordPress内容中的所有URL,使用(https://test.com/testpage)并添加
反
斜杠(https://test.com/testpage/
浏览 0
修改于2020-10-16
得票数 0
6
回答
具有独立实例的.NET自定义线程池
我需要一个无限的队列大小(建立一个
爬虫
),并需要运行我正在爬行的每个网站在并行单独的线程池。(不超过
2-3
个) 谢谢罗伊
浏览 0
修改于2009-07-21
得票数 12
1
回答
你能告诉我在python中没有
反
斜杠“\”,还有其他的可能性吗?
在windows中,路径使用
反
斜杠"\“。但是python不接受
反
斜杠。还有其他的可能吗?供您参考,我将我的代码和错误粘贴在下面。chrome) print(pages) Error SyntaxError:(unicode错误)‘独角形转义’编解码器无法解码位置
2-
浏览 2
修改于2019-11-10
得票数 0
回答已采纳
0
回答
使用Python
爬虫
,怎么处理
反
爬机制?
python
、
爬虫
、
验证码
、
requests
、
数据
我用Python requests来请求数据,但经常出现bug,要没ip无效,要么需要验证码,怎么处理呢?
浏览 177
提问于2025-07-19
2
回答
做一个好公民,抓取网络
这些记录从起始页往下埋了
2-3
层。所以基本上我让
爬虫
从某个页面开始,爬行直到它找到特定类型的记录,然后解析html。我想知道的是,有什么方法可以防止我的爬行器使站点过载?其次,与之相关的是,有没有一种使用Scrapy的方法可以在不对网站施加过多压力的情况下测试
爬虫
?我知道你可以在程序运行的时候杀死它,但是有没有办法让脚本在遇到像第一页这样的页面时停止呢?
浏览 0
提问于2011-12-17
得票数 6
回答已采纳
1
回答
这是拉拉贡/ Laravel 8中的一个BUG吗?-2个或更多项目试图在彼此的数据库中查找表。
爬虫
是一个爬行过程,分析网页的网站,我也指出它。因为这是循环的,如果我访问集线器上的页面,下次当
爬虫
进程加载时,它会尝试连接到core.pages表。中心正在运行:LaravelFramework8.77.1我从来没有在终端上运行任何命令来切换数据库。只刷新浏览器。两者都在运行8.1.2 只是要详细说明-这不仅限于这些项目,我有相当多,并在测试与另一个
2-3
,同样的事情发生。任何帮助解决我的问题将不胜感激,因为我经常是在
2-3
个项目在同一时间工作。
浏览 1
提问于2022-03-22
得票数 1
回答已采纳
2
回答
在要在RegEx wiki中发布的标记表中转义GitLab管道时遇到麻烦
问题是,我需要使用的正则表达式也有管道,因此它们需要转义,我相信这是使用像这个\|这样的
反
斜杠来完成的。这是逃狱的地方..。^123\.123\.(1(7[
2-3
]))\.([0-9]\|[1-9][0-9]\|1([0-9][0-9])\|2([0-4][0-9]\|5[0-5]))$ 最后,这是我的减价表上的逃狱..。IP Block | Reg
浏览 2
提问于2017-11-10
得票数 1
回答已采纳
1
回答
在IntelliJ IDEA的构建路径/模块中导入另一个项目?
我在Eclipse中的设置通常涉及打开
2-3
个项目,还有一个项目位于另外两个项目的构建路径中,作为一个库。如何在Intellij中实现这一点?我想我应该创建模块,但这对我来说是非常
反
直觉的。
浏览 1
提问于2015-03-15
得票数 0
回答已采纳
2
回答
在它们的真实符号中变成utf
我刚刚自己做了第一个网络
爬虫
,它上了维基百科,下载了整个页面的html。我设法获得了一个列表的内容。列表中的值包含正数或负数。但它给了我一个'\xe2\x88\x922',而不是打印出一个'-2'。我尝试了string.replace("\xe2\x88\x92","-"),但由于
反
斜杠的原因,这似乎不起作用。你知道我怎样才能把这些utf东西转换成它们真正的符号吗?
浏览 18
修改于2020-07-04
得票数 3
1
回答
如何在非常大的数据集上训练Word2vec?
我正在考虑在web
爬虫
转储上训练10 TB+以上的大型数据的TB+。我需要使用分布式模型,还是需要在
2-3
天内使用哪种类型的硬件?我有8gb内存的iMac。 我看到word2vec实现不支持GPU培训。
浏览 1
修改于2015-06-02
得票数 20
回答已采纳
1
回答
如何抓取Vue构建的基于组件的web应用程序并作出反应?
javascript src=/static/js/app.335a9e9866cb7dc6a517.js></script> </html>我使用Abot框架爬行建议
浏览 7
提问于2022-03-06
得票数 0
回答已采纳
1
回答
爬虫
/SEO友好/Mod重写/它没有任何意义
它看起来很漂亮,链接最糟糕的是后面跟着一个
反
斜杠。 我的客户发行的。他想知道为什么管理员和用户的后端界面仍然显示那些巨大的丑陋链接。这些是非常非常丑陋的链接,我说的是三到四个
反
斜杠,后面跟着不同的get序列等等,所以你可能会理解MOD_REWRITING背后的复杂性。一时冲动,我说我让它保持原样是为了确保后端接口不会被任何
爬虫
嗅探到。但我不确定这是否一定是真的。
爬虫
在哪里停下来?他们什么时候会放弃尝试解析链接呢?我知道我可以使用.robot文件来指定规则。
浏览 1
提问于2012-03-16
得票数 1
回答已采纳
2
回答
在Service Fabric服务之间移动大型数据是一种
反
模式吗?
我正在使用Service Fabric开发一个web数据
爬虫
。我已经将爬行过程划分为无状态服务管道。第一个服务加载HTML。(S1)第二个函数解析其中的数据。本身就是大量的数据,我不得不设置这种设计是
反
模式吗
浏览 0
修改于2017-10-01
得票数 0
1
回答
为什么D2010调试器会使某些事情变得慢得多?
我尝试直接从Windows运行它,这次只用了
2-3
秒,这是我所期望的。 那么,当Delphi调试器连接到它时,为什么完全相同的EXE处理数字的速度要慢25倍以上呢?这并不像计算条件断点那样明显。似乎仅仅是调试器的存在就让它慢得像
爬虫
一样。有人知道为什么吗?
浏览 0
提问于2010-03-16
得票数 2
回答已采纳
1
回答
在timeit模块python中出现Unicode转义错误
timeit-src>", line 1 SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position
2-
但在我的例子中,我已经使用\\(双
反
斜杠)转义了字符串中的
反
斜杠。
浏览 24
提问于2019-06-25
得票数 0
回答已采纳
2
回答
pcolormesh中的1像素网格线
我希望这个网格正好是一个像素宽,没有
反
混叠:但这段代码为我提供了一个
2-3
像素宽的网格(添加了微小的红色破折号作为视觉指南):进一步减小线宽(例如0.1)给出的网格线宽为1-2像素:进一步降低线宽似乎没有任何作用
浏览 3
修改于2016-04-25
得票数 2
回答已采纳
3
回答
如何以最有效的方式编写和组织代码?
几周前,我需要一个
爬虫
来收集和整理数据,所以我开始学习python。同一天,我写了一个简单的
爬虫
,但代码看起来丑陋得要死。主要是因为我不知道如何做某些事情,也不知道如何正确地搜索它们。启动机器人大约需要
2-3
秒(如果这是正常的,我想我写得越多,启动它需要的时间就越长,这让我认为代码是垃圾)。它有时起作用,有时不起作用。 我的问题是 我怎么知道我写的是不是好东西?
浏览 47
修改于2021-03-02
得票数 0
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券