搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

为网络爬虫优化PHP CURL

我正在尝试用curl编写一个基于PHP的爬虫。我有20,000-30,000网址的数据库，我必须抓取。每次调用curl来获取网页大约需要4-5秒。我如何优化这一点并减少获取页面所需的时间？

浏览 0提问于2012-12-06得票数 0

回答已采纳

1回答

使用AWS Glue Crawler创建列名时删除/重命名特殊字符

我正在使用AWS爬虫爬行S3桶，它在雅典娜中创建表模式。据我所知，雅典娜不支持具有特殊字符的列名，比如(反斜杠)等等。这是一种可以在爬虫从S3桶中爬行时排除/重命名这些列名的方法。

浏览 3修改于2021-10-14得票数 2

回答已采纳

1回答

在数据库中查找和替换URL，而不尾随URL末尾的斜杠

但是，一些放置内容的人在<a href""></a> URL的末尾没有添加反斜杠(尾斜杠)的情况下就生成了URL。它会自动添加一个反斜杠到末尾，这可以算作谷歌爬虫的重定向。TL；博士如何在没有反斜杠的情况下替换WordPress内容中的所有URL，使用(https://test.com/testpage)并添加反斜杠(https://test.com/testpage/

浏览 0修改于2020-10-16得票数 0

0回答

使用Python爬虫，怎么处理反爬机制？

python、爬虫、验证码、requests、数据

我用Python requests来请求数据，但经常出现bug，要没ip无效，要么需要验证码，怎么处理呢？

浏览 177提问于2025-07-19

2回答

在它们的真实符号中变成utf

我刚刚自己做了第一个网络爬虫，它上了维基百科，下载了整个页面的html。我设法获得了一个列表的内容。列表中的值包含正数或负数。但它给了我一个'\xe2\x88\x922'，而不是打印出一个'-2'。我尝试了string.replace("\xe2\x88\x92","-")，但由于反斜杠的原因，这似乎不起作用。你知道我怎样才能把这些utf东西转换成它们真正的符号吗？

浏览 18修改于2020-07-04得票数 3

1回答

如何抓取Vue构建的基于组件的web应用程序并作出反应？

javascript src=/static/js/app.335a9e9866cb7dc6a517.js></script> </html>我使用Abot框架爬行建议

浏览 7提问于2022-03-06得票数 0

回答已采纳

1回答

它看起来很漂亮，链接最糟糕的是后面跟着一个反斜杠。我的客户发行的。他想知道为什么管理员和用户的后端界面仍然显示那些巨大的丑陋链接。这些是非常非常丑陋的链接，我说的是三到四个反斜杠，后面跟着不同的get序列等等，所以你可能会理解MOD_REWRITING背后的复杂性。一时冲动，我说我让它保持原样是为了确保后端接口不会被任何爬虫嗅探到。但我不确定这是否一定是真的。爬虫在哪里停下来？他们什么时候会放弃尝试解析链接呢？我知道我可以使用.robot文件来指定规则。

浏览 1提问于2012-03-16得票数 1

回答已采纳

2回答

在Service Fabric服务之间移动大型数据是一种反模式吗？

我正在使用Service Fabric开发一个web数据爬虫。我已经将爬行过程划分为无状态服务管道。第一个服务加载HTML。(S1)第二个函数解析其中的数据。本身就是大量的数据，我不得不设置这种设计是反模式吗

浏览 0修改于2017-10-01得票数 0

2回答

Bash中的嵌套条件(if [[...)

[ "[ `echo "$5" | cut -c 1-2` -lt 0 || `echo "$5" | cut -c 1-2` -gt 23 ]" && "[ `echo "$5" | cut -c 4-5` -lt 0 || `echo "$5" | cut -c 4-5` -gt 23 ]" ]] echo "La plage horaire indiquée n'est我

浏览 0提问于2011-05-06得票数 0

回答已采纳

2回答

自定义计数器逻辑在SIMULINK中的实现

我试图在SIMULINK中实现一个反逻辑 if in2 = 1, out1不幸的是，我本可以使用硬件逻辑的4-5行描述来实现它，而不是VHDL。

浏览 6修改于2019-01-27得票数 0

1回答

USB3驱动器连接故障

] usb 4-5: device descriptor read/8, error -71[52318.150455] usb 4-5: unable to get BOS descriptor set[52323.855183] usb 4-5: new SuperSpeed

浏览 0修改于2013-08-15得票数 0

回答已采纳

1回答

不认识的反爬虫技术，提示412错误，有高手知道？

爬虫

近期发现大量网站采用相似的反爬技术，Heritrix提示412，网址http://www.xgrsks.cn/，还有湖北省编制网、检察院、政府网都采用这种，网上查不到相关办法

浏览 1022提问于2021-04-26

1回答

带有双引号的json_encode传递给JSON.parse

由于$data的结构非常不可预测，并且通常是4-5层深，所以我的解决方案是： $item我读过一些其他的问题，人们不仅逃避双引号，还逃避行提要、回车和反斜杠。有什么提示吗？

浏览 2提问于2015-11-25得票数 2

回答已采纳

1回答

Flash:动态文本框会造成极大的滞后--为什么？

我试过使用反别名，没有反别名，设备字体-没有区别。我不知道为什么4-5动态textfields的存在/推特会产生一个看起来很大的内存泄漏。有人听说过这个吗？

浏览 0提问于2012-09-09得票数 0

1回答

爬虫和爬虫架构

当我遇到这个设计问题时，我一直在用php构建一个刮板和爬虫。我想知道创建一个分离爬行和抓取任务的系统(大多数专业系统似乎都是这样做的)和一个在爬虫爬行时抓取任务的系统之间的权衡。

浏览 4修改于2012-04-16得票数 2

回答已采纳

1回答

HTML流的SEO/爬行性影响

随着HTML流(例如反应18流)的兴起，我想知道爬虫是如何处理HTML的。谷歌爬虫是如何处理这个问题的？谷歌确实提到了流这里，但它没有说明谷歌爬虫如何处理HTML。其他爬虫(DuckDuckGo，Bing，Facebook，Twitter等)怎么样？我假设爬虫会等到HTML流结束时，这个假设安全吗？

浏览 0提问于2021-07-27得票数 7

4回答

如何停止云主机上的爬虫？

云服务器

我在云主机上运行了一个scrapy爬虫，这个爬虫可以一直运行，假如我没有停止爬虫就和主机断开了连接，是不是除了关机就没有办法停止爬虫了？

浏览 498提问于2018-01-27

1回答

如何在docker中使用此文件？

我想使用爬虫实验室仪表板与我的爬虫代码。爬虫实验室是爬虫仪表板。链接为我要安装(？)docker(?)中的chromedriver。

浏览 44提问于2021-03-11得票数 0

1回答

ASP.NET核心依赖注入单个聚合类而不是多个单独的构造函数注入

在我的ASP.NET核心Web中，我有几个控制器，它们在构造函数中接受4-5个以上的参数，这在我看来不太好。我正在考虑创建一个聚合类，其中包含我经常使用的所有单独的对象。这种方法被认为是反模式的吗？

浏览 1修改于2021-07-10得票数 1

回答已采纳

2回答

如何将新的URL传递给Scrapy Crawler

我想让一个抓取爬虫在芹菜任务工人内部不断运行，可能使用。或者，正如所建议的，这个想法是使用爬虫程序来查询返回XML响应的外部API。一旦爬虫程序开始运行，我如何将我想要获取的这个新URL传递给爬虫程序。我不想在每次想要给爬虫一个新的URL时都重新启动爬虫，而是希望爬虫无所事事地等待URL爬行。我发现的在另一个python进程中运行scrapy的两个方法使用一个新进程来运行爬虫程序。我不希望每次我想要抓取一个URL时，都必须派生和拆卸一个新的进程，因为这

浏览 0修改于2017-05-23得票数 2

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

为网络爬虫优化PHP CURL

使用AWS Glue Crawler创建列名时删除/重命名特殊字符

在数据库中查找和替换URL，而不尾随URL末尾的斜杠

使用Python爬虫，怎么处理反爬机制？

在它们的真实符号中变成utf

如何抓取Vue构建的基于组件的web应用程序并作出反应？

爬虫/SEO友好/Mod重写/它没有任何意义

在Service Fabric服务之间移动大型数据是一种反模式吗？

Bash中的嵌套条件(if [[...)

自定义计数器逻辑在SIMULINK中的实现

USB3驱动器连接故障

不认识的反爬虫技术，提示412错误，有高手知道？

带有双引号的json_encode传递给JSON.parse

Flash:动态文本框会造成极大的滞后--为什么？

爬虫和爬虫架构

HTML流的SEO/爬行性影响

如何停止云主机上的爬虫？

如何在docker中使用此文件？

ASP.NET核心依赖注入单个聚合类而不是多个单独的构造函数注入

如何将新的URL传递给Scrapy Crawler

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐