搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

为网络爬虫优化PHP CURL

我正在尝试用curl编写一个基于PHP的爬虫。我有20,000-30,000网址的数据库，我必须抓取。每次调用curl来获取网页大约需要4-5秒。我如何优化这一点并减少获取页面所需的时间？

浏览 0提问于2012-12-06得票数 0

回答已采纳

1回答

开了ai爬虫处置，会不会影响我的网站seo?

搜索引擎、网站、爬虫、seo、EdgeOne

eo的这个ai爬虫处置，开了之后其他搜索引擎还能爬到我的网站吗，影响seo吗

浏览 59提问于2026-04-27

1回答

Facebook messenger bot在4-5秒后未返回响应

我已经在Api.ai上创建了一个聊天机器人，并与facebook messenger集成在一起。如果响应时间小于4秒，我将收到响应，但在4-5秒后没有响应。

浏览 3提问于2017-10-14得票数 2

2回答

匹配字母数字码的正则表达式

我想要一个与以下模式相匹配的正则表达式但它正在考虑AI2AT，而它不应该这样做。

浏览 2修改于2016-08-24得票数 1

回答已采纳

1回答

有没有办法在python中通过http来调整jpgs的大小？

我正在编写一个网络爬虫，找到并保存在网站上的所有图像的网址。我可以毫不费力地买到这些。我需要上传这些网址，连同它们的缩略图版本，通过http请求到服务器，这将渲染图像和收集各种AI应用程序中使用的功能信息。对于某些urls，这是没有问题的。

浏览 15提问于2017-02-17得票数 0

回答已采纳

1回答

在Java中加速嵌入式Groovy

我正在尝试为一个游戏引擎创建脚本AI，我正在开发一个有趣的游戏引擎。我决定尝试使用Groovy来创建作为GroovyClasses加载的.groovy行为文件，然后将其转换为我的behavior接口。我在每个游戏周期执行更新，脚本化的AI类将程序带入爬虫。我的问题是，有没有办法加快嵌入式groovy的速度，或者有没有更好的方法来做我正在做的事情？谢谢你的帮助。

浏览 3提问于2011-05-07得票数 1

1回答

爬虫-无法访问爬行内存

我对Screep比较陌生，我一直致力于构建自己的基本AI系统。然而，我在最初的测试中遇到了一个问题。我有一个确定要做的作业的脚本，然后爬虫请求可用的作业。我已经能够将Job对象存储到爬虫的内存中，但稍后我无法再调用它。

浏览 14提问于2017-08-18得票数 1

1回答

USB3驱动器连接故障

] usb 4-5: device descriptor read/8, error -71[52318.150455] usb 4-5: unable to get BOS descriptor set[52323.855183] usb 4-5: new SuperSpeed

浏览 0修改于2013-08-15得票数 0

回答已采纳

1回答

Minimax算法不适合国际象棋中的配偶

我的目标是编码一个有点好的国际象棋引擎，在下面的位置，它是一个伙伴在2，引擎应该很容易找到它的深度4-5。 AI做出的第一个动作是Ra2捕捉白国王，白色国王去f1，而不是交配，AI移动鲁克到c2。

浏览 5提问于2022-05-07得票数 2

回答已采纳

1回答

智能答疑引擎的AIML

我是一名网页开发人员，有一个使用Python2.7构建网页爬虫的网站，并为维基百科建立了索引.所以我想用python构建一个应答引擎，它使用一个字符串变量(它是一个包含整个维基百科的巨大变量)作为信息来源，并使用AI来回答.我可以在AIML中编写这种应答代理程序吗？如果是，请提供教程的链接，其中告诉我如何做到这一点？

浏览 2修改于2014-12-27得票数 6

1回答

即使在读取小数据时，GPU也会内存不足？使用"Quadro m1000m 4 4GB“

float on /job:localhost/replica:0/task:0/device:GPU:0 by allocator GPU_0_bfc在下面的代码中，我的路径是到样本数据的路径，它只包含4-5个图像。

浏览 9修改于2018-08-06得票数 0

1回答

爬虫和爬虫架构

当我遇到这个设计问题时，我一直在用php构建一个刮板和爬虫。我想知道创建一个分离爬行和抓取任务的系统(大多数专业系统似乎都是这样做的)和一个在爬虫爬行时抓取任务的系统之间的权衡。

浏览 4修改于2012-04-16得票数 2

回答已采纳

1回答

HTML流的SEO/爬行性影响

随着HTML流(例如反应18流)的兴起，我想知道爬虫是如何处理HTML的。谷歌爬虫是如何处理这个问题的？谷歌确实提到了流这里，但它没有说明谷歌爬虫如何处理HTML。其他爬虫(DuckDuckGo，Bing，Facebook，Twitter等)怎么样？我假设爬虫会等到HTML流结束时，这个假设安全吗？

浏览 0提问于2021-07-27得票数 7

4回答

如何停止云主机上的爬虫？

云服务器

我在云主机上运行了一个scrapy爬虫，这个爬虫可以一直运行，假如我没有停止爬虫就和主机断开了连接，是不是除了关机就没有办法停止爬虫了？

浏览 510提问于2018-01-27

1回答

如何在docker中使用此文件？

我想使用爬虫实验室仪表板与我的爬虫代码。爬虫实验室是爬虫仪表板。链接为我要安装(？)docker(?)中的chromedriver。

浏览 44提问于2021-03-11得票数 0

1回答

如何用C语言测量DNS查找时间

getaddrinfo()只需4-5毫秒即可返回，而libcurl则告诉我DNS查找平均需要15 ms。我在linux和Windows上测试了这一点，结果也很相似。memset(&hints, 0, sizeof(hints)); if (prog->prog_ipver == 4)hints.ai_family = AF_INET;

浏览 0提问于2018-06-11得票数 1

回答已采纳

2回答

我想让一个抓取爬虫在芹菜任务工人内部不断运行，可能使用。或者，正如所建议的，这个想法是使用爬虫程序来查询返回XML响应的外部API。一旦爬虫程序开始运行，我如何将我想要获取的这个新URL传递给爬虫程序。我不想在每次想要给爬虫一个新的URL时都重新启动爬虫，而是希望爬虫无所事事地等待URL爬行。我发现的在另一个python进程中运行scrapy的两个方法使用一个新进程来运行爬虫程序。我不希望每次我想要抓取一个URL时，都必须派生和拆卸一个新的进程，因为这

浏览 0修改于2017-05-23得票数 2

2回答

基于PHP的Web爬虫或基于JAVA的Web爬虫

我对基于PHP的网络爬虫有些怀疑，它能像基于java线程的爬虫一样运行吗？我之所以问这个问题，是因为在java中，线程可以一次又一次地执行，我不认为PHP有类似线程的功能，你们能说一下，哪个网络爬虫更能充分利用吗?基于PHP的爬虫还是基于Java的爬虫

浏览 1修改于2012-12-25得票数 0

回答已采纳

1回答

如何阻止Web爬虫下载文件

是否有可能阻止web爬虫在我的服务器上下载文件(如zip文件)？有可能阻止网络爬虫吗？或者，在下载最多3个文件后，是否还有其他选项可以将文件隐藏在web爬虫上？我可以很容易地创建一个PHP脚本，使用cookie强制访问者登录/注册，但是web爬虫呢？顺便说一下，我用的是nginx和drupal CMS。如果这能帮上忙的话就给我

浏览 0提问于2013-07-27得票数 1

1回答

是否可以使用Googlebot的用户代理令牌来检测它，而不是使用完整的用户代理字符串？

来自：User代理令牌在robots.txt中的用户代理:行中使用，以便在为站点编写爬行规则时匹配爬虫类型。有些爬虫有多个令牌，如表中所示；要应用规则，只需匹配一个爬虫令牌即可。此列表尚未完成，但涵盖了您可能在website.Full用户代理上看到的大多数爬虫字符串是对爬虫的完整描述，并显示在请求和web日志中。从上面的节选中我们可以看到，可以在robots.txt文件中使用用户代理令牌进行匹配，从而检测爬虫</

浏览 3修改于2019-11-01得票数 0

回答已采纳

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

为网络爬虫优化PHP CURL

开了ai爬虫处置，会不会影响我的网站seo?

Facebook messenger bot在4-5秒后未返回响应

匹配字母数字码的正则表达式

有没有办法在python中通过http来调整jpgs的大小？

在Java中加速嵌入式Groovy

爬虫-无法访问爬行内存

USB3驱动器连接故障

Minimax算法不适合国际象棋中的配偶

智能答疑引擎的AIML

即使在读取小数据时，GPU也会内存不足？使用"Quadro m1000m 4 4GB“

爬虫和爬虫架构

HTML流的SEO/爬行性影响

如何停止云主机上的爬虫？

如何在docker中使用此文件？

如何用C语言测量DNS查找时间

如何将新的URL传递给Scrapy Crawler

基于PHP的Web爬虫或基于JAVA的Web爬虫

如何阻止Web爬虫下载文件

是否可以使用Googlebot的用户代理令牌来检测它，而不是使用完整的用户代理字符串？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐