腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
如果我为我的python脚本做了一个简单的gui,它会影响它的效率吗?
嗨,我想做一个网页
爬虫
,检查URL的数据,如果我做一个简单的Gui,使脚本更容易查找变量的数据,添加代码的gui会使我的网络
爬虫
效率降低吗? 我需要
爬虫
尽可能
高效
,能够尽可能快地处理数据。为这个Python脚本制作一个gui,会不会妨碍web
爬虫
的性能?
浏览 3
修改于2015-01-27
得票数 0
回答已采纳
5
回答
Googlebot是用哪种编程语言编写的(或任何其他
高效
的网络
爬虫
)?
或者,更普遍的是,
高效
的网络
爬虫
是用哪种语言编写的? 我见过很多Java语言,但在我看来,它不是最适合开发网络
爬虫
的语言,因为它产生了太多的开销(尝试使用Heritrix网络
爬虫
,它非常重)。
浏览 0
提问于2009-10-29
得票数 1
回答已采纳
1
回答
如何在Scrapy中运行多个相同的
爬虫
?
这些urls在一个域名中,我用Scrapy编写了一个
爬虫
程序,我需要使用相同的
爬虫
程序一起运行这些urls。如果我有10个urls,我想创建10个相同的进程来运行
爬虫
程序,以提
高效
率。有解决方案吗?我尝试使用CrawlerProcess来运行
爬虫
,但是如果urls太多,它会提醒我有太多TCP连接的错误。虽然crawler始终处于运行状态,但这种方法不利于维护。CrawlerProcess(get_project_settings()) page_urls = ['http://
浏览 0
提问于2019-01-06
得票数 0
1
回答
Python中的多线程
爬虫
它真的很
高效
吗?我计划用Python创建一个
爬虫
,为了使程序
高效
,我想创建尽可能多的线程,每个线程将下载一个网站。我试着在网上查找一些信息;不幸的是,我找不到太多。
浏览 16
提问于2019-10-27
得票数 0
回答已采纳
1
回答
最有效的语言来创建一个非常快的网络
爬虫
?
我应该使用哪种语言来创建一个
高效
的网络
爬虫
?
浏览 1
提问于2014-02-19
得票数 0
4
回答
对mongodb地理空间查询的结果进行有效排序
我有一个非常大的文档集合,比如:并希望能够
高效
地执行如下查询:.sort({ relevance: -1 }) 这导致所有东西都被磨得像
爬虫
一样(在任何特定的框中都可能有大量的结果,我只需要前10个左右)。
浏览 0
修改于2013-09-03
得票数 4
3
回答
高效
网络
爬虫
的语言建议
我正在寻找一种语言来编写一个
高效
的网络
爬虫
。
浏览 6
提问于2010-12-03
得票数 2
1
回答
比regex更好的系统
对于这个简单的
爬虫
,还有比正则表达式更
高效
的进程或想法吗?
浏览 0
修改于2012-05-21
得票数 3
4
回答
"in“的有效替代
我正在编写一个网络
爬虫
,最终目标是创建
爬虫
所走路径的地图。虽然我不知道其他
爬虫
以多快的速度抓取页面,但我的
爬虫
每分钟大约有2000页。for href in tempUrl:所以我的问题是,在提
高效
率的同时实现相同功能的另一种
浏览 0
修改于2011-06-29
得票数 4
回答已采纳
1
回答
用Java在分布式体系结构上实现Web
爬虫
朋友们,我用Java实现了一个多线程的网络
爬虫
。为了使它更
高效
,我想将其转换为分布式架构,即在3台机器上。据我所知,主从架构是最好的。
浏览 0
提问于2013-02-26
得票数 0
2
回答
爬虫
存储系统所需的建议
我计划用c++编写一个网络
爬虫
,它每天爬行N个页面。主要的问题是我把存储系统搞糊涂了。所以我需要一个
高效
的分布式数据库来存储我抓取的数据。有没有人能给我推荐一个符合条件的db?
浏览 0
修改于2011-03-20
得票数 1
3
回答
使用Python广播的内存
高效
L
2
规范
目标是找到每个测试点和所有采样点之间的
L
2
距离,以找到最接近的样本(不使用任何python距离函数)。基于在线帖子,我们可以使用矩阵乘法sqrt(X * X-
2
*X * Y+Y * Y)来实现
L
2
范数。因此,我尝试了以下方法: y
2
= np.dot(train,train.T) dist = np.sqrt(
浏览 3
修改于2015-11-19
得票数 8
1
回答
如何有效地将向量重复到库达的矩阵中?
例如:a = [1
2
3 4]b = [1
2
3 4; .......我尝试的是分配b的每个元素我知道这在matlab中很容易(使用
爬虫
垫),但是如何在cuda中
高效
地实现呢?我没有在库布拉斯找到任何例行程序。
浏览 2
修改于2014-08-22
得票数 0
回答已采纳
1
回答
MySQL -更新与我是SELECTing相同的记录
我正在编写一个网络
爬虫
。所有链接都存储在MySQL数据库中。因为我将在多个节点上运行
爬虫
程序,所以我需要尽可能快地将URL设置为“正在爬行”,以保持
高效
。 我的网络
爬虫
是用C#编写的。
浏览 1
修改于2014-03-02
得票数 0
1
回答
从代码中获取所有href
我在做一个网络
爬虫
。然而,测试
爬虫
时,我发现并不是所有的链接都在a标签下。href有时也用在area或div标记中。driver.find_elements_by_xpath("//div")这真的把
爬虫
放在了网络
爬虫
中我还尝试了几种方法来
高效
地获取所有的href url,都使用了漂亮的soup和lxml,但到目
浏览 0
修改于2011-12-20
得票数 1
回答已采纳
1
回答
将`www`‘重定向为’`www`‘,除非它的LetsEncrypt验证
我试图让LetsEncrypt autoSSL
爬虫
在我的htaccess上工作,它正在实现白名单方法。</IfModule># Rewrite "www.example.com -> example.com"但是,当试图验证301 permanent redirect版本时,
爬虫
正在获取www。.well-known/
浏览 0
修改于2018-03-01
得票数 0
回答已采纳
1
回答
如果存在于scrapy中,则自动添加字段
写一个
爬虫
来抓取一个网站,但是被一个问题卡住了。这里有一段类似下面的代码。我还想写一个
爬虫
来抓取存在于<ul>标记中的所有<li>标记,以提取其中的href属性,并将其存储在一个增量变量中,如Field1、Field
2
、Field3等,其中‘href’为常量,数值随着存在的<li>标记的增加而递增<ul class="
l
-itemcassette
l
-space_medium">
浏览 28
提问于2017-01-24
得票数 0
回答已采纳
1
回答
在python
2
中使用漂亮的汤
我正在尝试用python2.7中的漂亮汤构建一个基本的web
爬虫
。:[A-Z]{
2
,6}\.?|[A-Z0-9-]{
2
,}\.?)|' #domain... links=soup.findAll('a',href=True) for
l
in links:
浏览 3
修改于2017-05-23
得票数 1
回答已采纳
2
回答
最适合用于图像爬行的开源、可扩展
爬虫
我们正处于一个项目的开始阶段,我们目前想知道哪个
爬虫
是我们最好的选择。基本上,我们要建立Hadoop和抓取网络上的图像。一些特殊问题:现在这些看起来是最好的三种选择-摘要: 我们需要从网络上获取尽可能多的图片。现有的爬行框架是可伸缩和
高效<
浏览 5
修改于2009-07-28
得票数 3
2
回答
强制网站到HTTPS,除了一些页面和Facebook
爬虫
为了保留赞/共享,Facebook
爬虫
需要能够访问主页的HTTP版本。任何帮助都非常感谢。^ page1 | page
2
| page3 $ [NC] # Go to http for80
浏览 5
修改于2017-12-31
得票数 1
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券