腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
简易
网络
爬虫
我在python中为非常简单的
网络
爬虫
编写了下面的程序,但是当我运行它时,它会返回'NoneType‘对象是不可调用的,您能帮我吗?
浏览 2
修改于2012-12-01
得票数 1
4
回答
自动
网络
爬虫
我正在编写一个
爬虫
,需要从许多网站获取数据。问题是每个网站都有不同的结构。我如何才能轻松地编写一个从(许多)不同网站下载(正确)数据的
爬虫
?如果网站的结构发生变化,我是否需要重写
爬虫
,或者是否有其他方法?谢谢!
浏览 0
提问于2012-07-20
得票数 1
1
回答
识别
网络
爬虫
以下属性是否足够可靠以识别搜索引擎web
爬虫
? 也许我可以使用HttpRequest UserAgent属性来识别它们。如果是这样的话,请有人建议一个当前的
爬虫
名称列表,我相信必应机器人,例如,是所谓的bingbot,如提到的。
浏览 0
修改于2012-08-03
得票数 2
回答已采纳
1
回答
PHP
网络
爬虫
我正在寻找一个PHP的
网络
爬虫
收集一个大型网站的所有链接,并告诉我,如果链接被打破。问题不是抓取链接,而是规模问题我不确定我修改的脚本是否足以抓取可能有数千个URL,因为我尝试将搜索链接的深度设置为4,但
爬虫
在浏览器中超时。
浏览 0
修改于2017-05-23
得票数 0
5
回答
快速
网络
爬虫
为此,我需要一个快速
爬虫
。所有我需要的是下载一个网页,提取链接和递归跟随他们,但不访问相同的网址两次。基本上,我想避免循环。编辑:解决方案是组合multiprocessing和threading模块。
浏览 4
修改于2012-10-14
得票数 8
回答已采纳
3
回答
网络
爬虫
反馈?
无论如何,作为对我上一个问题的跟进,我写了一个小的
网络
爬虫
,可以访问网站。 - Main.java - HTMLUtils.java
浏览 12
修改于2010-05-29
得票数 2
回答已采纳
6
回答
Tor
网络
爬虫
我有一个基于PHP的
网络
爬虫
。它可以在这里访问:现在,我的问题是我的
爬虫
需要在SOCKS端口9050上抓取页面。问题是,我必须通过Tor隧道它的连接,这样它才能解析.onion域,这就是我要索引的。这是
爬虫
源代码,如果你有兴趣看看:也许有好心的人可以修改它,以使用127.0.0.1:9050对所有的
爬虫
请求?
浏览 7
修改于2012-02-11
得票数 10
2
回答
网络
爬虫
优化
我正在建立一个使用矢量空间模型的基本搜索引擎,这是返回500个URL的
爬虫
,并从内容中删除SGML标签。然而,它非常慢(仅检索URL就需要30分钟以上)。如何优化代码?
浏览 1
修改于2013-04-08
得票数 2
6
回答
如何识别
网络
爬虫
?
我怎样才能过滤掉
网络
爬虫
等非人类的点击。 我使用maxmind.com向IP请求城市。这并不是很便宜,如果我必须支付所有的点击,包括
网络
爬虫
,机器人等。
浏览 3
修改于2011-12-07
得票数 33
回答已采纳
2
回答
什么是
网络
爬虫
?
网站
、
爬虫
什么是
网络
爬虫
?具体用处 都有那些?
浏览 408
提问于2019-05-15
3
回答
C++
网络
爬虫
我正在尝试并尝试制作一个最小的
网络
爬虫
。我在很高的层次上理解了整个过程。那么进入下一层细节,程序如何“连接”到不同的网站来提取HTML?谢谢!
浏览 1
提问于2012-07-01
得票数 0
回答已采纳
1
回答
PHP cURL
网络
爬虫
当我以如下方式运行文件时,此代码在终端中运行正常然而,我很好奇我需要做些什么才能让它在控制台中指定的URL上运行。以下是我到目前为止拥有的完整代码:{ { CURLOPT_RETURNTRANSFER => TRUE, // return web page CURLOP
浏览 2
修改于2018-07-14
得票数 1
4
回答
网络
爬虫
与IFrames
假设情况:我有一个名为"miniatureBoltsInCarburetors.com“的小而晦涩的网站,它提供了有关将化油器装配在一起的微型螺栓的内容,以及一些相关的汽车信息。我的网站也有一个页面,可以让人们在化油器中找到丢失的螺栓,虽然没有人会直接从我的网站访问这个页面,但是其他10亿个流行的汽车网站已经使用iframe将这个页面嵌入到他们的网站中,但没有包含一个指向我网站的链接。我希望我的网站&
浏览 5
修改于2014-01-22
得票数 2
1
回答
网络
爬虫
遇到javascript
我是个
网络
爬虫
新手。我正在尝试用java抓取网页,我遇到了一个问题。我需要获取一个'HTML标签‘中的链接,它的href是一个javascript函数。
浏览 1
修改于2015-08-11
得票数 2
3
回答
如何忽略
网络
爬虫
?
当然,当一些机器人/
爬虫
扫描我的网站时,他们会增加这个值,而我会摆脱这个问题。那么,是否存在要忽略的IP地址列表?或者一些可以帮助我做到这一点的机制?
浏览 5
修改于2011-08-01
得票数 1
1
回答
网络
爬虫
递归BeautifulSoup
我试图递归地抓取所有英文文章链接的维基百科网址。我想先执行n的深度遍历,但出于某种原因,我的代码并不是每次遍历都会重复出现。知道为什么吗? if depth == 0: links = bs.find("div",{"id" : "bodyContent"}).findAll("a" , href=re.compile("(/wiki/)+([A-Za-z0-9_:()])+")) print (
浏览 1
修改于2018-03-06
得票数 2
回答已采纳
1
回答
网络
爬虫
美汤
当class=high打印平均时薪m/m时,如何过滤? <tr class="calendar__row calendar_row calendar__row--grey calendar__row--no-grid nogrid" data-eventid="117390" data-ecobaseid="159" data-touchable=""> <td class="calendar__cell calendar__impact impact calendar__im
浏览 5
修改于2021-09-10
得票数 0
2
回答
多线程
网络
爬虫
我在一个多线程的
网络
爬虫
上工作。这很简单,但我想征求一些建议。程序从一个web地址(在此代码中为http://google.com)开始,并在给定的响应中查找所有有效的URL。然后,
爬虫
将继续在队列中的URL中爬行。通过设计,
爬虫
将变得越来越慢,因为列表/地图变得越来越大。我真想不出有什么办法能提高那里的表现。我在这里能改进什么?我更新了我的代码以使用线程,正如我在其中一个问题中所指定的那样。
浏览 0
修改于2016-08-20
得票数 6
1
回答
如何识别
网络
爬虫
?
我有一个页面应用程序,其中我使用无头浏览器为网页
爬虫
服务,给他们一个版本的网页非常接近的实际用户将看到。目前,我正在将
爬虫
用户代理白名单给几个: google、facebook、bing、yahoo和linkedin。使用巨型用户代理regex是最好的方法吗?对于每一个请求我都要这样做,所以我也需要一些快速的东西.
浏览 4
提问于2013-06-25
得票数 0
回答已采纳
1
回答
使用R的
网络
爬虫
我想建立一个
网络
爬虫
使用R程序为网站"",它可以访问与地址参数的网站,然后从网站获取生成的经度和纬度。这将对我拥有的数据集的长度重复。提前谢谢。
浏览 28
修改于2018-06-08
得票数 -2
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券