腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
无法从spark streaming中的套接字读取JSON对象
我正在尝试通过套接字发送一个JSON对象,如下所示
爬虫
程序conn, adds = s.accept()conn.send(json.dumps(item).encode('utf-
8
'))... conn, adds
浏览 0
修改于2018-04-04
得票数 0
1
回答
Haskell http-客户端集用户代理字符串
我在Haskell用手术刀写一个网络
爬虫
。基本
代码
是:Main = do p <- httpLBS request >>= return .getResponseBody r <- return $ scrapeStringLike (L
8
.unpack p) torrentS return我认为它检查用户代理字符串,并对真正的浏览器和
爬虫
浏览 2
提问于2017-05-08
得票数 0
回答已采纳
1
回答
使用多个EC2实例爬行
我已经编写了这个
爬虫
,这样它就可以用它的结果向一个单独的"hub“实例报告。集线器处理
爬虫
的结果,
爬虫
可以自由地继续爬行。我在这个爬行实例中想到的是,克隆
爬虫
的几个实例很容易,每个实例都要向中心报告以便处理。 (这是一个假设)如果每个
爬虫
都有自己独立的i
浏览 2
修改于2015-01-08
得票数 0
回答已采纳
1
回答
Python -无法导入本地库
我有一个刮擦的
爬虫
,我想在我的
爬虫
中使用当地的图书馆。下面是我的目录模型:有两个重要文件db/base.py和/
爬虫
/蜘蛛/adilisik.pyfrom sqlalchemy import create_enginesession = Session() # -*- coding: utf-
8
但我不能让这段
代
浏览 1
修改于2017-05-23
得票数 1
1
回答
将python“重复”
代码
转换为Matlab
我正在尝试将下面的python
代码
转换为Matlab,但是,我找不到等同于重复的
代码
。我试过“
爬虫
垫”,但没有得到同样的结果。k.size为64,LL为10 * 10矩阵。Id = (2 * LL).repeat(K.size).reshape(-1,
8
,
8
) 此外,如何将(2 * LL).repeat(K.size)转换为(-1,
8
,
8
)在matlab中的形状。
浏览 3
修改于2022-01-25
得票数 0
回答已采纳
1
回答
如何在docker中使用此文件?
我想使用
爬虫
实验室仪表板与我的
爬虫
代码
。
爬虫
实验室是
爬虫
仪表板。链接为 我要安装(?)docker(?)中的chromedriver。
浏览 44
提问于2021-03-11
得票数 0
2
回答
关于腾讯云服务器乱码的问题?
云服务器
、
java
我在本地win
8
环境下用java写了个小
爬虫
程序,没什么问题,但将程序部到服务器上就发生了乱码 ,我的编码设置就是网页源
代码
的编码。求帮助。。核心的
代码
:String encoding="UTF-
8
";
浏览 932
提问于2016-03-17
1
回答
我怎么能在robots.txt中只允许一个代理?
我目前在我的robots.txt中使用以下
代码
来禁止任何
爬虫
访问我的网站。但我只想有一个例外,那就是Google AdSense的
爬虫
。下面是我的
代码
:谷歌的AdSense
爬虫
名为“Mediapartners Google”。 我如何才能将其添加为异常,并继续阻止所有其他
爬虫
?
浏览 18
修改于2021-05-27
得票数 1
2
回答
如何处理python
爬虫
的urlopen错误?
当我编写python
爬虫
时,我经常使用urlopen。有时它无法打开url (所以我得到一个错误),但当我重新尝试打开这个url时,它成功了。因此,我通过这样编写
爬虫
来处理这种情况:'''open the url and return its content''' break continue
浏览 3
提问于2016-05-03
得票数 0
1
回答
Parse.com如何在Json中同步网络数据
我已经创建了一些
爬虫
,这些
爬虫
可以使用kimonolabs.com和parsehub.com从一些网站收集数据。我想根据
爬虫
获得的数据创建一个iPhone应用程序,并通过他们的api同步
爬虫
提供给我的数据。 因此,如果
爬虫
发现从网站的任何新的数据,我希望在这些数据的变化同步。如何在parse.com中创建后台作业或云
代码
以从json导入这些数据?apikey=
8
OBDXxQPcoAcW9AWqHzAzh1J9rlWHwIM&kimbypage=0' \
浏览 3
修改于2015-12-29
得票数 0
回答已采纳
2
回答
Java -下载网页源
代码
html的最佳方式
我在写一个小
爬虫
。下载网页源码html的最好方法是什么?我目前正在使用下面的一小段
代码
,但有时结果只是页面源
代码
的一半!我不知道有什么问题。有些人建议我应该使用Jsoup,但如果使用Jsoup中的.get.html()函数太长,也会返回一半的页面源
代码
。因为我正在写一个
爬虫
,所以方法支持unicode (UTF-
8
)是非常重要的,效率也是非常重要的。我想知道最好的现代方法,所以我问你们,因为我是Java新手。谢谢。
代码
: public static String dow
浏览 0
提问于2011-05-03
得票数 1
回答已采纳
1
回答
爬行url \如何在node.js中获取动态链接
我正在使用js
爬虫
来抓取网站,现在我遇到了CNN,的那一部分(基于某种原因动态生成的urls)。事情是
爬虫
,不要真正接触脚本-我应该如何解决它?除了我的node.js
爬虫
之外,我还应该编写自己的
代码
吗?是否有先进的
爬虫
知道如何处理这种动态行为?
浏览 1
提问于2016-07-23
得票数 2
回答已采纳
1
回答
如果我为我的python脚本做了一个简单的gui,它会影响它的效率吗?
嗨,我想做一个网页
爬虫
,检查URL的数据,如果我做一个简单的Gui,使脚本更容易查找变量的数据,添加
代码
的gui会使我的网络
爬虫
效率降低吗? 我需要
爬虫
尽可能高效,能够尽可能快地处理数据。为这个Python脚本制作一个gui,会不会妨碍web
爬虫
的性能?
浏览 3
修改于2015-01-27
得票数 0
回答已采纳
1
回答
包含异步内容的博客搜索引擎优化
我的网站,是建立在角
8
,采取了部分的URL路线,并使用它来搜索博客。我计划使用一个sitemap.xml来引导
爬虫
到HTML页面,而不是静态的标记。问题: 在
爬虫
分析页面之前,有什么方法可以确保加载内容吗?
浏览 0
修改于2019-08-20
得票数 1
1
回答
让Drupal
8
使用外部索引?
我有两个网站,一个是由我们在drupal
8
维护,另一个是由另一个公司维护,为我们公司的新闻更新等。我想找出在drupal进行联合搜索的最佳方法。因此,设置一个Solr实例并设置一个web
爬虫
来爬行另一个站点,设置drupal
8
来使用search和search。但是,现在我不知道用drupal
8
集成web
爬虫
创建的索引的最好方法是什么。
浏览 0
提问于2017-08-15
得票数 0
1
回答
如何使用Python抓取多个评论页面?
我有一个关于网络
爬虫
的问题。我想得到几个使用Python的评论页面。 这是我的网络
爬虫
代码
。login_response = client.post(URL, json = login_data, headers = headers)index = client.get(jre)
浏览 11
修改于2020-01-25
得票数 2
1
回答
Scrapy response.xpath无效语法
我正在尝试从一个网站上拉价格信息(学习如何建立一个实践网络
爬虫
)。我正在使用scrapy来构建我的
爬虫
,并且在我的价格蜘蛛中,我尝试使用以下
代码
行来拉取价格的html字段的xpath: text = response.xpath(‘/html/body/div[
8
]/
浏览 23
提问于2017-07-19
得票数 1
回答已采纳
1
回答
什么是爬行延迟:1意味着如果它被解释为是?
我很难理解crawl-delay: 1的含义,如果它没有被忽略,并且实际上被一个给定的网络
爬虫
所解释。我从斯蒂芬·奥斯特米勒的回答中了解到表示:爬行A页爬行B页换句话说, 什么是爬行延迟:1表示如果它被解释为是?
浏览 0
修改于2020-03-04
得票数 1
1
回答
基于Crawler输出的触发Lambda
我有一个设置,在我的胶水
爬虫
运行和数据准备红移时,我需要触发lambda函数。有办法制造这样的触发器吗?编辑: 我为
爬虫
状态更改添加了一个事件桥规则,它可以工作并触发lambda函数,但是当我的任何
爬虫
程序运行时它都会触发。我想隔离它,只有在运行了特定的
爬虫
之后才触发。我用下面的
代码
进行了测试,但它似乎没有选择我的
爬虫
名称。是否有其他方法在规则中指定
爬虫
名称,或者我是否犯了语法错误?
浏览 6
修改于2022-10-04
得票数 0
回答已采纳
1
回答
Solr将数据从“爬行器”核心复制到“搜索”核心
我们正在寻找一个Solr 4.9设置,其中我们有一个非常简单的
爬虫
清除和加载一个“
爬虫
”核心,然后触发一个数据副本到“搜索”核心时,爬行完成。这样做的目的是,我们的
爬虫
非常简单,不真正跟踪文档的方式,将有助于进行更新和删除。基本上,
爬虫
将清除整个“
爬虫
”核心,撕毁大约50k个文档(提交1000多个文档),然后触发一些东西将数据复制到另一个“搜索”核心。 假设我们必须重新启动搜索核心,如何通过命令行或
代码
实现这一点?
浏览 9
提问于2014-08-25
得票数 0
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券