腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
Java
8
CompletedFuture web
爬虫
不会爬过一个URL
我正在使用Java
8
中新引入的并发特性,这是Cay S. Horstmann著的“真正不耐烦的Java
8
”一书中的工作练习。我使用新的和创建了以下web
爬虫
。
浏览 3
修改于2016-05-12
得票数 0
回答已采纳
1
回答
使用多个EC2实例爬行
我已经编写了这个
爬虫
,这样它就可以用它的结果向一个单独的"hub“实例报告。集线器处理
爬虫
的结果,
爬虫
可以自由地继续爬行。我在这个爬行实例中想到的是,克隆
爬虫
的几个实例很容易,每个实例都要向中心报告以便处理。 (这是一个假设)如果每个
爬虫
都有自己独立的i
浏览 2
修改于2015-01-08
得票数 0
回答已采纳
1
回答
让Drupal
8
使用外部索引?
我有两个网站,一个是由我们在drupal
8
维护,另一个是由另一个公司维护,为我们公司的新闻更新等。我想找出在drupal进行联合搜索的最佳方法。因此,设置一个Solr实例并设置一个web
爬虫
来爬行另一个站点,设置drupal
8
来使用search和search。但是,现在我不知道用drupal
8
集成web
爬虫
创建的索引的最好方法是什么。
浏览 0
提问于2017-08-15
得票数 0
1
回答
包含异步内容的博客搜索引擎优化
我的网站,是建立在角
8
,采取了部分的URL路线,并使用它来搜索博客。我计划使用一个sitemap.xml来引导
爬虫
到HTML页面,而不是静态的标记。问题: 在
爬虫
分析页面之前,有什么方法可以确保加载内容吗?
浏览 0
修改于2019-08-20
得票数 1
1
回答
什么是爬行延迟:1意味着如果它被解释为是?
我很难理解crawl-delay: 1的含义,如果它没有被忽略,并且实际上被一个给定的网络
爬虫
所解释。我从斯蒂芬·奥斯特米勒的回答中了解到表示:爬行A页爬行B页换句话说, 什么是爬行延迟:1表示如果它被解释为是?
浏览 0
修改于2020-03-04
得票数 1
1
回答
将.htaccess更改为工作?_escaped_fragment_= URL
_escaped_fragment_=传递给一个单独的
爬虫
PHP。cat=%1 [QSA,L]crawler.php?cat=m&id=GkQs6Mw4W
8
谢谢
浏览 0
修改于2014-11-10
得票数 0
1
回答
调试Glue Crawler EOFException
我创建了一个新的
爬虫
并手动运行它。
爬虫
作业运行时没有出错,但是当我检查日志时,我会收到下面的EOF异常通知。java.io.EOFException retrieving file at s3://insurance-transparency-data/2022-09-05_796b7d27-c275-4e37-b4c
8
-我尝试将一个简单的测试json文件上传到同一个S3桶中,并对它运行
爬虫
,它完美地解析了模式。因此,我不认为这是一个权限或
爬虫
配置的问题。 对于如何进一步调试
浏览 9
提问于2022-09-16
得票数 0
回答已采纳
1
回答
爬虫
正在创建一个名称后缀奇怪的表。
我们还调用了一个
爬虫
来创建/更新雅典娜中的表。但是,它正在创建表,但在表名中添加了一些奇怪的后缀。glue_client = boto3.client("glue", region_name=args.get("aws_region"))
浏览 3
提问于2020-08-04
得票数 0
回答已采纳
2
回答
使用哪个网络
爬虫
将网站中的新闻文章保存为.txt文件?
所以我需要一个
爬虫
,它给定一个起始url,假设遵循所有包含的链接,并将它们的内容保存到.txt文件中,如果我们可以指定格式为UTF
8
,我会在天堂。我没有这方面的专业知识,所以我恳求你一些建议,其中
爬虫
用于这项任务。
浏览 2
提问于2010-02-19
得票数 1
1
回答
Haskell http-客户端集用户代理字符串
我在Haskell用手术刀写一个网络
爬虫
。- httpLBS request >>= return . getResponseBody r <- return $ scrapeStringLike (L
8
.我认为它检查用户代理字符串,并对真正的浏览器和
爬虫
做出不同的响应。 那么,我应该如何自定义http-client中的用户代理字符串?或wreq?
浏览 2
提问于2017-05-08
得票数 0
回答已采纳
1
回答
无法从spark streaming中的套接字读取JSON对象
我正在尝试通过套接字发送一个JSON对象,如下所示
爬虫
程序conn, adds = s.accept()conn.send(json.dumps(item).encode('utf-
8
'))...conn.send(json.dumps(item['text'
浏览 0
修改于2018-04-04
得票数 0
1
回答
如何使用perl存储和显示ISO-8859-1和UTF
8
字符
我正在使用perl编写一个web
爬虫
,web
爬虫
将使用LWP和一些简单的正则表达式提取某些信息。 这些信息保存在mySQL数据库中,该数据库将在安卓设备上使用。然而,当我测试网页
爬虫
时,我意识到有些信息是用HTML数字编码(&# 20856;&# 33775 ;)用中文(典華),而有些信息是使用iso-8859-1编码(Zhífú)。我使用PERL::Entities库解决了中文部分,当我将控制台设置为utf
8
时可以显示该库。然而,其他字母(Zhífú)只能显示在iso-8859-1中。如果我试图在utf<
浏览 4
提问于2011-09-09
得票数 3
回答已采纳
1
回答
docker:在完全初始化依赖MySQL容器之前依赖容器运行
一个是Python,另一个是MySQL
爬虫
应用程序,它可以读取/写入数据库。当我做docker-compose up时,我看到:我的问题是,为什么在DB容器中创建数据库之前,我的
爬虫
脚本还在运行?如何确保在运行
爬虫
脚本之前已经创建了数据库?version: '3.7' ser
浏览 5
提问于2020-02-05
得票数 1
1
回答
Python -无法导入本地库
我有一个刮擦的
爬虫
,我想在我的
爬虫
中使用当地的图书馆。下面是我的目录模型:有两个重要文件db/base.py和/
爬虫
/蜘蛛/adilisik.pyfrom sqlalchemy import create_enginesession = Session() # -*- coding: utf-
8
编辑1 在之后,我在<e
浏览 1
修改于2017-05-23
得票数 1
1
回答
哪些浏览器设置会导致服务器编码问题?
我正在尝试重现rails站点在特定
爬虫
访问特定页面时生成的异常:该页面接受GET参数。crawler的IP始终是基于EU的(我的站点是基于美国的),其中一个用户代理是:查看发送的HTTP头,我发现我的浏览器请求和
爬虫
请求之间唯一的区别是它包含HTTP_ACCEPT_CHARSET,而我的不包含: -- HTTP_ACC
浏览 0
提问于2015-10-11
得票数 2
1
回答
爬虫
和
爬虫
架构
当我遇到这个设计问题时,我一直在用php构建一个刮板和
爬虫
。我想知道创建一个分离爬行和抓取任务的系统(大多数专业系统似乎都是这样做的)和一个在
爬虫
爬行时抓取任务的系统之间的权衡。
浏览 4
修改于2012-04-16
得票数 2
回答已采纳
3
回答
如何检测文本文档之间的重复,并返回副本的相似度?
我正在写一个
爬虫
从一些网站获取内容,但内容可以重复,我想避免这种情况。因此,我需要一个函数可以在两个文本之间返回相同的百分比来检测两个内容--可能是重复的示例: 比较函数将文本2作为同一文本返回1乘5/
8
%(5为文本的字数2相同的文本1(按词序比较),
8
为文本2的总单词2)。
浏览 2
修改于2016-09-17
得票数 5
1
回答
HTML流的SEO/爬行性影响
随着HTML流(例如反应18流)的兴起,我想知道
爬虫
是如何处理HTML的。谷歌
爬虫
是如何处理这个问题的?谷歌确实提到了流这里,但它没有说明谷歌
爬虫
如何处理HTML。 其他
爬虫
(DuckDuckGo,Bing,Facebook,Twitter等)怎么样?我假设
爬虫
会等到HTML流结束时,这个假设安全吗?
浏览 0
提问于2021-07-27
得票数 7
4
回答
如何停止云主机上的
爬虫
?
云服务器
我在云主机上运行了一个scrapy
爬虫
,这个
爬虫
可以一直运行,假如我没有停止
爬虫
就和主机断开了连接,是不是除了关机就没有办法停止
爬虫
了?
浏览 536
提问于2018-01-27
2
回答
如何处理python
爬虫
的urlopen错误?
当我编写python
爬虫
时,我经常使用urlopen。有时它无法打开url (所以我得到一个错误),但当我重新尝试打开这个url时,它成功了。因此,我通过这样编写
爬虫
来处理这种情况:'''open the url and return its content''' break continue
浏览 3
提问于2016-05-03
得票数 0
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券