搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

Java8 CompletedFuture web爬虫不会爬过一个URL

我正在使用Java 8中新引入的并发特性，这是Cay S. Horstmann著的“真正不耐烦的Java 8”一书中的工作练习。我使用新的和创建了以下web爬虫。

浏览 3修改于2016-05-12得票数 0

回答已采纳

1回答

使用多个EC2实例爬行

我已经编写了这个爬虫，这样它就可以用它的结果向一个单独的"hub“实例报告。集线器处理爬虫的结果，爬虫可以自由地继续爬行。我在这个爬行实例中想到的是，克隆爬虫的几个实例很容易，每个实例都要向中心报告以便处理。 (这是一个假设)如果每个爬虫都有自己独立的i

浏览 2修改于2015-01-08得票数 0

回答已采纳

1回答

让Drupal 8使用外部索引？

我有两个网站，一个是由我们在drupal 8维护，另一个是由另一个公司维护，为我们公司的新闻更新等。我想找出在drupal进行联合搜索的最佳方法。因此，设置一个Solr实例并设置一个web爬虫来爬行另一个站点，设置drupal 8来使用search和search。但是，现在我不知道用drupal 8集成web爬虫创建的索引的最好方法是什么。

浏览 0提问于2017-08-15得票数 0

1回答

包含异步内容的博客搜索引擎优化

我的网站，是建立在角8，采取了部分的URL路线，并使用它来搜索博客。我计划使用一个sitemap.xml来引导爬虫到HTML页面，而不是静态的标记。问题：在爬虫分析页面之前，有什么方法可以确保加载内容吗？

浏览 0修改于2019-08-20得票数 1

1回答

什么是爬行延迟:1意味着如果它被解释为是？

我很难理解crawl-delay: 1的含义，如果它没有被忽略，并且实际上被一个给定的网络爬虫所解释。我从斯蒂芬·奥斯特米勒的回答中了解到表示：爬行A页爬行B页换句话说，什么是爬行延迟:1表示如果它被解释为是？

浏览 0修改于2020-03-04得票数 1

1回答

将.htaccess更改为工作?_escaped_fragment_= URL

_escaped_fragment_=传递给一个单独的爬虫PHP。cat=%1 [QSA,L]crawler.php?cat=m&id=GkQs6Mw4W8 谢谢

浏览 0修改于2014-11-10得票数 0

1回答

我创建了一个新的爬虫并手动运行它。爬虫作业运行时没有出错，但是当我检查日志时，我会收到下面的EOF异常通知。java.io.EOFException retrieving file at s3://insurance-transparency-data/2022-09-05_796b7d27-c275-4e37-b4c8-我尝试将一个简单的测试json文件上传到同一个S3桶中，并对它运行爬虫，它完美地解析了模式。因此，我不认为这是一个权限或爬虫配置的问题。对于如何进一步调试

浏览 9提问于2022-09-16得票数 0

回答已采纳

1回答

爬虫正在创建一个名称后缀奇怪的表。

我们还调用了一个爬虫来创建/更新雅典娜中的表。但是，它正在创建表，但在表名中添加了一些奇怪的后缀。glue_client = boto3.client("glue", region_name=args.get("aws_region"))

浏览 3提问于2020-08-04得票数 0

回答已采纳

2回答

使用哪个网络爬虫将网站中的新闻文章保存为.txt文件？

所以我需要一个爬虫，它给定一个起始url，假设遵循所有包含的链接，并将它们的内容保存到.txt文件中，如果我们可以指定格式为UTF8，我会在天堂。我没有这方面的专业知识，所以我恳求你一些建议，其中爬虫用于这项任务。

浏览 2提问于2010-02-19得票数 1

1回答

Haskell http-客户端集用户代理字符串

我在Haskell用手术刀写一个网络爬虫。- httpLBS request >>= return . getResponseBody r <- return $ scrapeStringLike (L8.我认为它检查用户代理字符串，并对真正的浏览器和爬虫做出不同的响应。那么，我应该如何自定义http-client中的用户代理字符串？或wreq?

浏览 2提问于2017-05-08得票数 0

回答已采纳

1回答

无法从spark streaming中的套接字读取JSON对象

我正在尝试通过套接字发送一个JSON对象，如下所示爬虫程序conn, adds = s.accept()conn.send(json.dumps(item).encode('utf-8'))...conn.send(json.dumps(item['text'

浏览 0修改于2018-04-04得票数 0

1回答

如何使用perl存储和显示ISO-8859-1和UTF8字符

我正在使用perl编写一个web爬虫，web爬虫将使用LWP和一些简单的正则表达式提取某些信息。这些信息保存在mySQL数据库中，该数据库将在安卓设备上使用。然而，当我测试网页爬虫时，我意识到有些信息是用HTML数字编码(&# 20856；&# 33775 ;)用中文(典華)，而有些信息是使用iso-8859-1编码(Zhífú)。我使用PERL：：Entities库解决了中文部分，当我将控制台设置为utf8时可以显示该库。然而，其他字母(Zhífú)只能显示在iso-8859-1中。如果我试图在utf<

浏览 4提问于2011-09-09得票数 3

回答已采纳

1回答

docker:在完全初始化依赖MySQL容器之前依赖容器运行

一个是Python，另一个是MySQL爬虫应用程序，它可以读取/写入数据库。当我做docker-compose up时，我看到：我的问题是，为什么在DB容器中创建数据库之前，我的爬虫脚本还在运行？如何确保在运行爬虫脚本之前已经创建了数据库？version: '3.7' ser

浏览 5提问于2020-02-05得票数 1

1回答

Python -无法导入本地库

我有一个刮擦的爬虫，我想在我的爬虫中使用当地的图书馆。下面是我的目录模型：有两个重要文件db/base.py和/爬虫/蜘蛛/adilisik.pyfrom sqlalchemy import create_enginesession = Session() # -*- coding: utf-8编辑1 在之后，我在<e

浏览 1修改于2017-05-23得票数 1

1回答

哪些浏览器设置会导致服务器编码问题？

我正在尝试重现rails站点在特定爬虫访问特定页面时生成的异常：该页面接受GET参数。crawler的IP始终是基于EU的(我的站点是基于美国的)，其中一个用户代理是：查看发送的HTTP头，我发现我的浏览器请求和爬虫请求之间唯一的区别是它包含HTTP_ACCEPT_CHARSET，而我的不包含： -- HTTP_ACC

浏览 0提问于2015-10-11得票数 2

1回答

爬虫和爬虫架构

当我遇到这个设计问题时，我一直在用php构建一个刮板和爬虫。我想知道创建一个分离爬行和抓取任务的系统(大多数专业系统似乎都是这样做的)和一个在爬虫爬行时抓取任务的系统之间的权衡。

浏览 4修改于2012-04-16得票数 2

回答已采纳

3回答

如何检测文本文档之间的重复，并返回副本的相似度？

我正在写一个爬虫从一些网站获取内容，但内容可以重复，我想避免这种情况。因此，我需要一个函数可以在两个文本之间返回相同的百分比来检测两个内容--可能是重复的示例：比较函数将文本2作为同一文本返回1乘5/8%(5为文本的字数2相同的文本1(按词序比较)，8为文本2的总单词2)。

浏览 2修改于2016-09-17得票数 5

1回答

HTML流的SEO/爬行性影响

随着HTML流(例如反应18流)的兴起，我想知道爬虫是如何处理HTML的。谷歌爬虫是如何处理这个问题的？谷歌确实提到了流这里，但它没有说明谷歌爬虫如何处理HTML。其他爬虫(DuckDuckGo，Bing，Facebook，Twitter等)怎么样？我假设爬虫会等到HTML流结束时，这个假设安全吗？

浏览 0提问于2021-07-27得票数 7

4回答

如何停止云主机上的爬虫？

云服务器

我在云主机上运行了一个scrapy爬虫，这个爬虫可以一直运行，假如我没有停止爬虫就和主机断开了连接，是不是除了关机就没有办法停止爬虫了？

浏览 536提问于2018-01-27

2回答

如何处理python爬虫的urlopen错误？

当我编写python爬虫时，我经常使用urlopen。有时它无法打开url (所以我得到一个错误)，但当我重新尝试打开这个url时，它成功了。因此，我通过这样编写爬虫来处理这种情况：'''open the url and return its content''' break continue

浏览 3提问于2016-05-03得票数 0

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

Java8 CompletedFuture web爬虫不会爬过一个URL

使用多个EC2实例爬行

让Drupal 8使用外部索引？

包含异步内容的博客搜索引擎优化

什么是爬行延迟:1意味着如果它被解释为是？

将.htaccess更改为工作?_escaped_fragment_= URL

调试Glue Crawler EOFException

爬虫正在创建一个名称后缀奇怪的表。

使用哪个网络爬虫将网站中的新闻文章保存为.txt文件？

Haskell http-客户端集用户代理字符串

无法从spark streaming中的套接字读取JSON对象

如何使用perl存储和显示ISO-8859-1和UTF8字符

docker:在完全初始化依赖MySQL容器之前依赖容器运行

Python -无法导入本地库

哪些浏览器设置会导致服务器编码问题？

爬虫和爬虫架构

如何检测文本文档之间的重复，并返回副本的相似度？

HTML流的SEO/爬行性影响

如何停止云主机上的爬虫？

如何处理python爬虫的urlopen错误？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐