搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

使用AWS Glue Crawler创建列名时删除/重命名特殊字符

我正在使用AWS爬虫爬行S3桶，它在雅典娜中创建表模式。据我所知，雅典娜不支持具有特殊字符的列名，比如(反斜杠)等等。这是一种可以在爬虫从S3桶中爬行时排除/重命名这些列名的方法。

浏览 3修改于2021-10-14得票数 2

回答已采纳

1回答

在数据库中查找和替换URL，而不尾随URL末尾的斜杠

但是，一些放置内容的人在<a href""></a> URL的末尾没有添加反斜杠(尾斜杠)的情况下就生成了URL。它会自动添加一个反斜杠到末尾，这可以算作谷歌爬虫的重定向。TL；博士如何在没有反斜杠的情况下替换WordPress内容中的所有URL，使用(https://test.com/testpage)并添加反斜杠(https://test.com/testpage/

浏览 0修改于2020-10-16得票数 0

21回答

围棋练习#10之旅:爬虫

是一个练习，它要求读者对网络爬虫进行并行化(并使其不包含重复，但我还没有做到这一点)。

浏览 6修改于2021-09-12得票数 23

回答已采纳

0回答

使用Python爬虫，怎么处理反爬机制？

python、爬虫、验证码、requests、数据

我用Python requests来请求数据，但经常出现bug，要没ip无效，要么需要验证码，怎么处理呢？

浏览 177提问于2025-07-19

2回答

在它们的真实符号中变成utf

我刚刚自己做了第一个网络爬虫，它上了维基百科，下载了整个页面的html。我设法获得了一个列表的内容。列表中的值包含正数或负数。但它给了我一个'\xe2\x88\x922'，而不是打印出一个'-2'。我尝试了string.replace("\xe2\x88\x92","-")，但由于反斜杠的原因，这似乎不起作用。你知道我怎样才能把这些utf东西转换成它们真正的符号吗？

浏览 18修改于2020-07-04得票数 3

1回答

用Scrapy爬行多个页面

目标问题->website.com--->

浏览 2提问于2017-07-17得票数 0

1回答

什么是爬行延迟:1意味着如果它被解释为是？

我很难理解crawl-delay: 1的含义，如果它没有被忽略，并且实际上被一个给定的网络爬虫所解释。我从斯蒂芬·奥斯特米勒的回答中了解到表示：爬行A页爬行B页换句话说，什么是爬行延迟:1表示如果它被解释为是？

浏览 0修改于2020-03-04得票数 1

1回答

如何抓取Vue构建的基于组件的web应用程序并作出反应？

javascript src=/static/js/app.335a9e9866cb7dc6a517.js></script> </html>我使用Abot框架爬行建议

浏览 7提问于2022-03-06得票数 0

回答已采纳

1回答

在Scrapy中顺序运行多个爬虫

我正在试图找出一种同时运行多个Scrapy爬虫的方法，而不会遇到内存问题等。为了应对这个问题，我希望能够一次运行10个爬虫，按顺序遍历种子列表，直到所有100+域都被爬行。while True: start_the_ne

浏览 2提问于2014-11-28得票数 4

1回答

它看起来很漂亮，链接最糟糕的是后面跟着一个反斜杠。我的客户发行的。他想知道为什么管理员和用户的后端界面仍然显示那些巨大的丑陋链接。这些是非常非常丑陋的链接，我说的是三到四个反斜杠，后面跟着不同的get序列等等，所以你可能会理解MOD_REWRITING背后的复杂性。一时冲动，我说我让它保持原样是为了确保后端接口不会被任何爬虫嗅探到。但我不确定这是否一定是真的。爬虫在哪里停下来？他们什么时候会放弃尝试解析链接呢？我知道我可以使用.robot文件来指定规则。

浏览 1提问于2012-03-16得票数 1

回答已采纳

4回答

AWS胶在CSV中不检测标头

嗨，我有一堆CSV位于S3中，这是一个通过AWS建立的爬虫程序，这个爬虫构建了大约10个表，因为它扫描了10个文件夹，其中只有一个没有检测到标头。csv的结构和其他的一样。请给我建议？

浏览 3提问于2020-05-17得票数 4

回答已采纳

1回答

如何在Scrapy中运行多个相同的爬虫？

这些urls在一个域名中，我用Scrapy编写了一个爬虫程序，我需要使用相同的爬虫程序一起运行这些urls。如果我有10个urls，我想创建10个相同的进程来运行爬虫程序，以提高效率。有解决方案吗？我尝试使用CrawlerProcess来运行爬虫，但是如果urls太多，它会提醒我有太多TCP连接的错误。虽然crawler始终处于运行状态，但这种方法不利于维护。

浏览 0提问于2019-01-06得票数 0

2回答

在Service Fabric服务之间移动大型数据是一种反模式吗？

我正在使用Service Fabric开发一个web数据爬虫。我已经将爬行过程划分为无状态服务管道。第一个服务加载HTML。(S1)第二个函数解析其中的数据。本身就是大量的数据，我不得不设置这种设计是反模式吗

浏览 0修改于2017-10-01得票数 0

2回答

PHP:无法使用CURL解析特定站点

SubmitToSearch=Search&lctr=1&rvsd=-1&o1=2&p1=1&ipp=10&city=&fromsearchpage=true&cg=11&cg=12&cg=13&cg=这就是有问题的URL：这个页面上是否有某种反爬虫代码在运行？

浏览 0提问于2012-02-18得票数 0

回答已采纳

1回答

Clojure大猩猩爬虫和JVM 10异常

Linux 17.1.11Java10.0.1的Leiningen 2.8.1 OpenJDK 64位服务器VM行得通！也许它可以用于新的Java运行时，但是我决定一次按下所有的按钮.

浏览 2修改于2018-07-23得票数 2

回答已采纳

2回答

如何在python中编写无休止的循环爬虫？

编辑的while True: sleep(10 minutes)run() doCarwl

浏览 4修改于2015-05-31得票数 0

2回答

如何在scrapy中使用中间件的self.crawler.engine.pause()

我正在尝试从中间件中暂停运行抓取引擎(运行爬虫)。'cRetry‘对象没有属性’爬虫‘ self.errorCounter = self.errorCounter + 1 os.system("resta

浏览 3提问于2014-01-14得票数 1

回答已采纳

3回答

Kentico 10使用的Web Crawler引擎

根据文档，是否有更多关于Kentico 10使用的网络爬虫技术/引擎的信息？我之所以问这个问题，是因为我想把它用于一个定制的爬虫项目，这个项目可以位于Kentico之外，并且仍然允许它与Kentico平台具有内在的兼容性。

浏览 0修改于2017-08-31得票数 7

回答已采纳

6回答

如何让搜索爬虫正确地索引无限滚动的页面？

然而，这意味着搜索爬虫无法获得第一个“分页符”之后的所有内容。例如，我有一个页面，其中列出了所有带有"infographic“标签的项目。实际上有几十个这样的项目，但爬虫只能看到前10个项目，因为其他项目是根据内容相对于浏览器窗口的位置加载的。由于爬虫没有浏览器窗口，所以根本不会加载新项目。那么，什么才是正确的方式，让搜索爬虫通过无限滚动访问网页的全部内容，同时又允许用户享受无限滚动和没有分页的情况？

浏览 0提问于2012-05-28得票数 13

回答已采纳

1回答

crawler JMeter中出错

我在JMeter中有一个爬虫测试(爬虫)的问题，我在java中也有本机代码，它不能工作，因为我需要在POST中发送一个名为javax.faces.ViewState的参数 .userAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10

浏览 2提问于2017-04-06得票数 0

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

使用AWS Glue Crawler创建列名时删除/重命名特殊字符

在数据库中查找和替换URL，而不尾随URL末尾的斜杠

围棋练习#10之旅:爬虫

使用Python爬虫，怎么处理反爬机制？

在它们的真实符号中变成utf

用Scrapy爬行多个页面

什么是爬行延迟:1意味着如果它被解释为是？

如何抓取Vue构建的基于组件的web应用程序并作出反应？

在Scrapy中顺序运行多个爬虫

爬虫/SEO友好/Mod重写/它没有任何意义

AWS胶在CSV中不检测标头

如何在Scrapy中运行多个相同的爬虫？

在Service Fabric服务之间移动大型数据是一种反模式吗？

PHP:无法使用CURL解析特定站点

Clojure大猩猩爬虫和JVM 10异常

如何在python中编写无休止的循环爬虫？

如何在scrapy中使用中间件的self.crawler.engine.pause()

Kentico 10使用的Web Crawler引擎

如何让搜索爬虫正确地索引无限滚动的页面？

crawler JMeter中出错

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐