腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
爬行,爬行,获取数据
我想写一个
爬虫
来做一些
基础
设施(路由器,WAPS,系统等)的清单。所以,我在服务器上安装了一个应用程序,以及如何部署它。
爬虫
是怎么开始的?
爬虫
是如何返回数据的?
浏览 5
修改于2015-02-09
得票数 0
1
回答
学习多线程Java
爬虫
的良好开端
我正在用Java开发一个网络
爬虫
。我正在寻找一个很好的项目开发这个
爬虫
的
基础
上。然而,实际上有超过几百个用Java编写的
爬虫
程序。我要找的是一个相当简单的
爬虫
,它有: 基于最新的Java构建和新的functionalityGood performanceImplemented好documentationNot的多线程documentationNot
浏览 1
提问于2012-04-16
得票数 0
回答已采纳
1
回答
Web Crawler - Windows应用程序
我想建立一个网络
爬虫
与用户界面,允许用户输入一系列的
零
件编号,然后
爬虫
将挖掘约6网址的(制造商/供应商网站),并拉回该
零
件的库存值和警报,如果它更新到1+ (通常情况下,我们正在寻找的
零
件坐在0库存数周有没有办法(基于Windows应用程序或基于web应用程序)允许用户输入不同的
零
件号,将这些
零
件号发送到JSON文件(
爬虫
),抓取“库存”值并返回?
浏览 2
修改于2019-05-06
得票数 2
2
回答
Glue Crawler可以抓取deltalake文件来创建aws胶水目录中的表吗?
我们有一个现有的
基础
设施,可以通过aws
爬虫
爬行S3目录。这些S3目录是作为AWS的一部分创建的,并通过spark作业转储。为了实现增量功能,我们在deltalake上做了一个POC。因此,当我通过星火三角洲作业在S3中编写这些deltalake文件时,我的
爬虫
程序无法从这些
爬虫
器中创建表。 我们能用AWS
爬虫
来抓取三角洲湖的文件吗?
浏览 5
提问于2020-09-05
得票数 2
回答已采纳
4
回答
PHP警告: exec()无法分叉
我有一个网站,列出了许多不同
零
售商网站的产品。我有
爬虫
脚本,运行从每个网站抓取产品。由于每个网站是不同的,每个
爬虫
脚本必须定制,以抓取特定的
零
售商网站。所以基本上每个
零
售商我有一个
爬虫
。在这个时候,我有21个
爬虫
不断运行,以收集和更新这些网站的产品。不过,最近我将检查
爬虫
脚本,并注意到其中一个脚本不再运行,在错误日志中我发现了以下内容。,然而,因为它是“无法叉”,它从来没有重新启动和最初的实例的
爬虫
结束,它通常这样做。这似乎是一个限制
浏览 7
提问于2013-12-18
得票数 13
回答已采纳
1
回答
在谷歌应用程序引擎上为选定的网站运行网络
爬虫
?
我需要写一个
爬虫
来提取一些信息从一些预先选定的网站只。也许我可以尝试Nutch为我做这件事。 这种方法的可行性有多大?1)在google
基础
设施上托管
爬虫
2) Nutch +应用引擎-这可能吗?
浏览 2
提问于2010-12-06
得票数 3
1
回答
AWS雅典娜没有发现csv文件的记录
我在s3中得到了2Gb的csv文件(管道分隔),当运行athena的查询时,它发现
零
条记录(尽管它正确地返回列)没有应用任何分区,只要尽可能默认地运行
爬虫
即可。
浏览 2
修改于2019-04-04
得票数 0
1
回答
抓取电子商务网站并聚合相同的产品
我正在尝试学习网络抓取,作为一个应用程序,我想我应该构建一个聚合器,它可以抓取
零
售商的某些产品,并为不同
零
售商的相同产品建立一个价格比较。 当我开始做这个的时候,我意识到这是一个多大的任务。其次,在我以某种方式为x个站点解码了DOM之后(为一两个站点这样做很容易,但我想让
爬虫
变得可伸缩!)并获取各种项目的数据。我需要能够比较相同产品的不同名称,以便我可以比较不同的价格(将它们转换为相同的货币,检查返回的价格是否为原始/正在销售的价格,等等)在
零
售商之间。我正在尝试用Scrapy编写我的
爬虫
,但是
浏览 25
提问于2019-05-29
得票数 1
1
回答
有关于如何抓取__doPostBack(‘...’)后面的页面的想法吗?
我正在做这个php
基础
的刮板/
爬虫
程序,它工作得很好,直到它得到.net生成的链接__doPostBack(...),你知道如何处理这个问题并抓取那些链接后面的页面吗?
浏览 0
修改于2011-12-22
得票数 2
回答已采纳
2
回答
我可以抓取网站,下载特定的页面,并将呈现的版本保存为PHP中的PDF吗?
我只需要在这里澄清一下这个概念是否可行,或者我是否误解了
爬虫
的能力。假设1有一个100个网站/博客的列表,每天,我的程序(我假设它是
爬虫
的东西)会在它们中运行,如果某些特定的短语(如“迈阿密热火”或“勒布朗·詹姆斯”)匹配,它将继续下载该页面->,将其转换成一个包含全文这种类型的程序被称为
爬虫
,对吗? 我计划在代码的
基础
上构建
浏览 4
修改于2012-11-26
得票数 0
回答已采纳
1
回答
添加多个S3路径来粘合地形爬行器
我正在用Terraform在AWS中建立一些
基础
设施。我已经创建了几个S3桶,并希望Glue
爬虫
每小时爬行这些桶一次。我的Terraform目录db、角色和策略都构建得很好,但是当我试图通过向
爬虫
的S3部分添加四条s3_target{}路径来创建
爬虫
资源时,我会得到一个失败: resource "aws_glue_crawler我可以通过AWS控制台实现这一点,但这需要使用
基础
设施作为代码。
浏览 0
修改于2019-02-19
得票数 3
回答已采纳
2
回答
Python -单元测试
因此,我有一个关于单元测试的问题,不一定是关于Python的,但是由于我目前正在使用Python,所以我选择以它作为我的问题的
基础
。举个例子,我写了一个
爬虫
。我不知道它还会有什么,否则我就不需要
爬虫
了。那么,在不知道该方法将返回的情况下,如何测试
爬虫
是否正常工作呢? 提前感谢!
浏览 1
提问于2014-01-18
得票数 3
回答已采纳
1
回答
实体框架-防止上下文中的缓存
我有一个实体框架为
基础
的Web API,读取和写入数据到Mssql数据库。如果您不想在每次访问任何数据时都访问数据库,则Context非常有用,因为它会缓存您以前使用过的数据。但我的问题就在这里; 我有一个独立工作的
爬虫
和更改数据库。因此,我的web应用程序上下文不知道
爬虫
更改了什么。因为当我尝试访问数据时,它会显示上下文中的数据。
浏览 9
提问于2017-02-15
得票数 1
1
回答
使用Spring 3的动态作业调度
我已经开发了一个网络
爬虫
,爬行以启动URL作为种子参数。如果可能的话,我希望允许用户根据作业来安排此任务。 目前我正在使用Spring 3.1.2和Hibernate。我需要给用户一个前端,它接收cronJob参数,并在此
基础
上运行
爬虫
。可以用弹簧来做吗。
浏览 6
修改于2012-08-28
得票数 5
回答已采纳
3
回答
爬虫
如何确保最大的覆盖率?
我读了一些关于Web爬行的文章,学习了爬行的
基础
知识。根据他们的说法,网络
爬虫
只使用其他网页检索到的URL,并通过树(实际上是网格) 在这种情况下,
爬虫
如何确保最大的覆盖率。
浏览 9
修改于2009-06-04
得票数 4
回答已采纳
3
回答
如何在Java中使用线程安全信号来暂停线程
更新2: public class TestCrawler extends WebCrawler { {
浏览 1
修改于2013-01-14
得票数 3
回答已采纳
2
回答
当我使用自己的程序爬行站点时,我应该使用什么用户代理
我用node.js做了
爬虫
。我想爬一些网站的
基础
上,每小时。 我试着找出我应该使用的用户代理,但是我只得到了像谷歌机器人和必应机器人这样的结果。我不知道我能不能利用这些用户代理。
浏览 1
提问于2018-09-10
得票数 1
回答已采纳
5
回答
C#中任何好的开源网络爬行框架
我已经决定在C#中构建
爬虫
。我对HttpWebRequest/HttpWebResponse类有很多不好的体验,众所周知,它们对于大型
爬虫
来说是高度错误和不稳定的。因此,我决定不在它们的
基础
上进行构建。即使在框架4.0中,它们也是有缺陷的。 我是根据自己的亲身经历说的。如果他们知道有什么好的开源
爬虫
框架,比如java有nutch和apache commons,它们是非常稳定和高度健壮的库,我想要这里的专家们的意见,他们已经编码
爬虫
程序。编辑:我必须抓取的一些网站使用非常复杂的Java Scrip
浏览 2
修改于2010-12-06
得票数 9
回答已采纳
1
回答
如何用一个位置路径从多个文件夹创建多个表,雅典娜也应该使用glue crawler来处理它
我尝试过这样做,但没有达到要求的结果-我有多个CSV文件在s3存储桶的文件夹中,但当它为它创建多个表时,雅典娜返回
零
结果,所以我为每个文件创建了一个不同的文件夹,然后它工作得很好。问题-但是如果将来要添加更多的文件夹,那么我必须去
爬虫
,并且必须为每个新添加的文件夹添加一个新的位置路径,所以有没有什么方法可以自动完成,或者其他一些方法。我使用胶水
爬虫
和s3桶雅典娜查询多个CSV文件运行。
浏览 22
修改于2020-03-20
得票数 0
回答已采纳
1
回答
StormCrawler如何识别种子urls?
我使用风暴
爬虫
与mysql。如果一些种子的外链落在
零
号桶里会发生什么。在这种情况下,这些外链也会被视为种子吗?
浏览 1
修改于2018-09-20
得票数 0
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券