腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
Groovy中的
爬虫
(JSoup与Crawler
4
j)
我希望在Groovy中开发一个web
爬虫
(使用Grails框架和MongoDB数据库),它能够抓取网站,创建站点URL及其资源类型、内容、响应时间和重定向次数的列表。我正在就JSoup对Crawler
4
j的问题进行辩论。我读过他们的基本做法,但我不明白两者之间的区别。有人能建议哪一个更适合上面的功能吗?或者将两者进行比较是完全不正确的? 谢谢。
浏览 2
提问于2014-06-23
得票数 8
回答已采纳
1
回答
Python3,bs
4
,网络
爬虫
;连接太网站错误
我正试图为一个特定的网站建立一个网络
爬虫
。但出于某种原因我不会连接到这个网站。我犯了一个错误,它不能连接。selenium.webdriver.support.ui import WebDriverWaitfrom bs
4
浏览 0
修改于2020-01-06
得票数 0
回答已采纳
1
回答
如何将URL添加到进程中任意时间的crawler
4
j
爬虫
中
我正在处理crawler
4
j。这段代码在第二次构造CrawlController时显示了以下异常。如何在进程中添加URL?或者其他好的Java
爬虫
? at java.lang.Thread.start(Thread.java:638) at edu.uci.ics.crawler
4
j.
浏览 0
修改于2011-10-15
得票数 0
1
回答
如何使用Symfony DomCrawler组件和Laravel
4
从
爬虫
对象中跳过或删除html标记列表?
这是我的第一次尝试,但没有成功。$document = new \DOMDocument('1.0', 'UTF-8');$this->crawler->rewind(); $root->appendChild($document->i
浏览 4
提问于2014-12-20
得票数 2
回答已采纳
2
回答
有没有可以下载整个网站的网络
爬虫
?
需要知道是否有一个
爬虫
/下载器,可以抓取和下载和整个网站的链接深度至少为
4
页。我正在尝试下载的站点有java script超链接,这些超链接只能由浏览器呈现,因此
爬虫
程序无法抓取这些超链接,除非
爬虫
程序自己呈现它们!
浏览 4
提问于2010-09-30
得票数 0
回答已采纳
1
回答
支持windows增量爬行的Web
爬虫
我需要一个开源的web
爬虫
在java开发的增量爬行支持。 是
浏览 4
提问于2014-09-22
得票数 1
回答已采纳
1
回答
调试Glue Crawler EOFException
我创建了一个新的
爬虫
并手动运行它。
爬虫
作业运行时没有出错,但是当我检查日志时,我会收到下面的EOF异常通知。Error java.io.EOFException retrieving file at s3://insurance-transparency-data/2022-09-05_796b7d27-c275-
4
e37-b
4
c8-be2e
4
c0c6eda_Aetna-Life-Insurance-Company.json.gz.我尝试将一个简单的测试json文件上传到同一
浏览 9
提问于2022-09-16
得票数 0
回答已采纳
1
回答
在ubuntu的后台运行时,
爬虫
停止。
我使用具有无限循环的python制作了一个简单的
爬虫
,所以它不能停止。随机延迟17 ~ 30,这个
爬虫
爬行相同的一个页面,并找到'href‘链接,定期更新,并存储到Mysql。因为我使用了Linux命令这个
爬虫
是在Ubuntu服务器背景下运行的。我想它已经运行了大约
4
个小时。但
爬虫
突然停止了。第二天我再试一次。
浏览 1
修改于2014-05-20
得票数 0
回答已采纳
1
回答
如何减少/更改爬网后的延迟?
有人使用过Crawler
4
j吗? 我按照的例子实现了我自己的
爬虫
。
爬虫
运行良好,爬行速度非常快。唯一的问题是我总是有20-30秒的延迟。有没有办法避免等待时间?
浏览 1
修改于2014-05-02
得票数 1
1
回答
如何将刮过的项目导出为Scrapy中的字典列表
我做了一个抓取代码,有
4
个
爬虫
从
4
个不同的电子商务网站抓取。对于每个
爬虫
,我想从每个网站输出价格最低的5产品,并将它们导出到一个CSV文件中。CrawlerProcess()process.crawl(Crawler2)process.crawl(Crawler
4
)process.start() 我希望每个
爬虫
返回一个字典列表,这样我就可以使用for循环迭代它,并比较价格。
浏览 9
提问于2021-12-09
得票数 0
回答已采纳
1
回答
如何使用crawler
4
j添加(集成)
爬虫
?
我的工作是网络
爬虫
,从网站上获取数据使用crawler
4
j和一切顺利,但主要问题是基于ajax的事件。所以,我发现了
爬虫
库做了这件事,但我不能使用它的地点和时间。在使用crawler
4
j获取页面之前。 我是否使用url来使用crawler
4
j,并使用它来使用爬行获取Ajax数据(页面)。
浏览 5
提问于2019-03-05
得票数 0
2
回答
使用crawler
4
j库实现Java crwaler中模式匹配的一些信息
我想用Java实现一个非常简单的web
爬虫
,我已经找到了这个库: crawler
4
j:从URL开始(由我指定),并识别当前页面中是否有一个特定的单词,比如自己的名称或公司名称因此,没有语义分析,只有语法分析(
爬虫
必须尝试将网页内容与我指定的标记匹配)。我会知道这个令牌研究(如果在当前页面中包含一个单词)是由抽象类WebCrawler of crawler
4
j实现的,还是我必须自己实现它?
浏览 4
修改于2018-07-17
得票数 0
回答已采纳
2
回答
如何将.java和html结合起来?
然后,我想执行一个
爬虫
到rottentomatoes.com并获取与这部电影相关的所有html页面。我已经使用Tomcat在Eclipse中创建了我的web应用程序( GUI)。我有一个web
爬虫
: crawler
4
j,如果我选择将主.java文件作为应用程序运行,它就会运行。我怎么才能把这两者结合起来? 是否可以使用html中的参数(电影名称)调用java类文件?为了在我的html中执行它,我必须用
爬虫
创建一个单独的Applet吗?我可以这样做并用它发送字符串( html中的电影名称,所以我需要通过
爬虫</e
浏览 3
修改于2019-12-03
得票数 0
回答已采纳
1
回答
为什么Kinesis或Crawler要在我的数据中创建分区?
然后,我在我的S3桶上运行一个
爬虫
来编目我的数据。我的数据,当写入运动消防软管时,有以下属性:'dataset_datetime,attr1,attr2,attr3,attr2
4
.‘。但是,当数据存储在我的S3桶中时,数据存储在以下dir结构中:然后,当我在上面运行我的
爬虫
时,我的
爬虫
会创建
4
个额外的分区键问:为什么胶水
爬虫
要创建这些附加属性,我如何阻止它创建它们?或者,如何防止动态在S3中
浏览 10
提问于2022-07-26
得票数 0
回答已采纳
1
回答
如何将
爬虫
js与gmaps
4
rails gem集成?(同一纬度上的多个标记,lng )
我正在努力尝试将爬行器与集成在一起= gmaps(:markers => {:data => @map, :options => { "rich_marker" => true, :raw => '{ animation: google.maps.Animation.DROP }' } }, :map_options => { :draggable => true, :auto_zoom => false, :zoom => 9, :disableDefaultUI =
浏览 0
修改于2013-07-26
得票数 4
1
回答
AWS雅典娜: HIVE_CANNOT_OPEN_SPLIT:打开蜂巢分裂错误,查询Parquet文件时模式不匹配
s3://exp-mahesh-sandbox/Demo/Year=2017/Month=1/Day=3/part-00015-d0e1263a-616e-435f-b
4
f
4
-9154afb3f07d.c000.snappy.parquet (offset=0,length=12795):模式不匹配,行列统计的亚稳态模式有17个字段,而拼图模式有9个字段() 我已经使用AWS Glue
爬虫
获得Parquet文件的架构最初,我在分区Day=1和Day=2中有几个文件,运行<
浏览 0
修改于2022-09-27
得票数 1
1
回答
Bukkit自定义库存产卵
你是如何把一只
爬虫
产卵的蛋放进定制的清单中的?你能继续我的代码行吗?这样我就能理解你做了什么?欲了解更多信息,
爬虫
产卵的卵ID为383:50。ItemStack spawnItem = nameItem(Material.MONSTER_EGG, ChatColor.AQUA + "Admin Vanish"); inv.setItem(
4
,
浏览 2
修改于2016-11-03
得票数 1
回答已采纳
1
回答
gem安装失败
我试图通过使用gem命令安装instagram
爬虫
:但我收到以下错误: 构建本机扩展。这需要一段时间..。错误:安装instagram
爬虫
时出错:错误:无法构建创业板本机扩展。/directory 20190205-5483-1 zru
4
h.rb extconf.rb mkmf.rb在/usr/lib/ ruby /include/ruby.h extconf失败时找不到ruby
浏览 0
提问于2019-02-05
得票数 0
1
回答
Php单击
</a>@si',$veri,$baslik); echo $baslik[
4
][$i]; } preg_match_all('@<table我想要做的是在我的网络
爬虫
中获得这些元素
浏览 1
提问于2017-11-06
得票数 1
回答已采纳
1
回答
将.htaccess更改为工作?_escaped_fragment_= URL
_escaped_fragment_=传递给一个单独的
爬虫
PHP。cat=%1 [QSA,L]crawler.php?cat=m&id=GkQs6Mw
4
W8 谢谢
浏览 0
修改于2014-11-10
得票数 0
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券