搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

Groovy中的爬虫(JSoup与Crawler4j)

我希望在Groovy中开发一个web爬虫(使用Grails框架和MongoDB数据库)，它能够抓取网站，创建站点URL及其资源类型、内容、响应时间和重定向次数的列表。我正在就JSoup对Crawler4j的问题进行辩论。我读过他们的基本做法，但我不明白两者之间的区别。有人能建议哪一个更适合上面的功能吗？或者将两者进行比较是完全不正确的？谢谢。

浏览 2提问于2014-06-23得票数 8

回答已采纳

1回答

Python3，bs4，网络爬虫；连接太网站错误

我正试图为一个特定的网站建立一个网络爬虫。但出于某种原因我不会连接到这个网站。我犯了一个错误，它不能连接。selenium.webdriver.support.ui import WebDriverWaitfrom bs4

浏览 0修改于2020-01-06得票数 0

回答已采纳

1回答

如何将URL添加到进程中任意时间的crawler4j爬虫中

我正在处理crawler4j。这段代码在第二次构造CrawlController时显示了以下异常。如何在进程中添加URL？或者其他好的Java爬虫？ at java.lang.Thread.start(Thread.java:638) at edu.uci.ics.crawler4j.

浏览 0修改于2011-10-15得票数 0

1回答

如何使用Symfony DomCrawler组件和Laravel 4从爬虫对象中跳过或删除html标记列表？

这是我的第一次尝试，但没有成功。$document = new \DOMDocument('1.0', 'UTF-8');$this->crawler->rewind(); $root->appendChild($document->i

浏览 4提问于2014-12-20得票数 2

回答已采纳

2回答

有没有可以下载整个网站的网络爬虫？

需要知道是否有一个爬虫/下载器，可以抓取和下载和整个网站的链接深度至少为4页。我正在尝试下载的站点有java script超链接，这些超链接只能由浏览器呈现，因此爬虫程序无法抓取这些超链接，除非爬虫程序自己呈现它们！

浏览 4提问于2010-09-30得票数 0

回答已采纳

1回答

支持windows增量爬行的Web爬虫

我需要一个开源的web爬虫在java开发的增量爬行支持。是

浏览 4提问于2014-09-22得票数 1

回答已采纳

1回答

我创建了一个新的爬虫并手动运行它。爬虫作业运行时没有出错，但是当我检查日志时，我会收到下面的EOF异常通知。Error java.io.EOFException retrieving file at s3://insurance-transparency-data/2022-09-05_796b7d27-c275-4e37-b4c8-be2e4c0c6eda_Aetna-Life-Insurance-Company.json.gz.我尝试将一个简单的测试json文件上传到同一

浏览 9提问于2022-09-16得票数 0

回答已采纳

1回答

在ubuntu的后台运行时，爬虫停止。

我使用具有无限循环的python制作了一个简单的爬虫，所以它不能停止。随机延迟17 ~ 30，这个爬虫爬行相同的一个页面，并找到'href‘链接，定期更新，并存储到Mysql。因为我使用了Linux命令这个爬虫是在Ubuntu服务器背景下运行的。我想它已经运行了大约4个小时。但爬虫突然停止了。第二天我再试一次。

浏览 1修改于2014-05-20得票数 0

回答已采纳

1回答

如何减少/更改爬网后的延迟？

有人使用过Crawler4j吗？我按照的例子实现了我自己的爬虫。爬虫运行良好，爬行速度非常快。唯一的问题是我总是有20-30秒的延迟。有没有办法避免等待时间？

浏览 1修改于2014-05-02得票数 1

1回答

如何将刮过的项目导出为Scrapy中的字典列表

我做了一个抓取代码，有4个爬虫从4个不同的电子商务网站抓取。对于每个爬虫，我想从每个网站输出价格最低的5产品，并将它们导出到一个CSV文件中。CrawlerProcess()process.crawl(Crawler2)process.crawl(Crawler4)process.start() 我希望每个爬虫返回一个字典列表，这样我就可以使用for循环迭代它，并比较价格。

浏览 9提问于2021-12-09得票数 0

回答已采纳

1回答

如何使用crawler4j添加(集成)爬虫？

我的工作是网络爬虫，从网站上获取数据使用crawler4j和一切顺利，但主要问题是基于ajax的事件。所以，我发现了爬虫库做了这件事，但我不能使用它的地点和时间。在使用crawler4j获取页面之前。我是否使用url来使用crawler4j，并使用它来使用爬行获取Ajax数据(页面)。

浏览 5提问于2019-03-05得票数 0

2回答

使用crawler4j库实现Java crwaler中模式匹配的一些信息

我想用Java实现一个非常简单的web爬虫，我已经找到了这个库: crawler4j：从URL开始(由我指定)，并识别当前页面中是否有一个特定的单词，比如自己的名称或公司名称因此，没有语义分析，只有语法分析(爬虫必须尝试将网页内容与我指定的标记匹配)。我会知道这个令牌研究(如果在当前页面中包含一个单词)是由抽象类WebCrawler of crawler4j实现的，还是我必须自己实现它？

浏览 4修改于2018-07-17得票数 0

回答已采纳

2回答

如何将.java和html结合起来？

然后，我想执行一个爬虫到rottentomatoes.com并获取与这部电影相关的所有html页面。我已经使用Tomcat在Eclipse中创建了我的web应用程序( GUI)。我有一个web爬虫: crawler4j，如果我选择将主.java文件作为应用程序运行，它就会运行。我怎么才能把这两者结合起来？是否可以使用html中的参数(电影名称)调用java类文件？为了在我的html中执行它，我必须用爬虫创建一个单独的Applet吗？我可以这样做并用它发送字符串( html中的电影名称，所以我需要通过爬虫</e

浏览 3修改于2019-12-03得票数 0

回答已采纳

1回答

为什么Kinesis或Crawler要在我的数据中创建分区？

然后，我在我的S3桶上运行一个爬虫来编目我的数据。我的数据，当写入运动消防软管时，有以下属性：'dataset_datetime，attr1，attr2，attr3，attr2 4.‘。但是，当数据存储在我的S3桶中时，数据存储在以下dir结构中：然后，当我在上面运行我的爬虫时，我的爬虫会创建4个额外的分区键问:为什么胶水爬虫要创建这些附加属性，我如何阻止它创建它们？或者，如何防止动态在S3中

浏览 10提问于2022-07-26得票数 0

回答已采纳

1回答

如何将爬虫js与gmaps4rails gem集成？(同一纬度上的多个标记，lng )

我正在努力尝试将爬行器与集成在一起= gmaps(:markers => {:data => @map, :options => { "rich_marker" => true, :raw => '{ animation: google.maps.Animation.DROP }' } }, :map_options => { :draggable => true, :auto_zoom => false, :zoom => 9, :disableDefaultUI =

浏览 0修改于2013-07-26得票数 4

1回答

AWS雅典娜: HIVE_CANNOT_OPEN_SPLIT:打开蜂巢分裂错误，查询Parquet文件时模式不匹配

s3://exp-mahesh-sandbox/Demo/Year=2017/Month=1/Day=3/part-00015-d0e1263a-616e-435f-b4f4-9154afb3f07d.c000.snappy.parquet (offset=0，length=12795)：模式不匹配，行列统计的亚稳态模式有17个字段，而拼图模式有9个字段() 我已经使用AWS Glue爬虫获得Parquet文件的架构最初，我在分区Day=1和Day=2中有几个文件，运行<

浏览 0修改于2022-09-27得票数 1

1回答

Bukkit自定义库存产卵

你是如何把一只爬虫产卵的蛋放进定制的清单中的？你能继续我的代码行吗?这样我就能理解你做了什么？欲了解更多信息，爬虫产卵的卵ID为383:50。ItemStack spawnItem = nameItem(Material.MONSTER_EGG, ChatColor.AQUA + "Admin Vanish"); inv.setItem(4,

浏览 2修改于2016-11-03得票数 1

回答已采纳

1回答

gem安装失败

我试图通过使用gem命令安装instagram爬虫：但我收到以下错误：构建本机扩展。这需要一段时间..。错误:安装instagram爬虫时出错:错误:无法构建创业板本机扩展。/directory 20190205-5483-1 zru4h.rb extconf.rb mkmf.rb在/usr/lib/ ruby /include/ruby.h extconf失败时找不到ruby

浏览 0提问于2019-02-05得票数 0

1回答

Php单击

</a>@si',$veri,$baslik); echo $baslik[4][$i]; } preg_match_all('@<table我想要做的是在我的网络爬虫中获得这些元素

浏览 1提问于2017-11-06得票数 1

回答已采纳

1回答

将.htaccess更改为工作?_escaped_fragment_= URL

_escaped_fragment_=传递给一个单独的爬虫PHP。cat=%1 [QSA,L]crawler.php?cat=m&id=GkQs6Mw4W8 谢谢

浏览 0修改于2014-11-10得票数 0

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

Groovy中的爬虫(JSoup与Crawler4j)

Python3，bs4，网络爬虫；连接太网站错误

如何将URL添加到进程中任意时间的crawler4j爬虫中

如何使用Symfony DomCrawler组件和Laravel 4从爬虫对象中跳过或删除html标记列表？

有没有可以下载整个网站的网络爬虫？

支持windows增量爬行的Web爬虫

调试Glue Crawler EOFException

在ubuntu的后台运行时，爬虫停止。

如何减少/更改爬网后的延迟？

如何将刮过的项目导出为Scrapy中的字典列表

如何使用crawler4j添加(集成)爬虫？

使用crawler4j库实现Java crwaler中模式匹配的一些信息

如何将.java和html结合起来？

为什么Kinesis或Crawler要在我的数据中创建分区？

如何将爬虫js与gmaps4rails gem集成？(同一纬度上的多个标记，lng )

AWS雅典娜: HIVE_CANNOT_OPEN_SPLIT:打开蜂巢分裂错误，查询Parquet文件时模式不匹配

Bukkit自定义库存产卵

gem安装失败

Php单击

将.htaccess更改为工作?_escaped_fragment_= URL

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐