搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

start in crawler4j

我使用crawler4j lib和它们的依赖项来爬行页面。两者有什么区别？

浏览 0修改于2015-05-21得票数 1

1回答

使用mongoDB的Crawler4j

我在研究crawler4j。我发现它使用BerkeleyDB作为数据库。我正在使用mongoDB开发一个Grails应用程序，我想知道crawler4j在我的应用程序中工作有多灵活。是否可以将crawler4j配置为使用mongoDB而不是BerkeleyDB作为默认数据存储区？任何建议都会很有帮助。谢谢

浏览 6提问于2014-07-01得票数 2

1回答

如何使用crawler4j添加(集成)爬虫？

我的工作是网络爬虫，从网站上获取数据使用crawler4j和一切顺利，但主要问题是基于ajax的事件。所以，我发现了爬虫库做了这件事，但我不能使用它的地点和时间。在使用crawler4j获取页面之前。我是否使用url来使用crawler4j，并使用它来使用爬行获取Ajax数据(页面)。

浏览 5提问于2019-03-05得票数 0

1回答

Crawler4j无法AJAX爬网

但是crawler4j不支持ajax爬行。我想使用crawler4j，但要使用此功能。我的项目是基于crawler4j的。我有任何办法做，请分享链接和片段。

浏览 7提问于2016-04-28得票数 0

2回答

如何禁用Crawler4J记录器？

我正在使用Crawler4J爬行。但是Crawler4J有一个记录器。如何禁用记录器内部Crawler4J库？

浏览 5修改于2017-05-02得票数 3

回答已采纳

1回答

如何更改Crawler4j中的默认crawlStorageFolder？

当我尝试Crawler4j 的快速入门时，我想这是我应该更改结果存储位置的地方。然后我尝试更改为"C:\Fraps\try" .It创建一个名为frontier的文件夹，其中包含一些未知的文件，如je.lck、je.info.0…… 以我的理解，crawler4j可以用于查找外部链接和内容解析换句话说，我可以通过crawler4j下载html文件(里面的文本)。或者我应该通过crawler4j下载什么？

浏览 5修改于2016-09-12得票数 0

1回答

Crawler4j静默停止

在我的应用程序中，我使用了crawler4j。编辑：我只是想，crawler4j并不是为任何wordpress网站工作的。例如，或者你可以检查 (将/next添加到任何wordpress站点的url)。可能的原因是什么？

浏览 0修改于2014-05-02得票数 0

1回答

Crawler4j计算页面深度

我正在用groovy & grails和mongodb开发一个网络爬虫，有没有办法用crawler4j计算页面的深度？我知道我可以限制到我想要爬取的深度，但还没有遇到任何建议如何计算页面深度的东西。

浏览 2提问于2014-06-26得票数 0

1回答

基于crawler4j的身份验证

我使用的是crawler4j 4.2 AuthInfo authJavaForum = new FormAuthInfo("myuser", "mypwd", "http://www.java-forum.org我使用wireshark是为了查看使用crawler4j和手工登录时的区别，但是请求似乎是相同的(最大的区别是我的cookie不包含任何关于ga (google )的信息)。( 3)是否有真正与crawler4j合作的网站？

浏览 2修改于2017-05-23得票数 1

回答已采纳

1回答

Crawler4J null，同时处理(链接)错误

我有一个小项目，我正在尝试用crawler4j 4.1爬行几百万页(我对这个数字没有一个明确的估计)。我使用的BasicCrawler示例只对其做了一些小的更改。在我开始爬行之后不久，Crawler4J日志显示了以下不断出现的错误知道是什么导致了这一切吗？Crawler4J是否将无法到达的链接重新安

浏览 3修改于2016-03-17得票数 0

回答已采纳

1回答

crawler4j的实现

我正在尝试让crawler4j的基本形式像一样运行。

浏览 8提问于2012-04-04得票数 0

回答已采纳

1回答

如何使用crawler4j提取页面上的所有链接？

我正在实现一个网络爬虫，我使用的是Crawler4j库。我不会在一个网站上得到所有的链接。我试图用Crawler4j提取一个页面上的所有链接，但错过了一些链接。Crawler4j版本: crawler4j-3.3不是的。这个页面上的链接数量:几乎60个，其中4-5个是重复的是页面上的URL列表，是Crawler4j提供的URL列表。我查看了crawler4j使用的'HtmlContentHandler.jav

浏览 1提问于2012-07-03得票数 1

回答已采纳

1回答

如何使用crawler4j解析文档

我希望在Eclipse中使用crawler4j解析所有包含作为“查询”输入的文本的文档。有什么想法吗？

浏览 2提问于2015-03-19得票数 0

回答已采纳

1回答

Crawler4j仅访问种子URL

我正在使用crawler4j抓取烂番茄网站来提取结构化数据。我已经设置了一切，在项目主页上的示例中给出了默认URL，一切都正常，但当我放置自己的种子时，应用程序只访问我给它的URL。我错过了什么吗？

浏览 4提问于2013-08-06得票数 0

2回答

Crawler4j和Tripadvisor

我正在使用crawler4j为Tripadvisor编写一个爬虫。我需要收集一个项目的所有评论，但是指向“下一个”评论的链接(那些带有数字的评论)不是一个链接，而是一个javascript函数。

浏览 2提问于2012-06-27得票数 0

1回答

如何在使用crawler4j时解析html

最近，我不得不用开源项目crawler4j.However抓取一些网站，crawler4j没有为using.Now提供任何api，我遇到了一个问题，如何使用crawler4j提供的函数和类来解析html

浏览 0提问于2013-09-05得票数 3

2回答

使用crawler4j。如何保存网站数据？

我已经开始使用crawler4j了，它似乎可以搜索到没有问题的网站。但是，我需要保存抓取的数据。crawler4j是否支持此功能？

浏览 1修改于2014-04-15得票数 1

2回答

它能通过Crawler4j检索网站内容吗？

(假设每页有10篇新闻文章)我决定尽可能地使用Crawler4j 从每个页面中获取所有URI，并检索这些URI的内容。对您检索的每个URI进行递归移动。但是，当我尝试使用Crawler4j 的Quickstart时Text length: 3661Number of outgoing links: 86 因此，我想知道crawler4j

浏览 7修改于2017-05-23得票数 2

1回答

crawler4j按照什么步骤来获取数据？

我想学习，一般情况下，它会遵循什么顺序？

浏览 4修改于2018-12-08得票数 2

回答已采纳

1回答

Crawler4j - NoSuchMethod getOutgoingUrls()

我使用的是3.5版本的crawler4j，调用类与在站点上给出的调用类相同-为了方便地在下面复制- private

浏览 0提问于2014-11-17得票数 2

回答已采纳

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页

点击加载更多

start in crawler4j

使用mongoDB的Crawler4j

如何使用crawler4j添加(集成)爬虫？

Crawler4j无法AJAX爬网

如何禁用Crawler4J记录器？

如何更改Crawler4j中的默认crawlStorageFolder？

Crawler4j静默停止

Crawler4j计算页面深度

基于crawler4j的身份验证

Crawler4J null，同时处理(链接)错误

crawler4j的实现

如何使用crawler4j提取页面上的所有链接？

如何使用crawler4j解析文档

Crawler4j仅访问种子URL

Crawler4j和Tripadvisor

如何在使用crawler4j时解析html

使用crawler4j。如何保存网站数据？

它能通过Crawler4j检索网站内容吗？

crawler4j按照什么步骤来获取数据？

Crawler4j - NoSuchMethod getOutgoingUrls()

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐