腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(156)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
start in
crawler4j
我使用
crawler4j
lib和它们的依赖项来爬行页面。两者有什么区别?
浏览 0
修改于2015-05-21
得票数 1
1
回答
使用mongoDB的
Crawler4j
我在研究
crawler4j
。我发现它使用BerkeleyDB作为数据库。我正在使用mongoDB开发一个Grails应用程序,我想知道
crawler4j
在我的应用程序中工作有多灵活。是否可以将
crawler4j
配置为使用mongoDB而不是BerkeleyDB作为默认数据存储区?任何建议都会很有帮助。谢谢
浏览 6
提问于2014-07-01
得票数 2
1
回答
Crawler4j
无法AJAX爬网
但是
crawler4j
不支持ajax爬行。我想使用
crawler4j
,但要使用此功能。我的项目是基于
crawler4j
的。我有任何办法做,请分享链接和片段。
浏览 7
提问于2016-04-28
得票数 0
1
回答
如何使用
crawler4j
添加(集成)爬虫?
我的工作是网络爬虫,从网站上获取数据使用
crawler4j
和一切顺利,但主要问题是基于ajax的事件。所以,我发现了爬虫库做了这件事,但我不能使用它的地点和时间。在使用
crawler4j
获取页面之前。 我是否使用url来使用
crawler4j
,并使用它来使用爬行获取Ajax数据(页面)。
浏览 5
提问于2019-03-05
得票数 0
2
回答
如何禁用
Crawler4J
记录器?
我正在使用
Crawler4J
爬行。但是
Crawler4J
有一个记录器。 如何禁用记录器内部
Crawler4J
库?
浏览 5
修改于2017-05-02
得票数 3
回答已采纳
1
回答
如何更改
Crawler4j
中的默认crawlStorageFolder?
当我尝试
Crawler4j
的快速入门时,我想这是我应该更改结果存储位置的地方。然后我尝试更改为"C:\Fraps\try" .It创建一个名为frontier的文件夹,其中包含一些未知的文件,如je.lck、je.info.0…… 以我的理解,
crawler4j
可以用于查找外部链接和内容解析换句话说,我可以通过
crawler4j
下载html文件(里面的文本)。或者我应该通过
crawler4j
下载什么?
浏览 5
修改于2016-09-12
得票数 0
1
回答
Crawler4j
静默停止
在我的应用程序中,我使用了
crawler4j
。编辑: 我只是想,
crawler4j
并不是为任何wordpress网站工作的。例如,或者你可以检查 (将/next添加到任何wordpress站点的url)。可能的原因是什么?
浏览 0
修改于2014-05-02
得票数 0
1
回答
Crawler4j
计算页面深度
我正在用groovy & grails和mongodb开发一个网络爬虫,有没有办法用
crawler4j
计算页面的深度?我知道我可以限制到我想要爬取的深度,但还没有遇到任何建议如何计算页面深度的东西。
浏览 2
提问于2014-06-26
得票数 0
1
回答
如何使用
crawler4j
解析文档
我希望在Eclipse中使用
crawler4j
解析所有包含作为“查询”输入的文本的文档。 有什么想法吗?
浏览 2
提问于2015-03-19
得票数 0
回答已采纳
1
回答
基于
crawler4j
的身份验证
我使用的是
crawler4j
4.2 AuthInfo authJavaForum = new FormAuthInfo("myuser", "mypwd", "http://www.java-forum.org我使用wireshark是为了查看使用
crawler4j
和手工登录时的区别,但是请求似乎是相同的(最大的区别是我的cookie不包含任何关于ga (google )的信息)。( 3)是否有真正与
crawler4j
合作的网站?
浏览 2
修改于2017-05-23
得票数 1
回答已采纳
1
回答
Crawler4J
null,同时处理(链接)错误
我有一个小项目,我正在尝试用
crawler4j
4.1爬行几百万页(我对这个数字没有一个明确的估计)。我使用的BasicCrawler示例只对其做了一些小的更改。在我开始爬行之后不久,
Crawler4J
日志显示了以下不断出现的错误知道是什么导致了这一切吗?
Crawler4J
是否将无法到达的链接重新安
浏览 3
修改于2016-03-17
得票数 0
回答已采纳
1
回答
如何使用
crawler4j
提取页面上的所有链接?
我正在实现一个网络爬虫,我使用的是
Crawler4j
库。我不会在一个网站上得到所有的链接。我试图用
Crawler4j
提取一个页面上的所有链接,但错过了一些链接。
Crawler4j
版本: crawler4j-3.3不是的。这个页面上的链接数量:几乎60个,其中4-5个是重复的是页面上的URL列表,是
Crawler4j
提供的URL列表。 我查看了
crawler4j
使用的'HtmlContentHandler.jav
浏览 1
提问于2012-07-03
得票数 1
回答已采纳
1
回答
crawler4j
的实现
我正在尝试让
crawler4j
的基本形式像一样运行。
浏览 8
提问于2012-04-04
得票数 0
回答已采纳
2
回答
Crawler4j
和Tripadvisor
我正在使用
crawler4j
为Tripadvisor编写一个爬虫。我需要收集一个项目的所有评论,但是指向“下一个”评论的链接(那些带有数字的评论)不是一个链接,而是一个javascript函数。
浏览 2
提问于2012-06-27
得票数 0
1
回答
Crawler4j
仅访问种子URL
我正在使用
crawler4j
抓取烂番茄网站来提取结构化数据。我已经设置了一切,在项目主页上的示例中给出了默认URL,一切都正常,但当我放置自己的种子时,应用程序只访问我给它的URL。我错过了什么吗?
浏览 4
提问于2013-08-06
得票数 0
1
回答
如何在使用
crawler4j
时解析html
最近,我不得不用开源项目crawler4j.However抓取一些网站,
crawler4j
没有为using.Now提供任何api,我遇到了一个问题,如何使用
crawler4j
提供的函数和类来解析html
浏览 0
提问于2013-09-05
得票数 3
2
回答
它能通过
Crawler4j
检索网站内容吗?
(假设每页有10篇新闻文章)我决定尽可能地使用
Crawler4j
从每个页面中获取所有URI,并检索这些URI的内容。对您检索的每个URI进行递归移动。但是,当我尝试使用
Crawler4j
的Quickstart时Text length: 3661Number of outgoing links: 86 因此,我想知道
crawler4j
浏览 7
修改于2017-05-23
得票数 2
2
回答
使用
crawler4j
。如何保存网站数据?
我已经开始使用
crawler4j
了,它似乎可以搜索到没有问题的网站。但是,我需要保存抓取的数据。
crawler4j
是否支持此功能?
浏览 1
修改于2014-04-15
得票数 1
1
回答
crawler4j
按照什么步骤来获取数据?
我想学习, 一般情况下,它会遵循什么顺序?
浏览 4
修改于2018-12-08
得票数 2
回答已采纳
1
回答
Crawler4j
- NoSuchMethod getOutgoingUrls()
我使用的是3.5版本的
crawler4j
,调用类与在站点上给出的调用类相同-为了方便地在下面复制- private
浏览 0
提问于2014-11-17
得票数 2
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
点击加载更多
领券