我在研究crawler4j。我发现它使用BerkeleyDB作为数据库。我正在使用mongoDB开发一个Grails应用程序,我想知道crawler4j在我的应用程序中工作有多灵活。我基本上想把抓取的信息存储在mongodb数据库中。是否可以将crawler4j配置为使用mongoDB而不是BerkeleyDB作为默认数据存储区?任何建议都会很有帮助。谢谢
发布于 2014-08-10 22:29:53
没有可配置的道层,但你可以操作它。
有3个dao类。Counters类保存“调度”和“处理”的总页数(这只是为了统计)。DocIDServer类包含用于解析新url的url-id对。Frontier类保存用于抓取页面的队列。只要保留方法逻辑和传输块即可。
https://stackoverflow.com/questions/24496471
复制相似问题