我目前正在使用Heritrix,我有一个标准的安装(这个是:http://builds.archive.org/maven2/org/archive/heritrix/heritrix/3.2.0/),它工作得很好。
但是现在我想要编写和添加我自己的扩展,比如改变urls的优先级,这应该被抓取,或者仅仅是一个简单的提取器。我可以检查现有提取器的java代码,但如何将其添加到爬虫程序中?
我尝试将java测试项目导出为jar文件,并将该文件放在Heritrix的lib文件夹中(其他库也在这里)。此外,我在作业的cxml文件中添加了一个bean。
但在启动后,我收到了这个错误: 2014-11-07T19:51:40.296Z严重无法实例化bean类myModule.TestClass:找不到默认构造函数;嵌套异常是java.lang.NoSuchMethodException: myModule.TestClass.();无法创建bean 'myModule.TestClass#0‘
它只是在新项目中重命名的extractorHTML,并导出到jar文件中。
你知道哪里出问题了吗?我读了所有的文档,但只有解释如何编写扩展,而不是如何添加它?
问候和感谢:-)
发布于 2014-12-23 06:06:33
我认为问题在于类加载器需要一个默认的构造函数(一个构造函数--不带参数)添加一个默认的构造函数
public YourClass() { } 以及设置成员变量所需的getter和setter。
https://stackoverflow.com/questions/26809981
复制相似问题