我试图使用Solr7.0对一些wiki页面进行索引,但在最后一步,DataImportHandler显然没有提取数据。我不知道发生了什么,因为没有错误被抛出。
当我调用http://localhost:8983/solr/mycore/dataimport?command=full-import时,两种不同的行为是显而易见的。
我第一个请求的第一个回应是。
{
"responseHeader":{
"status":0,
"QTime":75
},
"initArgs":[
"defaults",[
"config","data-config.xml"
]
],
"command":"full-import",
"status":"idle",
"importResponse":"",
"statusMessages":{}
}当我再次按enter键时,第二个响应是。
{
"responseHeader":{
"status":0,
"QTime":26
},
"initArgs":[
"defaults",[
"config","data-config.xml"
]
],
"command":"full-import",
"status":"idle",
"importResponse":"",
"statusMessages":{
"Total Requests made to DataSource":"0",
"Total Rows Fetched":"2",
"Total Documents Processed":"0",
"Total Documents Skipped":"0",
"Full Dump Started":"2017-10-28 07:05:31",
"":"Indexing completed. Added/Updated: 0 documents. Deleted 0
documents.",
"Committed":"2017-10-28 07:05:31",
"Time taken":"0:0:0.449"
}
}正如你在第二个答案中所看到的,DIH发现了两个文件。这正是我在测试文件wiki.xml中的文档编号。问题是DIH没有提取,在Indexing completed. Added/Updated: 0 documents. Deleted 0 documents.中您可能会注意到
这是我的Solr配置:吉特要旨。我正在使用Windows 10、Solr 7.0和Lucene 7.0。
到目前为止我尝试过的..。
<contributor>标记有两个子标签<username>(用户昵称)和<id>(用户id),而其他一些时候,当用户没有帐户时,<contributor>只以一个子标签<ip>出现。因此,我只是尝试导入没有“用户”数据的数据。data-config.xml中的其他字段。没有人能通过这些测试。
发布于 2017-10-30 09:55:42
您的问题非常简单,您的entity标记最初是关闭的,因此所有下面的fields标记都会被忽略。
因此,您需要在之后添加</entity>标记,并将<entity/>替换为只使用<entity>
但是,您的solrconfig.xml仍然包含一个错误,您使用的是ClassicIndexSchemaFactory,但是您有AddSchemaFieldsUpdateProcessorFactory,这将导致异常。您应该将传统的模式工厂替换为托管模式工厂,或者只删除这个add更新处理器工厂。
https://stackoverflow.com/questions/46993727
复制相似问题