我想使用Solr为一些图书馆建立索引,这些图书馆以fb2格式表示书籍。实际上,fb2就是具有类似xsd format的xml。但是,post.jar忽略了*.fb2文件,我不明白如何将fb2文件中的值映射到索引字段,例如:
<book-title>some book</book-title>索引中的...to“图书标题”字段。我应该创建一个插件,还是其他什么?
发布于 2016-09-15 19:56:55
您应该看看Solr Data Import Handler (DIH)。
在Solr examples文件夹中有一个RSS导入示例。如果您查看rss-data-config.xml文件,您将看到他们如何使用XPathEntityProcessor从XML映射到Solr字段,例如:
以下是更多信息:http://www.andornot.com/blog/post/Sample-Solr-DataImportHandler-for-XML-Files.aspx
我过去也编写过Tika解析器来处理特定的文件格式。
https://lucidworks.com/blog/2010/06/18/extending-apache-tika-capabilities/
为了获得更大的灵活性,您可以只使用自己喜欢的编程语言读取文件,然后使用API将数据发送到Solr。我们不得不为最近的一个应用程序这样做,因为DIH不够灵活,无法实现我们想要实现的目标。
https://stackoverflow.com/questions/39502550
复制相似问题