首先,我应该透露我是Lucidworks的产品经理。
您似乎已经意识到,使用Solr (或一个或多个Solr集群或实例)使用Solr进行数据存储和查询。融合的目的是使使用Solr更容易,集成Solr,并构建使用Solr的复杂解决方案。融合提供了许多人认为对此有帮助的一些东西,其中包括:
- 连接器和连接器框架。Bare Solr为您提供了一个良好的API和在命令行中推送某些类型文件的能力。融合提供了几个预先构建的数据源连接器,这些连接器从不同类型的系统中获取数据,并酌情处理它们(包括解析、转换和字段映射),并将结果发送给Solr。这些连接器包括公共文档存储(云和前提)、关系数据库、NoSQL数据存储、HDFS、企业应用程序以及非常强大和可配置的web爬虫。
- 安全整合。Solr没有任何身份验证或授权(虽然在本周的5.2版本中,它确实有一个可插拔的API和Kerberos的基本实现来进行身份验证)。融合用一个安全的版本包装Solr。融合可以干净地集成到LDAP、Active和Kerberos中以进行身份验证。它也有一个细粒度的授权模型,用于管理和配置融合和Solr。而且,融合授权模型可以自动将来自LDAP/AD的组成员与来自融合连接器数据源的访问控制列表链接起来,以便在运行搜索查询时从源系统获得文档级访问控制镜像。
- 管道处理模型融合提供了一个具有模块化阶段( API和GUI形式)的管道模型,以便更容易地定义和编辑数据和文档的转换。它类似于unix壳管。例如,在编制索引时,您可以在写入Solr之前包括用于定义字段映射、计算新字段、聚合文档、从其他源提取数据等阶段。在查询时,您也可以这样做,同时转换查询、运行和返回其他分析的结果,并应用安全筛选。
- 管理GUI融合有一个用于查看和配置上述内容的web UI (以及基本Solr配置)。我们认为这对于想要使用Solr的人来说是很方便的,但是没有经常使用Solr来记住如何使用API、配置文件和命令行工具。
- 复杂的基于搜索的特性:使用上面描述的管道模型,融合包括(并易于使用)一些更丰富的基于搜索的组件,包括:自然语言处理和实体提取模块;实时信号驱动的关联调整。我们打算在将来提供更多的这类服务。
- 分析处理:融合包括并集成Apache,用于针对存储在Solr (或其进入Solr的途中)中的数据运行深度分析。虽然Solr隐式地包含了某些数据分析功能,但这并不是其主要目的。我们使用Apache来驱动Fusion的信号提取和关联调优,并期望公开API,这样用户就可以轻松地在那里运行其他处理。
- 其他:许多有用的杂项特性,如:仪表板UI;带有手动关联调优的基本搜索UI;更容易的监视;作业管理和调度;与电子邮件集成的实时提醒等等。
当然,上面的很多东西都可以在Solr上构建或编写,而不需要Fusion,但是我们认为提供这些类型的企业集成对于很多人来说是很有价值的。