我有一个名为EMP的表,ID和Name作为字段,它有2条记录。我将xml文档格式化为
<add>
<doc>
<field name="ID">1</field>
<field name="Name">Name1</field>
</doc>
<doc>
<field name="ID">2</field>
<field name="Name">Name2</field>
</doc>
</add>我第一次将上面的xml文件索引到solr。但是,当在表中创建第三条记录时,我是否应该选择只有第三条记录的xml文件
<add>
<doc>
<field name="ID">3</field>
<field name="Name">Name3</field>
</doc>
</add>并单独对此xml文件进行索引?
或者我应该将新的第三条记录添加到原始的xml文件中
<add>
<doc>
<field name="ID">1</field>
<field name="Name">Name1</field>
</doc>
<doc>
<field name="ID">2</field>
<field name="Name">Name2</field>
</doc>
<doc>
<field name="ID">3</field>
<field name="Name">Name3</field>
</doc>
</add>并再次索引这个新创建的xml文件?但在这里,当有数百万条记录时,生成一个xml文件将需要时间,而且对所有文档进行索引也将需要时间。
那么,我需要如何处理增量索引/更新场景?
发布于 2010-12-21 18:41:57
创建一个包含增量(即,新行或更改的行)的新XML文件可以解决您的问题,并且您正确地认为它比执行完整的导出/导入更有效。
如果您想避免创建您的XML文件,您应该研究一下DataImportHandler,它允许您从(例如) JDBC源导入数据。它是作为Solr的一个工具而包含的。
https://stackoverflow.com/questions/4498226
复制相似问题