首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >ManifoldCF作业调度是如何进行的?

ManifoldCF作业调度是如何进行的?
EN

Stack Overflow用户
提问于 2014-02-18 11:09:35
回答 1查看 752关注 0票数 3

我正在使用CMIS查询和存储所有索引的solr作为存储库连接器,将manifoldcf或mcf与alfresco cms集成。我能做的很好&可以在solr索引中搜索文档。

现在,作为实现的一部分,我计划引入多个存储库,如sharepoint、文件系统等,因此现在我有了三个文档存储库: alfresco、sharepoint和文件系统。我计划有计划的作业,运行在每个存储库,并在特定的时间间隔抓取这些。但我有以下论点。

  1. 虽然我经常安排作业,但我想确保mcf作业只选择那些添加了新的或更新的内容--假设我有100个文档正在运行当前作业,但是在下一个作业运行时说110,所以我只想为新的10个文档运行作业,而不是整个110个文档。
  2. 由于可用的mcf教程相对较少,我无法确保mcf作业的行为是这样的,但我认为它足够聪明,可以这样做,但也没有证据来证实它。
  3. 我想了解更多关于mcf作业计划类型的信息:直接扫描每个文档一次/重新扫描文档。类似地,我想了解更多关于作业调用的信息:完全/最小。作为一个新手我会很抱歉的。
  4. 另外,我正在考虑进行一些自定义编码,以确保只有最新/更新的文档才有资格进行处理,但只在可用文档较少的情况下才执行代码。
  5. 在本例中,文档定制编码是明智的,还是mcf提供了所有这些特性OOTB。

在此之前,非常感谢您。

EN

回答 1

Stack Overflow用户

发布于 2015-06-30 06:11:54

ManifoldCF根据为作业配置的内容来安排作业。

  1. 这取决于存储库连接器是如何编写的,通常在作业运行时运行存储库连接器的getDocumentVersion()时,如果文档规范的版本与早期版本不同,则会有多个其他版本没有文档的索引。通常,文档版本字符串是文档的最后修改日期。
  2. 不幸的是,从开发人员的角度来看,流形并不包含大量的文档,您很可能会通过代码来进行处理。这是很有解释性的。
  3. 这是根据mcf文档显示的最小值。

考虑到作业的连接类型所使用的模型,使用列表操作的“最小”变体将执行尽可能少的工作量。在某些情况下,这将意味着添加和修改将被索引,但删除不会检测到麦克博士乔布斯

  1. 您应该在公共String[] getDocumentVersions(..)中实现您的逻辑
  2. OOTB特性,已经足够了。但还有一件事要考虑的是文件的许可。如果更改了文档的权限,则可以选择更改文档的版本。
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/21851932

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档