问配置LucidWorks包括仅爬行某些文件类型的路径
EN

Stack Overflow用户

提问于 2012-10-02 13:26:15

回答 1查看 194关注 0票数 0

我试图将LucidWorks web数据源配置为只对某些文件类型进行索引。但是，当我将.*\.html的包含路径设置为只爬行.html文件时(作为一个简化的示例)，它只会为顶级文件夹建立索引。爬行深度设置为-1，当我将包含路径保留为空白时，它会像预期的那样爬行整个子树。

我查看了创建web数据源和使用正则表达式的文档，找不到.*\.html不能工作的原因，因为.*应该与任何字符匹配。

回答已采纳

发布于 2012-10-02 15:08:50

当我在校对这个问题时，我有了一个正确的解决办法。寄给后人。

正在抓取的内容是一个文件共享，因此它依赖于web服务器的目录列表，该目录列表由于没有.html扩展名而被过滤掉。因此，只需将.*/添加到包含路径中，就可以解决这个问题。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/12691190

复制

相似问题

问配置LucidWorks包括仅爬行某些文件类型的路径EN