首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >配置LucidWorks包括仅爬行某些文件类型的路径

配置LucidWorks包括仅爬行某些文件类型的路径
EN

Stack Overflow用户
提问于 2012-10-02 13:26:15
回答 1查看 194关注 0票数 0

我试图将LucidWorks web数据源配置为只对某些文件类型进行索引。但是,当我将.*\.html的包含路径设置为只爬行.html文件时(作为一个简化的示例),它只会为顶级文件夹建立索引。爬行深度设置为-1,当我将包含路径保留为空白时,它会像预期的那样爬行整个子树。

我查看了创建web数据源使用正则表达式的文档,找不到.*\.html不能工作的原因,因为.*应该与任何字符匹配。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-10-02 15:08:50

当我在校对这个问题时,我有了一个正确的解决办法。寄给后人。

正在抓取的内容是一个文件共享,因此它依赖于web服务器的目录列表,该目录列表由于没有.html扩展名而被过滤掉。因此,只需将.*/添加到包含路径中,就可以解决这个问题。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/12691190

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档