我试图将LucidWorks web数据源配置为只对某些文件类型进行索引。但是,当我将.*\.html的包含路径设置为只爬行.html文件时(作为一个简化的示例),它只会为顶级文件夹建立索引。爬行深度设置为-1,当我将包含路径保留为空白时,它会像预期的那样爬行整个子树。
我查看了创建web数据源和使用正则表达式的文档,找不到.*\.html不能工作的原因,因为.*应该与任何字符匹配。
发布于 2012-10-02 15:08:50
当我在校对这个问题时,我有了一个正确的解决办法。寄给后人。
正在抓取的内容是一个文件共享,因此它依赖于web服务器的目录列表,该目录列表由于没有.html扩展名而被过滤掉。因此,只需将.*/添加到包含路径中,就可以解决这个问题。
https://stackoverflow.com/questions/12691190
复制相似问题