首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >爬网时出现FSCrawler错误E:\TestFilesToBeIndexed\子文件夹: java.net.ConnectException:连接超时:连接

爬网时出现FSCrawler错误E:\TestFilesToBeIndexed\子文件夹: java.net.ConnectException:连接超时:连接
EN

Stack Overflow用户
提问于 2020-05-22 14:47:26
回答 1查看 139关注 0票数 0

爬网时出错: java.net.ConnectException: path\to\file_folder:连接超时:连接

我试图使用FSCrawler将远程服务器文件摄取到Elasticserach(在我的本地机器上)的现有索引中,但得到了上面的异常。

下面是FSCrawler的_settings.yml文件:

代码语言:javascript
复制
 ---
    name: "index_in_es_onefsc"
    server:
      hostname: "machinename.abc.com"
      port: 22
      username: "username"
      password: "password@20"
      protocol: "ssh"
    fs:
      url: "E:\\TestFilesToBeIndexed"
      update_rate: "15m"
      excludes:
      - "*/~*"
      json_support: false
      filename_as_id: false
      add_filesize: true
      remove_deleted: true
      add_as_inner_object: false
      store_source: false
      index_content: true
      attributes_support: false
      raw_metadata: false
      xml_support: false
      index_folders: true
      lang_detect: false
      continue_on_error: false
      ocr:
        language: "eng"
        enabled: true
        pdf_strategy: "ocr_and_text"
      follow_symlinks: false
    elasticsearch:
      nodes:
      - url: "http://127.0.0.1:9200"
      bulk_size: 100
      flush_interval: "5s"
      byte_size: "10mb"
EN

回答 1

Stack Overflow用户

发布于 2020-06-10 23:12:21

The documentation说,在Windows上,当在Windows机器之间来回执行SSH时,您必须使用以下形式:

我认为在Windows上,您需要使用:

代码语言:javascript
复制
name: "index_in_es_onefsc"
fs:
  url: "/E:/TestFilesToBeIndexed"
server:
  hostname: "machinename.abc.com"
  port: 22
  username: "username"
  password: "password@20"
  protocol: "ssh"

请注意,在Windows机上运行FSCrawler时会出现there is a known issue。这个问题已经修复,但如果你使用的快照版本比6月26日发布的版本旧,你很可能需要升级。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61949295

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档