dadoonet/fscrawler:2.9 3.4 创建目录并启动 3.4.1 创建目录 # 创建工作目录 mkdir -p /yyss/fscrawler # 创建文档目录 即要被摄入的文档位置 mkdir -p /yyss/disk/es-docs 3.4.2 启动镜像 docker run -it -d --name fscrawler -v /yyss/fscrawler:/root/.fscrawler -v /yyss/disk/es-docs:/tmp/es:ro dadoonet/fscrawler:2.9 fscrawler test-job 参数介绍: -v /yyss/fscrawler: 的作业 在第一次运行时,如果 ~/.fscrawler 中尚不存在该作业,FSCrawler 将询问你是否要创建它 注意:配置文件实际上存储在你机器上的 /yyss/fscrawler/job_name ,fscrawler会帮我们重新创建文件索引。
1、FSCrawler Bug 发现过程及描述 书接上一回,在使用 Elasticsearch FSCrawler 实现文档知识库检索的时候。 2、FSCrawler Bug 排查思路 2.1 核查 Mapping 看是否字段缺失 GET fs_job_2024/_mapping Mapping 部分映射如下: "filename": { -F "file=@test.txt" "http://127.0.0.1:8080/fscrawler/_document" 结果参照执行后,也发现提交的文档没有 filesize 字段。 反馈如下: https://github.com/dadoonet/fscrawler/pull/1868 3、FSCrawler Bug 解决方案 期间和作者有过几轮沟通和验证后,最终得出解决方案。 4、小结 本文详细描述发现 FSCrawler bug 的全过程。欢迎留言就 FSCrawler 相关技术问题进行交流。 PS:要用如下截图最新版本的包来验证才可以修复bug。
https://github.com/dadoonet/fscrawler https://t.zsxq.com/02EMR7MRn 诚然,仅从更贴合 Elasticsearch 实现的角度来讲,FSCrawler 所以,我们选型 FSCrawler 作为文档数据源处理+写入 Elasticsearch 同步工具。 相当于之前的分类型文档解析自己独立实现,FSCrawler 可谓“大包大揽”、“以一敌十”,之前最复杂、最困难的工作全部交由 FSCrawler 完成,包含但不限于: PDF、DOC、XLS、TXT等文档读取解析 相比于之前 java 开发的 web 系统,这次是我全栈实现,涉及到技术包含但不限于:Html、CSS、Javascript、Python、Flask、Elasticsearch、Kibana、FSCrawler FSCrawler:本地磁盘文档爬虫解析并写入Elasticsearch。 由于足够轻量级,累计核心代码不到 1000 行。 取名为:织网知识库检索系统。此“织网”非彼“知网”。
这里推荐的是Fscrawler。Fscrawler是由Elastic的员工开源和维护的一个Elasticsearch的 文件系统爬虫工具。 该工具上手非常简易,只需要把应用程序下载到本地,启动的时候提供一个任务名,比如这里的job_name:bin/fscrawler job_name18:28:58,174 WARN [f.p.e.c.f.FsCrawler ] job [job_name] does not exist18:28:58,177 INFO [f.p.e.c.f.FsCrawler] Do you want to create it (Y/N y18:29:05,711 INFO [f.p.e.c.f.FsCrawler] Settings have been created in [~/.fscrawler/job_name/_settings.yaml 图片我们可以用同样的方式,将本地的官方文档,同样作为一个数据源,添加进来,只需要把本地的官方文档的目录,作为一个新的fscrawler的任务进行一次性的扫描即可。
使用 Elasticsearch 和 fscrawler 构建基础的搜索引擎 链接: https://t.co/Q0Raies7D4 本文介绍如何使用 fscrawler,Elasticsearch,Python
, { "alias": "listing-changes", "index": "listing-changes-2024-04" }, { "alias": "fscrawler ", "index": "test_docs" }, { "alias": "fscrawler", "index": "fs_job_2024" } ] 2.2