复杂PDF处理流程 如图所示,在HuggingFists中使用Docling进行复杂PDF处理非常简单,只要一个包含三个算子的流程就可以批量完成复杂PDF文本的转换工作了。 Docling环境的准备 目前最新版的HuggingFists并不支持Docling,如果希望使用该功能,需要去HuggingFists的算子商城(资源库/算子库/商城)中安装该算子,并在HuggingFists 进入HuggingFists的安装目录,sengee.community.linux在命令行中执行nerdctl exec -it oyez /bin/sh进入oyez容器。 HuggingFists提供的这个压缩包中涵盖了ocr识别,布局识别以及表格识别等多个模型。可以帮助网络条件不足的朋友使用Docling算子。 好了,现在可以使用HuggingFists去自动化处理复杂PDF文档了。
最近,HuggingFists隆重推出了新的功能模块-“数据服务”模块。该模块可以有效的解决HuggingFists算子能力不足时的扩展问题。 这些功能很可能是当前HuggingFists系统还不支持的。但在使用HuggingFists构建数据处理流程的时候,使用者迫切希望有机会使用这些能力。 这在之前的HuggingFists系统中很难办到,需要使用者拥有一定的编程能力,可参见《HuggingFists算子能力扩展-PythonScript》。现在这件事情就变的容易很多了。 但需要注意的一点是,HuggingFists的社区版并不支持对第三方提供服务接口功能。需要购买HuggingFists的商业版才可以。 这个与《1.1 HuggingFists简介(二)》文中提到的HuggingFists的商业原则相关。
而此时正是HuggingFists大限身手的时刻。 HuggingFists支持以低代码的方式编写LLM工具,也支持通过MCP协议集成外部的工具到HuggingFists平台。 HuggingFists系统能够同时支持2类不同的需求要得益于HuggingFists的体系架构,下面我们来看一下HuggingFists系统的功能架构。 HuggingFists 从数据源到模型管理,从API到作业调度,全方位提升研发体验。平台核心层主要体现了HuggingFists的主体功能。 Ø API服务管理用于接入外部的Web API接口,供HuggingFists在流程定义中使用;以及将通过HuggingFists定义的流程供外部系统访问。
可通过以下的文章链接回顾一下之前介绍的内容: 《HuggingFists-低代码玩转LLM RAG-准备篇》 《HuggingFists-低代码玩转LLMRAG(1) Embedding》 《HuggingFists 进入HuggingFists数据源管理,选择数据库菜单。 2. 点击添加数据源按钮,选择创建腾讯向量库数据源类型 在数据源地址中添加腾讯向量库的访问地址,完成腾讯向量库的数据源添加。 由于腾讯向量库检索时必须设置向量,所以HuggingFists目前不支持浏览向量数据库中的数据表。 2. 点击“新建表”按钮;添加字段,必须为表指定一个id字段和一个vector字段。 (注:HuggingFists是一款低代码AI应用工具,力图发展为LangChain的低代码平替工具。 其社区版可通过以下链接获得https://github.com/Datayoo/HuggingFists)
查询结果重排如上图,接上一篇文章《HuggingFists-低代码玩转LLM腾讯云RAG(1)》。 在问题参数列,我们输入问题信息,该信息无法从流程的数据流中获取,可以通过设置变量进行替换,关于如何使用变量本文不做详细描述,感兴趣的可以通过文章《HuggingFists-低代码玩转LLM RAG(2) HuggingFists是一款低代码AI应用工具,对于非开发人员更友好,相较于LangChain,其是一种更成熟的工程落地选择。实验中给出的文档相对都比较理想,不需要进行较为复杂的信息提取。 HuggingFists工具恰恰可以支持完成对非结构化数据的ETL工作,这也是笔者认为其相较于LangChain在工程落地方面更成熟的原因。 (注:HuggingFists社区版可通过以下链接获得https://github.com/Datayoo/HuggingFists)
HuggingFists AI应用开发平台 HuggingFists是一款由笔者团队开发的低代码AI应用开发平台。 有别于现在流行的RPA类低代码平台,HuggingFists采用的是传统的数据科学工具的架构,即HuggingFists是面向数据集来处理的。因此,其天然能够兼容结构化与半结构化的数据处理场景。 利用这种模式,可以使用HuggingFists系统对外提供数据访问服务。Ø 丰富的AI模型集成能力:HuggingFists是基于笔者团队早期的数据科学平台Sengee孵化出来的。 除此外,HuggingFists提供了Python脚本算子、Javascript算子,可通过这些算子扩展HuggingFists暂不支持的功能。 除以上特性外,HuggingFists还有很多方便使用的小功能,这里不一一列举了。下面是笔者整理的一些关于HuggingFists的介绍和学习资料,欢迎有兴趣的朋友下载试用。
HuggingFists-低代码玩转LLMRAG(2) Query在整个流程中,会用到如下的算子:l 交互式数据算子用来接受输入的问题,绑定一个真实的问题;l 混元文本嵌入算子用于将文本转换为向量数据并关联 以上就是基于ES向量数据库来实现检索增强生成应用的示例,欢迎下载HuggingFists试用。 下载地址如下:【Linux版】Github:https://github.com/Datayoo/HuggingFists百度网盘:https://pan.baidu.com/s/1zV_ScCtLgFQSYEb0wLmXIQ pwd=2024 【windows版】Github: https://github.com/Datayoo/HuggingFists4Win/tree/main百度网盘:https://pan.baidu.com
但我们的上一篇文章《HuggingFists: 无代码处理复杂PDF》有提到,可以将Markdown格式作为统一目标格式,其他类型的文件都转换为Markdown格式即可。 这主要是因为HuggingFists要求每个算子的输入/输出结构应该都是明确的,方便用户定义流程时明确算子的上下文结构。 这两个算子属于HuggingFists中的高级技巧算子。添加水位线算子用于在流程中添加一个数据集标记,用于完成数据流的状态同步、事务等功能。 添加水位线后,我们添加水位线变量,水位线变量是伴随着水位线在HuggingFists中一起流转的。 结语HuggingFists提供的无代码Markdown自动化抽取能力,简单,易用,能够帮助使用者快速完成数据的整理工作。
下面,我们就介绍下如何使用HuggingFists系统无代码实现Markdown中数据的抽取与切分。
HuggingFists低代码平台的出现进一步促进了知识图谱构建的效率。它大幅降低了知识图谱构建人员的技术要求,使得从事该工作的人员有了更大的选择范围。