技术百科

搜索技术百科

技术百科

发布

技术百科首页 >数据加速器

数据加速器

修改于 2023-08-31 09:17:03

769

概述

数据加速器（Data Accelerator Goose FileSystem，GooseFS），是由腾讯云推出的高可靠、高可用、弹性的数据加速服务。依靠对象存储（Cloud Object Storage，COS）作为数据湖存储底座的成本优势，为数据湖生态中的计算应用提供统一的数据湖入口，加速海量数据分析、机器学习、人工智能等业务访问存储的性能；采用了分布式集群架构，具备弹性、高可靠、高可用等特性，为上层计算应用提供统一的命名空间和访问协议，方便用户在不同的存储系统管理和流转数据。

数据加速器的功能有哪些？

缓存加速和数据本地化（Locality）

数据加速器可以与计算节点混合部署提高数据本地性，利用高速缓存功能解决存储性能问题，提高写入对象存储 COS 的带宽。

融合存储语义

数据加速器提供 UFS（Unified FileSystem）的语义，可以支持 COS、Hadoop、S3、K8S CSI、 FUSE 等多个存储语义，使用于多种生态和应用场景。

统一的腾讯云相关生态服务

包括日志、鉴权、监控，实现了与 COS 操作统一。

提供 Namespace 管理能力

针对不同业务、不同的Under File System，提供不同的读写缓存策略以及生命周期（TTL）管理。

感知 Table 元数据功能

对于大数据场景下数据 Table，提供 GooseFS Catalog 用于感知元数据 Table ，提供 Table 级别的 Cache 预热。

数据加速器的产品优势是什么？

数据 I/O 性能

数据加速器部署提供近计算端的分布式共享缓存，上层计算应用可以透明地、高效地从远端存储将需要频繁访问的热数据缓存到近计算端，加速数据 I/O 性能。数据加速器提供了元数据缓存功能，可以加速大数据场景下查询文件数据以及列出文件列表等元数据操作的性能。配合大数据存储桶使用，还可进一步加速重命名文件的操作性能。此外，业务可以按需选择 MEM、SSD、NVME 以及 HDD 盘等不同的存储介质，平衡业务成本和数据访问性能。

存储一体化

数据加速器提供了统一的命名空间，不仅支持了对象存储 COS 存储语义，也支持 HDFS、K8S CSI 以及 FUSE 等语义，为上层业务提供了一体化的融合存储方案，简化业务侧运维配置。存储一体化能够打通不同数据底座的壁垒，方便上层应用管理和流转数据，提升数据利用的效率。

生态亲和性

数据加速器全兼容腾讯云大数据平台框架，也支持客户侧自定义的本地部署，具备优秀的生态亲和性。业务侧不仅可以在腾讯云弹性 MapReduce 产品中使用数据加速器加速大数据业务，也可以便捷地将数据加速器本地化部署在公有云 CVM 或者自建 IDC 内。此外，数据加速器支持透明加速能力，对于已经使用腾讯云 COSN 和 CHDFS 的用户，只需做简单的配置修改，即可实现不修改任何业务代码和访问路径的前提下，自动使用GooseFS 加速 COSN 和 CHDFS 的业务访问。

数据加速器的应用场景有哪些？

开源生态数据湖

客户基于开源 Hadoop 生态构建大数据处理与分析，会面临计算资源与存储资源扩容速度不匹配、存储系统需对接多数据源的问题。

交互式查询数据湖

客户在对象存储（Cloud Object Storage，COS）中存储了多种数据源数据，包括实时计算数据，需要对其中的数据进行 OLAP 分析并进行数据可视化展示。

机器学习数据湖

在经典机器学习场景中，训练数据量大，同时要求很大的内网带宽。

云原生数据湖

通过容器服务，结合 Flink、TensorFlow 等开源应用，搭建云原生数据 ETL 集群和分析集群，实现计算资源的弹性化；通过数据加速器、元数据加速器、AZ 加速器等多级加速服务，提升计算业务访问性能；通过对象存储服务作为数据湖存储底座，实现海量异构数据的低成本存储。

词条知识树 (5个知识点)