数据加速器可以与计算节点混合部署提高数据本地性,利用高速缓存功能解决存储性能问题,提高写入对象存储 COS 的带宽。
数据加速器提供 UFS(Unified FileSystem)的语义,可以支持 COS、Hadoop、S3、K8S CSI、 FUSE 等多个存储语义,使用于多种生态和应用场景。
包括日志、鉴权、监控,实现了与 COS 操作统一。
针对不同业务、不同的Under File System,提供不同的读写缓存策略以及生命周期(TTL)管理。
对于大数据场景下数据 Table,提供 GooseFS Catalog 用于感知元数据 Table ,提供 Table 级别的 Cache 预热。
数据加速器部署提供近计算端的分布式共享缓存,上层计算应用可以透明地、高效地从远端存储将需要频繁访问的热数据缓存到近计算端,加速数据 I/O 性能。数据加速器提供了元数据缓存功能,可以加速大数据场景下查询文件数据以及列出文件列表等元数据操作的性能。配合大数据存储桶使用,还可进一步加速重命名文件的操作性能。此外,业务可以按需选择 MEM、SSD、NVME 以及 HDD 盘等不同的存储介质,平衡业务成本和数据访问性能。
数据加速器提供了统一的命名空间,不仅支持了对象存储 COS 存储语义,也支持 HDFS、K8S CSI 以及 FUSE 等语义,为上层业务提供了一体化的融合存储方案,简化业务侧运维配置。存储一体化能够打通不同数据底座的壁垒,方便上层应用管理和流转数据,提升数据利用的效率。
数据加速器全兼容腾讯云大数据平台框架,也支持客户侧自定义的本地部署,具备优秀的生态亲和性。业务侧不仅可以在腾讯云弹性 MapReduce 产品中使用数据加速器加速大数据业务,也可以便捷地将数据加速器本地化部署在公有云 CVM 或者自建 IDC 内。此外,数据加速器支持透明加速能力,对于已经使用腾讯云 COSN 和 CHDFS 的用户,只需做简单的配置修改,即可实现不修改任何业务代码和访问路径的前提下,自动使用GooseFS 加速 COSN 和 CHDFS 的业务访问。
客户基于开源 Hadoop 生态构建大数据处理与分析,会面临计算资源与存储资源扩容速度不匹配、存储系统需对接多数据源的问题。
客户在对象存储(Cloud Object Storage,COS)中存储了多种数据源数据,包括实时计算数据,需要对其中的数据进行 OLAP 分析并进行数据可视化展示。
在经典机器学习场景中,训练数据量大,同时要求很大的内网带宽。
通过容器服务,结合 Flink、TensorFlow 等开源应用,搭建云原生数据 ETL 集群和分析集群,实现计算资源的弹性化;通过数据加速器、元数据加速器、AZ 加速器等多级加速服务,提升计算业务访问性能;通过对象存储服务作为数据湖存储底座,实现海量异构数据的低成本存储。