测试数据 测试数据采用 LDBC-SNB SF100 数据集,SF100 数据集大小为 100G,共有 282,386,021 个点以及 1,775,513,185 条边。 关于 LDBC-SNB 关联数据基准委员会(LDBC,Linked Data Benchmark Council),是图(Graph)和 RDF 数据管理的基准指南制定者。 社交网路基准(SNB,Social Network Benchmark)是关联数据基准委员会(LDBC)开发的软件基准(Benchmark)之一。 关于 LDBC-SNB 数据集,具体请参考以下文档: LDBC_SNB_SF100:https://ldbcouncil.org/ldbc_snb_docs/ldbc-snb-specification.pdf 24 Partitions:https://github.com/ldbc/ldbc_snb_docs 3 Replica Factors:https://github.com/ldbc/ldbc_snb_datagen_spark
[封面图] 本文首发于 Nebula 公众号:手把手教你从数据预处理开始体验图数据库,由社区用户 Jiayi98 供稿,分享了她离线部署 Nebula Graph、预处理 LDBC 数据集的经验,是个对新手极度友好的手把手教你学 docker-compose up -d -- 构建并启动 Studio 服务; 其中,-d 表示在后台运行服务容器 启动成功后,在浏览器地址栏输入:http://ip address:7001 测试 我用的 LDBC 准备 获取源码 https://github.com/ldbc/ldbc_snb_datagen/tree/stable,scale factor 1-1000 用 stable branch。 下载 hadoop-3.2.1.tar.gz: http://archive.apache.org/dist/hadoop/core/hadoop-3.2.1/ LDBC 数据预处理 LDBC 数据预处理 ldbc 的所有 vertex 和 edge 的 ID / index 都有问题,需要处理一下使得所有 vertex 的 ID 变为 unique key。
环境准备 硬件: Spark 集群:三台机器,每台 96 core,256 G 内存 NebulaGraph 集群:三台机器,每台 128 core,252 G 内存,SSD,双万兆网卡 数据:LDBC LDBC sf100 数据集的数据量 该表展示了各类点边的数据量 Label Amount Comment 220,096,052 Forum 4,080,604 Organisation 7,955 64 FALSE 180 10 30 G 2,000 360 1.1 h LDBC sf100 vertex:282,386,021,edge:1,775,513,185 64 FALSE 180 10 30 G 3,000 360 1.0 h LDBC sf100 vertex:282,386,021,edge:1,775,513,185 64 FALSE 90 10 30 G 2,000 180 在该实践中采用的 LDBC 数据集的 tag 属性不超过 10 个,设置的 batch 数为 2,000。如果 tag 或 edgeType 属性多且字节数多,batch 可以调小,反之,则调大。
近日,国际关联数据基准委员会(Linked Data Benchmark Council,以下简称LDBC)发布了图数据基准测评“LDBC SNB-BI”最新结果。 本次测试由LDBC官方审计完成,整个测试环境和测试过程均完整披露于LDBC官网。 蚂蚁从2015年开始布局图技术,打造了业界领先的图智能技术体系,包含图数据库、图计算、图学习、知识图谱等,四次打破LDBC图数据库测评世界纪录,曾获吴文俊人工智能科技进步一等奖、中国电子学会科技进步一等奖 国际关联数据基准委员会(LDBC)是国际公认的图数据基准指南制定者与测试标准发布机构,SNB(Social Network Benchmark)是由其组织的基于社交网络数据的权威基准测评,主要包含SNB-BI
LDBC(Linked Data Benchmark Council)Social Network Benchmark,简称 LDBC SNB,是一种针对社交网络场景的评估图数据库性能的基准测试。 LDBC 简介除了 Social Network Benchmark,LDBC 旗下目前还有其他几种基准测试:Graphalytics Benchmark,Financial Benchmark 和 Semantic Social Network Benchmark 是 LDBC 最早的提出的基准测试,已经成为国内外最主流的图数据库基准测试,在国内很多图数据库招标也会将 LDBC SNB 作为性能测试的一项。 LDBC SNB 主要包括三个主要部分:Data Generator:这是一个数据生成工具,用于生成具有社交网络特性的大规模复杂数据。 ldbc-snb-interactive-sigmod-2015.pdf (ldbcouncil.org)The LDBC Social Network Benchmark Specification关于
nebula-importer 用于导入数据到 nebula 集群中 k6-plugin k6 压测工具,里面使用 go 客户端向 nebula 集群发起请求 nebula-bench 整合了生成 LDBC ldbc_snb_datagen_hadoop LDBC 数据生成工具 概述 数据使用 ldbc_snb_datagen 自动生成的 LDBC 数据集,整体流程如下图。 生成 LDBC 数据集 cd nebula-bench sudo yum install -y git \ make \ 总结 使用 LDBC 作为标准数据集,数据特征会标准一些,可以生成更多的数据比如 10 亿点,而数据结构是一样的。
QPS 提升约 40-100%,时延低至原 1/3; 3) 对于内存占用和释放进行了优化 4) 其他各 case 有不同程度提升; 测试环境 服务器和压测机皆为物理机 图片 测试数据 测试数据采用 LDBC-SNB 关于 LDBC-SNB 关联数据基准委员会(LDBC,Linked Data Benchmark Council),是图(Graph)和 RDF 数据管理的基准指南制定者。 社交网路基准(SNB,Social Network Benchmark)是关联数据基准委员会(LDBC)开发的软件基准(Benchmark)之一。 关于 LDBC-SNB 数据集,具体请参考以下文档: LDBC-SNB Specification LDBC-SNB DOCs LDBC-SNB 测试数据集生产工具 Nebula Commit nebula-graphd Person)-[e:KNOWS*2]->(v2:Person) WHERE id(v1) == {} RETURN count(*) 吞吐率 图片 服务端耗时(ms) 客户端耗时(ms) 新增测试用例-LDBC
@TOC[1] Here's the table of contents: •一、Gartner预测•二、Fabric介绍•三、数据交易与数据标准•四、openCpher介绍•五、基于Fabric的LDBC 五、基于Fabric的LDBC数据规模测试方案 Linked Data Benchmarking Committee简称LDBC,是业界权威的衡量图数据库和图数据管理系统的参照标准发布机构。 万亿图测试项目:trillion-graph[10],就是基于该机构发布的测试集进行的,该项目中包含1129台机器/分片,运行一个100TB (LDBC)数据集。
测试采用的是LDBC-SNB标准数据进行的,LDBC即Linked Data Benchmark Council(关联数据基准委员会)是图和RDF数据管理的基准指南制定者,SNB即SocialNetwork Benchmark(社交网路基准)是关联数据基准委员会(LDBC)开发的软件基准(Benchmark)之一,LDBC-SNB对图存储计算引擎提供了一个公平,诚实的比较评判机制。
2015 年,LDBC 成立图查询语言工作组。 2016 年,LDBC 工作组开始设计 G-CORE。 2017 年,WG3 工作组开始讨论如何将属性图查询能力引入 SQL。 2017 年,LDBC 工作组完成了 G-CORE 的初始设计 GCORE2018(见参考文献)。 2018 年,Cypher 形式化语义的论文发表 Cypher2018 (见参考文献)。 G-CORE 的创建 Linked Data Benchmarking Council(LDBC)定义了一种厂商无关的基准测试。 G-CORE 是由 LDBC 工作组设计的,但主要受 Cypher 的启发,采用一样的语义。 结论 Cypher 是 PGQL 和 G-CORE 的共同祖先。这几个语言的语法和语义都非常的接近。
4.1 数据集我们主要选用了 LDBC-Finbench 作为属性图(LPG)数据集,并且通过为 LDBC-Finbench 添加语义关系,扩展了新的数据集 LDBC-Finbench-X 作为语义图(
测试数据都是由 LDBC(https://github.com/ldbc)生成。为了测试 KV 分离效果,我们准备了两类数据:一类全是小 value,另一类是大 value 和小 value 混合。 对于前者,我们使用默认 LDBC 的设置,如图 3。 [Nebula Graph 的 KV 存储分离原理和性能测评] 图3. 因为在 LDBC 数据集中,边上的属性只有 creationDate,小于测试中 KV 分离的阈值 100B。因此无论是否使用 KV 分离,边上的属性都存储在 LSM-Tree 上。 因此,KV 分离对于 LDBC 数据集中的边上属性查询性能提升较小。 3.6 数据插入的性能 这里,我们也测试下 KV 分离对于数据插入的性能影响。 我们选择使用数据集 Data1,针对默认的 LDBC 数据进行测试。
比如 Peter Boncz 教授(LDBC 创始人之一)在今年早些时候在 EDBT / ICDT 会议上做了个主题演讲——《The (Sorry) State of Graph Database Systems 这个实验的设置固然有值得探讨的地方,但 Peter 作为 LDBC 的创始人,他的核心目的自然不是贬低图数据库,只是想借用子图匹配——这个图数据库优化得还不够好的一种查询场景,来鼓励各个图数据库厂商提升自己的产品
PG-Schema的创新设计在LDBC(关联数据基准委员会)框架下开发的PG-Schema数据定义语言,解决了图数据库模式标准化问题。
这个是社交分析的一个例子,来自LDBC测试集的BI03测试。 例如以下查询,来自LDBC BI08测试,该测试中我们先计算每个人的分数,在Person类型点上进行标记,以便在走图到firend时取值使用。
据了解,蚂蚁从2015年开始探索图计算,布局了图数据库、流式图计算引擎、图学习等相关技术,打造了世界规模领先的图计算集群,于业界首创了工业级流式图计算引擎,多次问鼎图数据库行业权威测试 LDBC 世界冠军并保持世界纪录
据了解,蚂蚁从2015年开始探索图计算,布局了图数据库、流式图计算引擎、图学习等相关技术,打造了世界规模领先的图计算集群,于业界首创了工业级流式图计算引擎,多次问鼎图数据库行业权威测试 LDBC 世界冠军并保持世界纪录
在图数据库的领域有很多测试工具可供使用,最全面的是LDBC graphalytics,但是,对于这个版本,我们选择了TigerGraph在2018年9月发布的更简单的基准测试。 除此之外,接下来我们还将推出这些新特性: 组合查询或大结果集的性能改进 GraphBLAS的新版本(甚至更快版本) 更多Cypher子句/功能,以支持更多样化的查询 图形可视化软件的集成 支持LDBC基准测试
是蚂蚁集团大规模图计算平台,也是业内首个在大规模图上提供实时服务的图计算平台,为蚂蚁集团提供了业界领先的实时和时序大规模图分析能力,具备毫秒级处理延时,致力于四天内完成六个月数据的时间穿越式仿真,是国际标准图数据库基准测试LDBC-SNB
挑战三:缺少易处理性 属性图模型很难处理: 对路径进行迭代 返回没有环的路径(即简单路径) 支持针对路径的任意过滤条件 可选的模式匹配 为此 LDBC GraphQL 工作组提出了 G-Core 模型,