首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Postgres-XC和MPP

Postgres-XC和MPP
EN

Database Administration用户
提问于 2014-08-08 10:15:22
回答 1查看 996关注 0票数 1

我目前正在考虑使用Postgres或Postgres为大约20 TB或更多的数据创建一个长期数据存储。

我在Postgres网站上看到了Postgres还不是MPP架构的信息。但是,我可以看到,它已经有了一个充当主节点的“协调器”和一堆不共享数据的数据节点(共享-无共享)。

为什么Postgres不是MPP?

EN

回答 1

Database Administration用户

回答已采纳

发布于 2014-08-09 01:15:06

我是两个项目的原始开发者之一。

他们都有一名协调员和一名达塔诺德,这是事实。协调员也计划和指导这两个方面的执行。

也许几个例子会有帮助。

假设您有三张桌子,t1t2r1t1a1a2列,t2b1b2列。t1a1上分布(切分),t2分布在b1上。r1有列c1c2,并且是复制的,每一行都有一个精确的副本。

对于像SELECT * FROM t1这样的简单查询,它将在Postgres和Postgres中并行化。

另一个例子是:

代码语言:javascript
复制
SELECT * FROM t1 INNER JOIN r1 ON t1.a1 = r1.c1 

也会被并行化,连接将被“向下推”到数据节点。我们可以这样做,因为r1被复制到每个节点上。如果t1是一个大型事实表,而r1是一个维度表,则这种查询类型很好。

让我们看一个不同的案例:

代码语言:javascript
复制
SELECT * FROM t1 INNER JOIN t2 ON t1.a1 = t2.b2

这里我们加入的是t1的分发列,而不是b2的分发列。在一个4节点集群中,node1上的t1中的一行可能需要与t2 on node1、node2、node3和node4中的行连接。

Postgres通过将连接中限定的所有数据从每个表发送给协调员,并在那里加入来处理这个问题。在这个示例中,我们没有包含任何WHERE子句限定符。因此,它将把t1和t2的全部内容从node1、node2、node3和node4发送给协调员,然后加入到那里。不会出现连接并行,而且您还需要将所有数据传送到一个位置。因此,在这种情况下,PostgreSQL实际上要比本地PostgreSQL慢得多,如果表很大,则要慢得多。

Postgres将以不同的方式处理这一问题。记住,连接条件是t1.a1 = t2.b2。它将认识到,b2正在被等量连接,a1t1的分发列。也就是说,如果我们有b2值,那么我们确切地知道它需要在哪个节点上加入t1 (因为我们可以在这个值上应用散列分布函数)。由于数据是在t2的每个节点上生成的,因此它将被需要用于t1的一个datanode所使用,并且无需经过协调器即可直接使用。

数据节点同时从t1读取数据并生成用于与t1连接的t2行,由需要数据节点的特定行直接使用来自t2的数据。

与Postgres相比,这种直接的datanode到datanode通信允许对更复杂的查询进行更多的并行化。

我希望这有助于回答你的问题。

Postgres还有其他性能改进。对于一个序列,则处理得更好。

票数 5
EN
页面原文内容由Database Administration提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://dba.stackexchange.com/questions/73492

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档