文章/答案/技术大牛

发布

社区首页 >问答首页 >Postgres-XC和MPP

问Postgres-XC和MPP
EN

Database Administration用户

提问于 2014-08-08 10:15:22

回答 1查看 996关注 0票数 1

我目前正在考虑使用Postgres或Postgres为大约20 TB或更多的数据创建一个长期数据存储。

我在Postgres网站上看到了Postgres还不是MPP架构的信息。但是，我可以看到，它已经有了一个充当主节点的“协调器”和一堆不共享数据的数据节点(共享-无共享)。

为什么Postgres不是MPP？

postgres-xc

回答 1

Database Administration用户

回答已采纳

发布于 2014-08-09 01:15:06

我是两个项目的原始开发者之一。

他们都有一名协调员和一名达塔诺德，这是事实。协调员也计划和指导这两个方面的执行。

也许几个例子会有帮助。

假设您有三张桌子，t1、t2和r1。t1有a1和a2列，t2有b1和b2列。t1在a1上分布(切分)，t2分布在b1上。r1有列c1和c2，并且是复制的，每一行都有一个精确的副本。

对于像SELECT * FROM t1这样的简单查询，它将在Postgres和Postgres中并行化。

另一个例子是：

SELECT * FROM t1 INNER JOIN r1 ON t1.a1 = r1.c1

也会被并行化，连接将被“向下推”到数据节点。我们可以这样做，因为r1被复制到每个节点上。如果t1是一个大型事实表，而r1是一个维度表，则这种查询类型很好。

让我们看一个不同的案例：

SELECT * FROM t1 INNER JOIN t2 ON t1.a1 = t2.b2

这里我们加入的是t1的分发列，而不是b2的分发列。在一个4节点集群中，node1上的t1中的一行可能需要与t2 on node1、node2、node3和node4中的行连接。

Postgres通过将连接中限定的所有数据从每个表发送给协调员，并在那里加入来处理这个问题。在这个示例中，我们没有包含任何WHERE子句限定符。因此，它将把t1和t2的全部内容从node1、node2、node3和node4发送给协调员，然后加入到那里。不会出现连接并行，而且您还需要将所有数据传送到一个位置。因此，在这种情况下，PostgreSQL实际上要比本地PostgreSQL慢得多，如果表很大，则要慢得多。

Postgres将以不同的方式处理这一问题。记住，连接条件是t1.a1 = t2.b2。它将认识到，b2正在被等量连接，a1是t1的分发列。也就是说，如果我们有b2值，那么我们确切地知道它需要在哪个节点上加入t1 (因为我们可以在这个值上应用散列分布函数)。由于数据是在t2的每个节点上生成的，因此它将被需要用于t1的一个datanode所使用，并且无需经过协调器即可直接使用。

数据节点同时从t1读取数据并生成用于与t1连接的t2行，由需要数据节点的特定行直接使用来自t2的数据。

与Postgres相比，这种直接的datanode到datanode通信允许对更复杂的查询进行更多的并行化。

我希望这有助于回答你的问题。

Postgres还有其他性能改进。对于一个序列，则处理得更好。

票数 5

页面原文内容由Database Administration提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://dba.stackexchange.com/questions/73492

复制

相似问题

问Postgres-XC和MPP
EN

回答 1

Database Administration用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Postgres-XC和MPPEN

回答 1

Database Administration用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Postgres-XC和MPP
EN