我目前正在考虑使用Postgres或Postgres为大约20 TB或更多的数据创建一个长期数据存储。
我在Postgres网站上看到了Postgres还不是MPP架构的信息。但是,我可以看到,它已经有了一个充当主节点的“协调器”和一堆不共享数据的数据节点(共享-无共享)。
为什么Postgres不是MPP?
发布于 2014-08-09 01:15:06
我是两个项目的原始开发者之一。
他们都有一名协调员和一名达塔诺德,这是事实。协调员也计划和指导这两个方面的执行。
也许几个例子会有帮助。
假设您有三张桌子,t1、t2和r1。t1有a1和a2列,t2有b1和b2列。t1在a1上分布(切分),t2分布在b1上。r1有列c1和c2,并且是复制的,每一行都有一个精确的副本。
对于像SELECT * FROM t1这样的简单查询,它将在Postgres和Postgres中并行化。
另一个例子是:
SELECT * FROM t1 INNER JOIN r1 ON t1.a1 = r1.c1 也会被并行化,连接将被“向下推”到数据节点。我们可以这样做,因为r1被复制到每个节点上。如果t1是一个大型事实表,而r1是一个维度表,则这种查询类型很好。
让我们看一个不同的案例:
SELECT * FROM t1 INNER JOIN t2 ON t1.a1 = t2.b2这里我们加入的是t1的分发列,而不是b2的分发列。在一个4节点集群中,node1上的t1中的一行可能需要与t2 on node1、node2、node3和node4中的行连接。
Postgres通过将连接中限定的所有数据从每个表发送给协调员,并在那里加入来处理这个问题。在这个示例中,我们没有包含任何WHERE子句限定符。因此,它将把t1和t2的全部内容从node1、node2、node3和node4发送给协调员,然后加入到那里。不会出现连接并行,而且您还需要将所有数据传送到一个位置。因此,在这种情况下,PostgreSQL实际上要比本地PostgreSQL慢得多,如果表很大,则要慢得多。
Postgres将以不同的方式处理这一问题。记住,连接条件是t1.a1 = t2.b2。它将认识到,b2正在被等量连接,a1是t1的分发列。也就是说,如果我们有b2值,那么我们确切地知道它需要在哪个节点上加入t1 (因为我们可以在这个值上应用散列分布函数)。由于数据是在t2的每个节点上生成的,因此它将被需要用于t1的一个datanode所使用,并且无需经过协调器即可直接使用。
数据节点同时从t1读取数据并生成用于与t1连接的t2行,由需要数据节点的特定行直接使用来自t2的数据。
与Postgres相比,这种直接的datanode到datanode通信允许对更复杂的查询进行更多的并行化。
我希望这有助于回答你的问题。
Postgres还有其他性能改进。对于一个序列,则处理得更好。
https://dba.stackexchange.com/questions/73492
复制相似问题