我目前正在探索Tera data Aster(Aster express 6)。我已经阅读了文档和博客,但没有在哪里解释查询是如何工作的。由于sql和sql-mr获取数据的方式是分布式的,那么它们是否会在内部生成map reduce作业?
例如,customer表有10条记录,这些记录通过散列(客户id)分布,并假设它们是3个工作进程(除了asterdata中的节点),数据在它们之间拆分为3个记录,每个记录在两个节点上,4个记录在一个节点上。
在SQL中,简单的select * from customers;在这种情况下可以工作吗?
但是在aster数据中,这个查询是有效的。
它如何从3个节点获取记录?如果普通的sql查询可以丢弃记录,那么为什么我们需要MapReduce,我们可以使用多个子查询来完成哪些任务?
如果数据分布在多台机器上,那么mapreduce是处理数据的唯一方法吗?
如果有人能给我解释一下,那真的很有帮助!
普拉迪
发布于 2014-05-23 20:25:59
www.teradata.com/white-paper/Using-SQL-MapReduce-for-Advanced-Analytical-Queries/是由Teradata赞助的白皮书,它解释了他们将MapReduce与SQL结合在一起的基本原理,应该是提高理解的一个很好的起点。
https://stackoverflow.com/questions/23828836
复制相似问题