SparkR是否包含dropDuplicates函数(根据特定列删除重复行)?
我在SOF中遇到了这个回答。但是,我们没有使用GroupBy,而是在SparkR中有一个dropDuplicates函数吗?
发布于 2016-05-02 07:42:12
要做到这一点,所有的列,它是不同的
distinct(x)或
unique(x)要做到这一点,“基于特定的列”,正如您所说的,您最好的选择是GroupBy,因为星火无法决定保存哪一条“不完全不同”的记录。
https://stackoverflow.com/questions/36975200
复制相似问题