首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用具有相同列名(不同数据)的表连接数据集

使用具有相同列名(不同数据)的表连接数据集
EN

Stack Overflow用户
提问于 2018-01-19 10:52:13
回答 1查看 1.6K关注 0票数 0

我希望加入多个具有相同名称的列的多个数据集,同时具有不同的数据。这可以重命名dataset列,同时将其转换为dataframe。但是,在使用数据集时,是否可以使用重命名或将前缀设置为列名。

代码语言:javascript
复制
Dataset<Row> uct = spark.read().jdbc(jdbcUrl, "uct", connectionProperties);
Dataset<Row> si = spark.read().jdbc(jdbcUrl, "si", connectionProperties).filter("status = 'ACTIVE'");
Dataset<Row> uc = uct.join(si, uct.col("service_id").equalTo(si.col("id")))

uc将有同名“code”的列,那么将很难从uct.code或si.code获得代码的值。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-01-19 11:24:15

Dataframe是Dataset的别名。因此,实际上,您在代码中使用的是数据文件。如果希望保留两个名称相同的列,则必须在使用"withColumnRenamed“选项执行联接之前重命名其中一个列。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/48339417

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档