首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如果是某个字符串Spark Scala,则更改列值

如果是某个字符串Spark Scala,则更改列值
EN

Stack Overflow用户
提问于 2021-07-15 18:07:58
回答 1查看 34关注 0票数 0

我正在尝试创建一个UDF函数来替换DF中的一些值。我有以下DF:

代码语言:javascript
复制
df1
+-------------+
| Periodicity |
+-------------+
|  Monthly    |
|  Daily      |
|  Annual     |
+-------------+

因此,如果我在这个DF中找到“年度”,我想将其更改为"EveryYear“,如果我找到"Daily”,则将其更改为"EveryDay“。这就是我正在尝试的:

代码语言:javascript
复制
val modifyColumn = () => if (df1.col("Periodicity").equals("Annual")) "EveryYear"
val modifyColumnUDF = udf(modifyColumn)

val result = df1.withColumn("Periodicity", modifyColumnUDF(df1.col("Periodicity")))

但却给了我一个EvaluateException。我做错了什么?

EN

回答 1

Stack Overflow用户

发布于 2021-07-15 18:52:54

您可以使用以下方法之一:

代码语言:javascript
复制
// First approach 
    dataFrame
      .withColumn("Periodicity",
        when(col("Periodicity") === "Annual", "EveryYear").otherwise(
          when(col("Periodicity") === "Monthly", "EveryMonth").otherwise(
            when(col("Periodicity") === "Daily", "EveryDay"))))
    
// Second approach 
    val permutations = Map("Annual" -> "EveryYear", "Monthly" -> "EveryMonth", "Daily" -> "EveryDay")
    val medianUDF = udf[String, String]((origValue: String) => permutations(origValue))
    dataFrame.withColumn("Periodicity", medianUDF(col("Periodicity")))

如果您有许多排列和/或希望对其进行动态配置,可以使用第二种方法。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/68391828

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档