文章/答案/技术大牛

发布

社区首页 >问答首页 >如果数组列中存在值，则筛选行

问如果数组列中存在值，则筛选行
EN

Stack Overflow用户

提问于 2022-05-12 01:18:03

回答 1查看 255关注 0票数 0

注意:我在Spark2.4.4工作

我有以下数据集

col1

['{"key1": "val1"}','{"key2": "val2"}']
['{"key1": "val1"}','{"key2": "val3"}']

本质上，我想过滤掉key2不是val2的任何行。

col1

['{"key1": "val1"}','{"key2": "val2"}']

在trino SQL中，我这样做：

any_match(col1, x -> json_extract_scalar(x, '$.key2') = 'val2')

但这在Spark2.4中是不可用的

我唯一的想法是爆炸，然后使用下面的代码，这是没有效率的。

df.filter(F.get_json_object(F.col("col1"), '$.key2') == 'val2')

我想知道我能否做到这一点，而不爆炸在我的版本的火花(2.4.4)

pyspark

apache-spark-sql

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-05-12 02:06:29

对于spark >=2.4，您可以使用spark SQL的exists函数。

df = df.withColumn('flag', F.expr('exists(col1, x -> get_json_object(x, "$.key2") == "val2")')) \
    .filter(F.col('flag')).drop('flag')
df.show(truncate=False)

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/72209108

复制

相似问题

问如果数组列中存在值，则筛选行
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如果数组列中存在值，则筛选行EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如果数组列中存在值，则筛选行
EN