首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >按类型从火花放电数据中删除行

按类型从火花放电数据中删除行
EN

Stack Overflow用户
提问于 2020-05-17 17:19:51
回答 2查看 1.4K关注 0票数 0

我有一个大文件,其中一些是精确数字,另一些是包含字符串。我希望从dataframe中删除所有带有数字的行项(计算效率高)。

代码语言:javascript
复制
|Product-1| Pj3f|
|Product-2| 12  |
|Product-3| Pj2F|
|Product-4| 20  |

我如何按项目的类型在的列中筛选行?吡火花过滤器功能似乎没有它的功能。

K

EN

回答 2

Stack Overflow用户

发布于 2020-05-17 17:35:25

将该列castint,然后只筛选null值列。

  • 或者使用.rlike函数

Example:

代码语言:javascript
复制
df.show()
#+---------+-----+
#|  product|descr|
#+---------+-----+
#|Product-1| pj3f|
#|product-2|   12|
#+---------+-----+

df.filter(col("descr").cast("int").isNull()).show()
df.filter(~col("descr").rlike("^([\s\d]+)$")).show()
#+---------+-----+
#|  product|descr|
#+---------+-----+
#|Product-1| pj3f|
#+---------+-----+
票数 2
EN

Stack Overflow用户

发布于 2020-05-17 17:34:38

星火中的列都是相同的类型。如果将两列与不同类型的union混合使用,spark将尝试转换为两种类型(通常为String )的有效类型,并将值的字符串表示形式放入其中。

示例:

  • 一个String列和一个Float将生成一个String列,其中浮点数表示为带有小数点的字符串。String + Float => String
  • Integer列联合( Float )将将所有整数转换为浮点数。Integer + Float => Float

对于您的情况,如果它是一个主题字符串或数字,我将选择regex筛选。

代码语言:javascript
复制
val stringsDF = df.filter(regex_extract($"column", "[0-9]+([.|,][0-9]+)?") === ""))

这将保留所有不跟随浮点数或整数值的值。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61855832

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档