文章/答案/技术大牛

发布

社区首页 >问答首页 >rlike regex不处理特殊字符

问rlike regex不处理特殊字符
EN

Stack Overflow用户

提问于 2021-09-19 06:01:14

回答 1查看 237关注 0票数 1

我很难获得(java) spark的rlike方法来处理特殊字符。通常，简单的转义、\\或引用\Q和\E足以处理正则表达式中的特殊字符，但它们似乎不起作用。

以下面的示例代码为例。它应该将第2行和第3行显示为匹配alist中的一个项，忽略大小写。但是，下面的代码只显示第2行为匹配。

如何根据与alist中某一项匹配的“动物”列筛选数据集的行

    StructType schema = new StructType(new StructField[]{
            new StructField("row_id", DataTypes.IntegerType, false, Metadata.empty()),
            new StructField("animal", DataTypes.StringType, false, Metadata.empty())
    });

    Dataset<Row> dataset = spark.createDataFrame(
            Arrays.asList(
                    RowFactory.create(1, "Bat"),
                    RowFactory.create(2, "Dog"),
                    RowFactory.create(3, "Cat (Type Not Stated)"),
                    RowFactory.create(4, "Other.")
            ), schema);


    List<String> alist = Arrays.asList(
            "\\QDOG\\E",
            "\\QCat (Type Not Stated)\\E");

    dataset = dataset.filter(dataset.col("animal").rlike(
            "(?i)\\b("+String.join("|", alist)+")\\b"
    ));

    dataset.show(5, false);

java

regex

apache-spark

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-09-19 07:09:12

您的问题不是\\Q或\\E模式，而是\\b单词边界模式。

如果我通过删除rlike模式来更改最终的\\b regexp，如下所示：

dataset = dataset.filter(dataset.col("animal").rlike(
  "(?i)("+String.join("|", alist)+")"
));

我知道这两条线：

+------+---------------------+
|row_id|animal               |
+------+---------------------+
|2     |Dog                  |
|3     |Cat (Type Not Stated)|
+------+---------------------+

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/69240709

复制

相似问题

问rlike regex不处理特殊字符
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问rlike regex不处理特殊字符EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问rlike regex不处理特殊字符
EN