我正在尝试使用PIG中的TOKENIZE函数和一个用逗号分隔的文档。我想拆分逗号,但不想拆分空格。例如,我希望(汽车,玩具汽车,兔子)的列表是((汽车),(玩具汽车),(兔子)不是((汽车),(玩具),(汽车),(兔子))。有没有办法做到这一点?
发布于 2011-11-19 02:03:52
你有没有看过STRSPLIT只在逗号上拆分?
(它适用于CHARARRAY,如TOKENIZE)
发布于 2012-01-25 02:56:35
另一种方式,
您也可以尝试使用展平运算符
示例:
输入-> (a,(b,c))
B= foreach A生成$0,扁平化($1)
输出-> (a,b,c)
扁平化和标记化一起用法
你可以阅读字数统计问题Here
https://stackoverflow.com/questions/8175154
复制相似问题