文章/答案/技术大牛

发布

社区首页 >问答首页 >编码问题HPCC

问编码问题HPCC
EN

Stack Overflow用户

提问于 2022-08-10 11:39:43

回答 1查看 33关注 0票数 1

我收到了一个数据集，其中包含了美国、英国、法国和德国产品词典的数据。用德国的数据，我在显示口音等方面有困难。

我已经将数据作为ASCII和UTF8进行了喷洒。

我已经将我的记录结构定义为

gbrec := RECORD
STRING5 CountryId;
INTEGER8 ProductId;
INTEGER8 ABV;
UTF8_de ProductDescription;
INTEGER8 ProductItemId;
INTEGER MultiBuys;
STRING UomDescription;

我将数据集定义为

ProductDictionary := Project(DISTRIBUTE(DATASET('~cga::ml_fullproductextract_20220808_UTF.txt', gbrec ,CSV(SEPARATOR('\t'))))(std.uni.ToUpperCase(ProductDescription[1..4]) != 'ANY ' AND std.uni.ToUpperCase(CGA_GenealogyLvl3Desc) NOT IN ['NA_BRAND FAMILY']),

我使用过UTF和ASCII版本，没有joy。数据显示在下面。

VS代码图像

你有什么建议或建议吗？我已经在原来的论坛上看过了，这也是我得到这些想法的地方。

任何帮助都将不胜感激。

谢谢

问题数据

hpcc-ecl

回答 1

Stack Overflow用户

发布于 2022-08-10 12:00:19

大卫,

我会从回到喷雾器开始。ASCII永远不会起作用，所以UTF8将是我的首选。但是，由于这样做不起作用，接下来我将回顾一下十六进制编辑器中的原始数据，看看我到底在处理什么。IOW，这是某种形式的Unicode，但确切地说是哪种呢？也许你可以问一下数据供应商？

HTH，

理查德

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/73305654

复制

相似问题

问编码问题HPCC
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问编码问题HPCCEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问编码问题HPCC
EN