我收到了一个数据集,其中包含了美国、英国、法国和德国产品词典的数据。用德国的数据,我在显示口音等方面有困难。
我已经将数据作为ASCII和UTF8进行了喷洒。
我已经将我的记录结构定义为
gbrec := RECORD
STRING5 CountryId;
INTEGER8 ProductId;
INTEGER8 ABV;
UTF8_de ProductDescription;
INTEGER8 ProductItemId;
INTEGER MultiBuys;
STRING UomDescription;我将数据集定义为
ProductDictionary := Project(DISTRIBUTE(DATASET('~cga::ml_fullproductextract_20220808_UTF.txt', gbrec ,CSV(SEPARATOR('\t'))))(std.uni.ToUpperCase(ProductDescription[1..4]) != 'ANY ' AND std.uni.ToUpperCase(CGA_GenealogyLvl3Desc) NOT IN ['NA_BRAND FAMILY']),我使用过UTF和ASCII版本,没有joy。数据显示在下面。
你有什么建议或建议吗?我已经在原来的论坛上看过了,这也是我得到这些想法的地方。
任何帮助都将不胜感激。
谢谢
发布于 2022-08-10 12:00:19
大卫,
我会从回到喷雾器开始。ASCII永远不会起作用,所以UTF8将是我的首选。但是,由于这样做不起作用,接下来我将回顾一下十六进制编辑器中的原始数据,看看我到底在处理什么。IOW,这是某种形式的Unicode,但确切地说是哪种呢?也许你可以问一下数据供应商?
HTH,
理查德
https://stackoverflow.com/questions/73305654
复制相似问题