对不起,如果有人给我回信了,我不知道该怎么找。我从一家银行收到了一系列报告,我应该处理这些报告,这些报告似乎.编码不好?
前两行的VIM:
1 ^M^@
2 ^@:^@2^@0^@:^@3^@0^@4^@0^@7^@1^@9^@^M^@例如gedit中的同两行:
1
2 :20:3040719有人能告诉我怎么回事吗?如果我用fenc=utf8或fenc=cp1250打开文件并不重要(这是这些文件应该用的编码)。我甚至尝试过fenc=ucs-bom,因为我认为它与endianness有关,但它也不会改变任何事情。我知道^@是空的,^M是Windows样式的新行(CRLF),但是在ff=dos和ff=unix之间进行更改也不重要。
我有一个来自同一个银行的旧文件(在他们引入一些更改之前),它运行得很好-- file显示它是extended-ASCII,而损坏的文件显示为data:
$ file *sta
20220411_182719.sta: Non-ISO extended-ASCII text, with CRLF line terminators
20220412_071916.sta: data我可以在VIM中替换这些字符并处理该文件,但是我需要使用PHP每天对数千个文件进行自动化处理,并且不能真正使用VIM。理想情况下,我只想告诉银行支持他们搞砸了什么。
发布于 2022-04-15 12:57:23
好了找到了。我是UTF-16 Little Endian。
:e ++enc=utf16le我可以在处理过程中正确地转换它。
https://unix.stackexchange.com/questions/699168
复制相似问题