我想在文件层次结构中搜索指定编码系统(le 1251/utf-8/utf-16-le/iso-8859-4等)中的文本。
例如,我有cp1251编码中的源代码,我使用系统编码UTF-8运行Debian。grep或午夜指挥官在UTF-8编码中执行搜索.所以我找不到俄语单词。
首选解决方案将使用标准POSIX或GNU命令行实用程序(如grep)。
MC或Emacs解决方案也赞赏。
我试过:
$ grep `echo Привет | iconv -f cp1251 -t utf-8` *但是这个命令有时不会显示结果。
发布于 2012-02-24 17:07:54
您建议的命令输出字符串Привет,然后将该输出的结果传递给iconv,并将grep应用于iconv的结果。这不是你想要的。你想要的是:
find . -type f -printf "iconv -f cp1251 -t utf-8 '%p' | grep --label '%p' -H 'Привет'\n" | sh这适用于当前目录下的每个文件,后面跟着grep。
但是请注意,这假设您的文件的所有都在CP1251中。如果他们中的一些是这样的话,它就会失败。在这种情况下,您首先必须编写一个程序来检测文件的编码,然后只在必要时应用if。
https://stackoverflow.com/questions/9290211
复制相似问题