首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何删除紧跟在特定符号后面的所有CJK文本?

如何删除紧跟在特定符号后面的所有CJK文本?
EN

Stack Overflow用户
提问于 2012-09-16 16:05:33
回答 2查看 126关注 0票数 1

我有一些这样的文本:

代码语言:javascript
复制
This is some text Z书. This is Zsome more text Z计算机.
This is yet some more Z电脑 text Z.

我需要删除与模式Z+(CJK)匹配的所有案例,其中(CJK)是任意数量的连续CJK字符。上面的文件将变成:

代码语言:javascript
复制
This is some text . This is Zsome more text .
This is yet some more  text Z.

如何删除所有与此模式匹配的CJK文本?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2012-09-16 18:51:46

您可以使用GNU sed检查非ASCII码:

代码语言:javascript
复制
sed -n l0 file.txt

结果:

代码语言:javascript
复制
This is some text Z\344\271\246. This is Zsome more text Z\350\256\241\347\256\227\346\234\272.$
This is yet some more Z\347\224\265\350\204\221 text Z.$

然后,您可以使用GNU sed进行您想要的替换。在我的测试中,我必须将我的语言环境设置为POSIX:

代码语言:javascript
复制
LC_ALL="POSIX" sed -r 's/Z[\o200-\o377]+//g' file.txt

结果:

代码语言:javascript
复制
This is some text . This is Zsome more text .
This is yet some more  text Z.
票数 2
EN

Stack Overflow用户

发布于 2012-09-16 16:23:09

Perl一行程序怎么样?

代码语言:javascript
复制
perl -CSD -pe 's/Z\p{InCJK_Unified_Ideographs}+//g;' inputfile
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/12445341

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档