问删除r中所有的非英语字符。
EN

Stack Overflow用户

提问于 2014-06-18 21:10:44

回答 1查看 1.1K关注 0票数 1

我有一个数据文件，里面有一些法语、日语，数据文件看起来如下：

我们有两栏：

Col1包含一个句子，大部分是用英语，有些是用外语。
Col2全是英国人。

Col1看起来很好：

| _ - 5 | PR - The number of qualified candidates
| _ - 6 | PR - アルバイト募集を掲載していますが、応募者がほとんどいないため。
| _ - 8 | PR - Quick, easy, inexpensive and plenty of applicants

我所做的就是只保留英语。如果我们在一排找到一个外语单词。我要删除整排。

有人知道在R里怎么做吗？

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-06-18 21:30:01

也许您可以使用textcat包，它声称它可以检测到超过74种语言(它不适用于阿拉伯语:()

library("textcat")
dat <- read.table(text='
| _ - 5 | PR - The number of qualified candidates
| _ - 6 | PR - アルバイト募集を掲載していますが、応募者がほとんどいないため。
| _ - 8 | PR - Quick, easy, inexpensive and plenty of applicants' ,sep='|')

dat[textcat(dat$V3) =="english",]

 V1      V2                                                      V3
1 NA  _ - 5                  PR - The number of qualified candidates
3 NA  _ - 8   PR - Quick, easy, inexpensive and plenty of applicants

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/24295059

复制

相似问题

问删除r中所有的非英语字符。
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问删除r中所有的非英语字符。EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问删除r中所有的非英语字符。
EN