我有一个数据文件,里面有一些法语、日语,数据文件看起来如下:
我们有两栏:
Col1看起来很好:
| _ - 5 | PR - The number of qualified candidates
| _ - 6 | PR - アルバイト募集を掲載していますが、応募者がほとんどいないため。
| _ - 8 | PR - Quick, easy, inexpensive and plenty of applicants 我所做的就是只保留英语。如果我们在一排找到一个外语单词。我要删除整排。
有人知道在R里怎么做吗?
发布于 2014-06-18 21:30:01
也许您可以使用textcat包,它声称它可以检测到超过74种语言(它不适用于阿拉伯语:()
library("textcat")
dat <- read.table(text='
| _ - 5 | PR - The number of qualified candidates
| _ - 6 | PR - アルバイト募集を掲載していますが、応募者がほとんどいないため。
| _ - 8 | PR - Quick, easy, inexpensive and plenty of applicants' ,sep='|')
dat[textcat(dat$V3) =="english",]
V1 V2 V3
1 NA _ - 5 PR - The number of qualified candidates
3 NA _ - 8 PR - Quick, easy, inexpensive and plenty of applicantshttps://stackoverflow.com/questions/24295059
复制相似问题