stopwords_tr <- data.frame(word = stopwords::stopwords("tr",source="stopwords-iso"), stringsAsFactors = FALSE)
stopwords_trstopwords_tr中的某些字符不是土耳其语。例如:
1 acaba
2 acep
3 adamakıllı
4 adeta
5 ait
6 altmýþ <-Here must be: altmış
7 altmış
8 altý <-Here must be: altı我在寻找修复它们的方法。
stopwords_tr$word<-gsub("ý","ı",stopwords_tr$word)结果没有改变。我试过了,但没成功。
Encoding (stopwords_tr $ word) <- "WINDOWS-1254"
Encoding (stopwords_tr $ word) <- "LATIN-5"
Encoding (stopwords_tr $ word) <- "UTF-8"另一件有趣的事。
当您在R Studio中双击stopwords_tr以显示它时,该角色显示为"ý"。在控制台中,它看起来像"y"。
有没有设置编码的参数?感谢每一个人。
发布于 2019-07-19 15:29:06
我听从了#user2554330的建议。然而,我申请的地址与他显示的地址不同。我联系了stopwords tr (Kenneth Benoit)的创建者。问题源于错误编码的数据源。我也注意到了重复的单词,并报告了它们。我们一起解决了性格问题。更新了stopwords tr。在以下地址中;
(修复土耳其语#16)
https://github.com/quanteda/stopwords/pull/16
devtools::install_github("quanteda/stopwords", ref = "fix-tr")
stopwords("tr", source = "stopwords-iso")“土耳其语停用词”现在似乎被正确编码了。问候..
发布于 2019-07-13 00:59:17
如果您确定这是一个错误,我认为修复这个问题的最好方法是修复原始源代码:将问题发布到https://github.com/stopwords-iso/stopwords-iso/issues或https://github.com/stopwords-iso/stopwords-tr/issues (不确定哪个更好;尝试一个,如果您弄错了,他们会告诉您!)
但请检查它是否真的是错误的。我不懂土耳其语,但当我在谷歌上搜索“altm for”时,我发现有几个页面看起来像土耳其语,比如https://greatsong.net/PAROLES-ISMAIL-YK,ISTEMIYORUM-SENI,101646494.html。可能是一个编码错误,但如果它是一个常见的错误,也许你真的希望它出现在列表中。
关于显示问题:听起来你使用的是Windows。Windows上的R在显示非本机字符时出现问题。你可能还没有安装冰岛语,所以它在显示像altm这样的单词时会有困难。
https://stackoverflow.com/questions/57008579
复制相似问题