文章/答案/技术大牛

发布

社区首页 >问答首页 >stopwords_tr中的某些字符不显示土耳其字符

问stopwords_tr中的某些字符不显示土耳其字符
EN

Stack Overflow用户

提问于 2019-07-12 22:02:41

回答 2查看 132关注 0票数 0

stopwords_tr <- data.frame(word = stopwords::stopwords("tr",source="stopwords-iso"), stringsAsFactors = FALSE)
stopwords_tr

stopwords_tr中的某些字符不是土耳其语。例如：

1   acaba
2   acep
3   adamakıllı
4   adeta
5   ait
6   altmýþ   <-Here must be: altmış
7   altmış
8   altý     <-Here must be: altı

我在寻找修复它们的方法。

stopwords_tr$word<-gsub("ý","ı",stopwords_tr$word)

结果没有改变。我试过了，但没成功。

Encoding (stopwords_tr $ word) <- "WINDOWS-1254"
Encoding (stopwords_tr $ word) <- "LATIN-5"
Encoding (stopwords_tr $ word) <- "UTF-8"

另一件有趣的事。

当您在R Studio中双击stopwords_tr以显示它时，该角色显示为"ý"。在控制台中，它看起来像"y"。

有没有设置编码的参数？感谢每一个人。

stop-words

replace

gsub

回答 2

Stack Overflow用户

回答已采纳

发布于 2019-07-19 15:29:06

我听从了#user2554330的建议。然而，我申请的地址与他显示的地址不同。我联系了stopwords tr (Kenneth Benoit)的创建者。问题源于错误编码的数据源。我也注意到了重复的单词，并报告了它们。我们一起解决了性格问题。更新了stopwords tr。在以下地址中；

(修复土耳其语#16)

https://github.com/quanteda/stopwords/pull/16

devtools::install_github("quanteda/stopwords", ref = "fix-tr")

stopwords("tr", source = "stopwords-iso")

“土耳其语停用词”现在似乎被正确编码了。问候..

票数 0

Stack Overflow用户

发布于 2019-07-13 00:59:17

如果您确定这是一个错误，我认为修复这个问题的最好方法是修复原始源代码:将问题发布到https://github.com/stopwords-iso/stopwords-iso/issues或https://github.com/stopwords-iso/stopwords-tr/issues (不确定哪个更好；尝试一个，如果您弄错了，他们会告诉您！)

但请检查它是否真的是错误的。我不懂土耳其语，但当我在谷歌上搜索“altm for”时，我发现有几个页面看起来像土耳其语，比如https://greatsong.net/PAROLES-ISMAIL-YK,ISTEMIYORUM-SENI,101646494.html。可能是一个编码错误，但如果它是一个常见的错误，也许你真的希望它出现在列表中。

关于显示问题:听起来你使用的是Windows。Windows上的R在显示非本机字符时出现问题。你可能还没有安装冰岛语，所以它在显示像altm这样的单词时会有困难。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/57008579

复制

相似问题

问stopwords_tr中的某些字符不显示土耳其字符
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问stopwords_tr中的某些字符不显示土耳其字符EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问stopwords_tr中的某些字符不显示土耳其字符
EN