首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >stopwords_tr中的某些字符不显示土耳其字符

stopwords_tr中的某些字符不显示土耳其字符
EN

Stack Overflow用户
提问于 2019-07-12 22:02:41
回答 2查看 132关注 0票数 0
代码语言:javascript
复制
stopwords_tr <- data.frame(word = stopwords::stopwords("tr",source="stopwords-iso"), stringsAsFactors = FALSE)
stopwords_tr

stopwords_tr中的某些字符不是土耳其语。例如:

代码语言:javascript
复制
1   acaba
2   acep
3   adamakıllı
4   adeta
5   ait
6   altmýþ   <-Here must be: altmış
7   altmış
8   altý     <-Here must be: altı

我在寻找修复它们的方法。

代码语言:javascript
复制
stopwords_tr$word<-gsub("ý","ı",stopwords_tr$word)

结果没有改变。我试过了,但没成功。

代码语言:javascript
复制
Encoding (stopwords_tr $ word) <- "WINDOWS-1254"
Encoding (stopwords_tr $ word) <- "LATIN-5"
Encoding (stopwords_tr $ word) <- "UTF-8"

另一件有趣的事。

当您在R Studio中双击stopwords_tr以显示它时,该角色显示为"ý"。在控制台中,它看起来像"y"

有没有设置编码的参数?感谢每一个人。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2019-07-19 15:29:06

我听从了#user2554330的建议。然而,我申请的地址与他显示的地址不同。我联系了stopwords tr (Kenneth Benoit)的创建者。问题源于错误编码的数据源。我也注意到了重复的单词,并报告了它们。我们一起解决了性格问题。更新了stopwords tr。在以下地址中;

(修复土耳其语#16)

https://github.com/quanteda/stopwords/pull/16

代码语言:javascript
复制
devtools::install_github("quanteda/stopwords", ref = "fix-tr")

stopwords("tr", source = "stopwords-iso")

“土耳其语停用词”现在似乎被正确编码了。问候..

票数 0
EN

Stack Overflow用户

发布于 2019-07-13 00:59:17

如果您确定这是一个错误,我认为修复这个问题的最好方法是修复原始源代码:将问题发布到https://github.com/stopwords-iso/stopwords-iso/issueshttps://github.com/stopwords-iso/stopwords-tr/issues (不确定哪个更好;尝试一个,如果您弄错了,他们会告诉您!)

但请检查它是否真的是错误的。我不懂土耳其语,但当我在谷歌上搜索“altm for”时,我发现有几个页面看起来像土耳其语,比如https://greatsong.net/PAROLES-ISMAIL-YK,ISTEMIYORUM-SENI,101646494.html。可能是一个编码错误,但如果它是一个常见的错误,也许你真的希望它出现在列表中。

关于显示问题:听起来你使用的是Windows。Windows上的R在显示非本机字符时出现问题。你可能还没有安装冰岛语,所以它在显示像altm这样的单词时会有困难。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/57008579

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档