首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >非英语术语文件矩阵

非英语术语文件矩阵
EN

Stack Overflow用户
提问于 2018-08-24 07:38:20
回答 1查看 147关注 0票数 1

我有以下由英语和印地语文本组成的数据,我想读R中的印地语文本

代码语言:javascript
复制
Click Percentage       Email_Subject
18.12807882         तेजस्वी गैलेक्सी ए 7 (2016) बस 1856 रुपए प्रति माह से शुरू खरीदें
11.91957875         तेजस्वी गैलेक्सी ए 7 (2016) बस 1856 रुपए प्रति माह से शुरू खरीदें
0                   तेजस्वी गैलेक्सी ए 5 (2016) बस 1634 रुपए प्रति माह से शुरू खरीदें
9.523809524         खेल परिवर्तक यहाँ है।
6.789250354         एक फोन अपने समय से आगे जा सकता है।

如何用印地语(或任何非英语语言,如泰语)创建术语文档矩阵。我已经用下面的代码尝试了tm包

代码语言:javascript
复制
   text<-dataframe$Email_Subject
   mycorpus<-Corpus(VectorSource(text))
   mycorpus<-tm_map(mycorpus, tolower)
   mycorpus<-tm_map(mycorpus, removeNumbers)
   #mycorpus<-tm_map(mycorpus, removeWords, c(stopwords("hindi")))
    mycorpus
   dtm<-TermDocumentMatrix(mycorpus)
   m<-as.matrix(dtm)
   v <- sort(rowSums(m),decreasing=TRUE)
   d <- data.frame(word = names(v),freq=v)
   list(d1=d)

然而,这并不会生成术语文档矩阵

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-08-24 10:06:00

你可以这样做:

代码语言:javascript
复制
library(udpipe)
x <- data.frame(Email_Subject = c("तेजस्वी गैलेक्सी ए 7 (2016) बस 1856 रुपए प्रति माह से शुरू खरीदें", 
                             "तेजस्वी गैलेक्सी ए 7 (2016) बस 1856 रुपए प्रति माह से शुरू खरीदें", 
                             "तेजस्वी गैलेक्सी ए 5 (2016) बस 1634 रुपए प्रति माह से शुरू खरीदें", 
                             "खेल परिवर्तक यहाँ है।", 
                             "एक फोन अपने समय से आगे जा सकता है।"),
           stringsAsFactors = FALSE)
ud_model <- udpipe_download_model(language = "hindi")
ud_model <- udpipe_load_model(ud_model$file_model)

anno <- udpipe_annotate(ud_model, x$Email_Subject)
anno <- as.data.frame(anno)
anno <- subset(anno, upos %in% c("NOUN", "PRON", "ADJ"))

dtm <- document_term_frequencies(anno[, c("doc_id", "lemma")])
dtm <- document_term_matrix(dtm)
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51999643

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档