首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >R语言中的模式提取

R语言中的模式提取
EN

Stack Overflow用户
提问于 2014-01-22 07:35:54
回答 1查看 115关注 0票数 0

我是一个新的程序员,在下面给出了R..my数据,我想从下面给出的corpus.my示例代码中提取两个或更多的单词

我的语料库或文件

苹果在网上购物中的最高销售额--美国苹果公司( apple aapl )移动设备的零售额--比谷歌( google )、谷歌(Google)、安卓( and )等智能手机和平板电脑的销售额高出一倍,占了所有在线销售活动的比重。一份来自ibm智能商业界的报告显示,苹果面临利润率下降的压力,苹果面临着利润率下降的压力,法戈证券( fargo )将苹果aapl股票下调至市场。他表示,苹果下一部智能手机的发布将给公司的毛利带来压力。下一部智能手机很可能被称为iphone,因为无线服务提供商撤回了对零售股票的补贴,并在某一时刻上调了苹果aapl股票的市值。synaptics紧随苹果进入指纹识别市场,领先的电脑和移动设备触摸接口制造商synaptics syna正在向不断增长的指纹识别市场扩张,这家总部位于圣何塞的公司吹嘘11月收购指纹识别公司的有效性传感器是其指纹识别不可或缺的一部分。 据ibm旗下的ibm智能商务公司周四发布的一份报告显示,在移动购物方面,苹果苹果( apple )移动设备的零售额是谷歌谷歌( google )、谷歌( google )、安卓( android )智能手机和平板电脑的5倍。 超高清曲线屏电视、可穿戴设备和消费d打印机都是下周拉斯维加斯消费电子展上被正式称为国际消费电子展的热门产品之一,预计将吸引更多的与会者参加。 苹果公司首席执行官蒂姆·库克( tim )曾谈到,对于苹果新产品(包括新产品)来说,今年将是令人兴奋的一年,但他有意模糊了行业分析人士对苹果未来一年新产品的预期,并做出了最好的猜测。

我已经手动声明了一个用于关键词提取的字典,但问题是,我无法从这个语料库中提取两个或更多的关键字出现或频率。任何建议

我的代码示例

这是我的语料库代码

代码语言:javascript
复制
corpus<-Corpus(DirSource("corpus"),readerControl=list(readPlain,language="en"))

这是我的字典

代码语言:javascript
复制
which_words<-Dictionary(c("move up","sale","stock goes up"))

这是我的匹配代码

代码语言:javascript
复制
total<-(DocumentTermMatrix(corpus,list(dictionary = which_words)))

这是我的结果

代码语言:javascript
复制
inspect(total)
       Terms
Docs   move up sale stock goes up
1.txt     0      1     0
EN

回答 1

Stack Overflow用户

发布于 2014-01-22 09:02:38

作为一种解决办法,您可以在一个单词中连接单词:

代码语言:javascript
复制
txt <- gsub("move up","moveup",txt)
txt <- gsub("goes up","goesup",txt)
txt <- gsub("goes down","goesdown",txt)

library(tm)

corpus <- Corpus(VectorSource(txt))
which_words <- c("moveup","sale","goesup","goesdown")
total <- DocumentTermMatrix(corpus,list(dictionary = which_words))
inspect(total)
Docs goesdown goesup moveup sale
   1        1      0      1    1

但是,最好是看到一些情绪分析软件包来做到这一点。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/21276848

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档