我正在使用tm.plugin.webmining获取关于一家公司的最新消息,比如使用以下命令
corpus<-WebCorpus(GoogleBlogSearchSource(stock))当我运行meta(corpus[1])时
元数据: 作者:人物(0)日期戳: 2014-07-17 20:28:10微软裁员StockInvestorplace.comWhileƒƒ,圣保罗,ƒ,欧元,圣保罗,圣保罗,“微软裁员对员工来说意味着什么?作为投资者,我们仍然需要理性和客观地看待微软,看看它对微软的...Whyƒƒ,ƒ,欧元,ƒ,以及“特别是如果你个人是微软的股票持有者-微软的股票Facebook ...International ...International TimesWhat Do Microsoft的裁员计划告诉我们萨蒂亚纳德拉的愿景?莫特利FoolTech内幕-Insider Monkey (博客)所有2,176篇新闻文章标题:微软裁员计划
在这里,我看到不同的属性在这里,但是当我运行
Headers<-sapply(meta(corpus,FUN=function(x){attr(x,"heading")})Header是一个包含100个空值项的列表。我很确定这个特定的代码几天前就已经运行了。之间的变化是,我在新系统上重新安装了软件包,并将R更新为3.1.1,而不是R3.1.0(更早)。
我能做些什么来获得单独的标题列表、描述时间戳等等,然后我想把它们转换成100X3数据帧。
发布于 2014-12-29 09:17:54
使用最新的R,请尝试以下代码:
代码:
headers<-meta(corpus,tag="heading")https://stackoverflow.com/questions/24850856
复制相似问题