首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >webcorpus语料库属性提取

webcorpus语料库属性提取
EN

Stack Overflow用户
提问于 2014-07-20 13:14:28
回答 1查看 499关注 0票数 1

我正在使用tm.plugin.webmining获取关于一家公司的最新消息,比如使用以下命令

代码语言:javascript
复制
corpus<-WebCorpus(GoogleBlogSearchSource(stock))

当我运行meta(corpus[1])

元数据: 作者:人物(0)日期戳: 2014-07-17 20:28:10微软裁员StockInvestorplace.comWhileƒƒ,圣保罗,ƒ,欧元,圣保罗,圣保罗,“微软裁员对员工来说意味着什么?作为投资者,我们仍然需要理性和客观地看待微软,看看它对微软的...Whyƒƒ,ƒ,欧元,ƒ,以及“特别是如果你个人是微软的股票持有者-微软的股票Facebook ...International ...International TimesWhat Do Microsoft的裁员计划告诉我们萨蒂亚纳德拉的愿景?莫特利FoolTech内幕-Insider Monkey (博客)所有2,176篇新闻文章标题:微软裁员计划

在这里,我看到不同的属性在这里,但是当我运行

代码语言:javascript
复制
Headers<-sapply(meta(corpus,FUN=function(x){attr(x,"heading")})

Header是一个包含100个空值项的列表。我很确定这个特定的代码几天前就已经运行了。之间的变化是,我在新系统上重新安装了软件包,并将R更新为3.1.1,而不是R3.1.0(更早)。

我能做些什么来获得单独的标题列表、描述时间戳等等,然后我想把它们转换成100X3数据帧。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-12-29 09:17:54

使用最新的R,请尝试以下代码:

代码:

代码语言:javascript
复制
headers<-meta(corpus,tag="heading")
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/24850856

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档