文章/答案/技术大牛

发布

问webcorpus语料库属性提取
EN

Stack Overflow用户

提问于 2014-07-20 13:14:28

回答 1查看 499关注 0票数 1

我正在使用tm.plugin.webmining获取关于一家公司的最新消息，比如使用以下命令

corpus<-WebCorpus(GoogleBlogSearchSource(stock))

当我运行meta(corpus[1])时

元数据：作者:人物(0)日期戳: 2014-07-17 20:28:10微软裁员StockInvestorplace.comWhileƒƒ，圣保罗，ƒ，欧元，圣保罗，圣保罗，“微软裁员对员工来说意味着什么？作为投资者，我们仍然需要理性和客观地看待微软，看看它对微软的...Whyƒƒ，ƒ，欧元，ƒ，以及“特别是如果你个人是微软的股票持有者-微软的股票Facebook ...International ...International TimesWhat Do Microsoft的裁员计划告诉我们萨蒂亚纳德拉的愿景?莫特利FoolTech内幕-Insider Monkey (博客)所有2,176篇新闻文章标题:微软裁员计划

在这里，我看到不同的属性在这里，但是当我运行

Headers<-sapply(meta(corpus,FUN=function(x){attr(x,"heading")})

Header是一个包含100个空值项的列表。我很确定这个特定的代码几天前就已经运行了。之间的变化是，我在新系统上重新安装了软件包，并将R更新为3.1.1，而不是R3.1.0(更早)。

我能做些什么来获得单独的标题列表、描述时间戳等等，然后我想把它们转换成100X3数据帧。

corpus

attributes

text-mining

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-12-29 09:17:54

使用最新的R，请尝试以下代码：

代码：

headers<-meta(corpus,tag="heading")

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/24850856

复制

相似问题

问webcorpus语料库属性提取
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问webcorpus语料库属性提取EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问webcorpus语料库属性提取
EN