我正在使用tidytext挖掘一些金融文章,我从路透社下载数据,但是当我试图将每个语料库转换成一个数据框架时,我会发现unnest命令不接受函数作为输入的一些错误。
你有别的办法让它变成老虎吗?
library(tm.plugin.webmining)
library(purrr)
company <- c("Microsoft", "Apple", "Google", "Amazon", "Facebook",
"Twitter", "IBM", "Yahoo", "Netflix")
symbol <- c("MSFT", "AAPL", "GOOG", "AMZN", "FB", "TWTR", "IBM", "YHOO", "NFLX")
download_articles <- function(symbol) {
WebCorpus(ReutersNewsSource(paste0("NASDAQ:", symbol)))
}
stock_articles <- data_frame(company = company, symbol = symbol) %>%
mutate(corpus = map(symbol, download_articles))
stock_articles
stock_tokens <- stock_articles %>%
unnest(map(corpus, tidy)) %>%
unnest_tokens(word, text) %>%
select(company, datetimestamp, word, id, heading)
stock_tokens发布于 2020-01-27 14:34:45
不幸的是,这里发生的情况是有些服务已经过时,tm.plugin.webmining已经过时。你可以读一些这里有更多的细节。我们正在为我们的书的这一部分寻找一个替代数据集,但同时,如果您想探索使用这段代码,我建议剥离到,比方说,4家似乎还在工作的公司。
symbol <- c("MSFT", "AAPL", "AMZN", "IBM")发布于 2020-01-22 14:51:20
我正在尝试将stock_articles的语料库列转换成一个常规的数据框架
它是一个具有WebCorpus类型变量的列表列,因此我尝试整理每个观察结果,然后使用unnest将其转换为列。
1:https://github.com/leytigeorges/miningfinancial在这里您可以找到一个带有数据的文件(mydata)
https://stackoverflow.com/questions/59844240
复制相似问题