文章/答案/技术大牛

发布

社区首页 >问答首页 >R:是否可以用quanteda或任何其他文本挖掘R包来计算单词的突发性？

问R:是否可以用quanteda或任何其他文本挖掘R包来计算单词的突发性？
EN

Stack Overflow用户

提问于 2018-06-03 13:20:22

回答 1查看 163关注 0票数 1

我们使用的术语/词汇归纳从文本语料库突飞猛进。

我们目前已经实现了一个R脚本，该脚本基于以下文章2.6节中描述的毛刺相似性公式之一: Ann和(2017)。双语词汇归纳的综合分析。计算语言学，第43卷，第2期，2017年6月，第273至310页。00284

据我所知，Katz是最早使用快速性概念进行语言建模的科学家之一(见Justeson，J. S.和Katz，S. M. (1995)。技术术语:一些语言特性和一种文本识别算法。自然语言工程，1:9-27；Katz，S. (1996)。内容词和短语在文本和语言modelling.Natural语言工程中的分布，2(1)：15-60.

我们希望使用现成的快速实现来比较和评估我们的脚本。

我想知道在文本语料库中是否存在识别突发词的R包或R函数。我特别感兴趣的是基于全德达的任何解决方案，因为泉泰达是一套非常通用的文本统计软件包。

到目前为止，我发现的唯一的R包是包“爆发”(2015年2月19日)，它实现了Kleinberg的爆发力。Kleinberg的突发检测算法“识别目标事件异常频繁或”突发“的时间段，这不是我所需要的，因为这种方法是基于时间序列的。

非常感谢您的帮助，建议，参考。

干杯，玛丽娜

text-mining

quanteda

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-06-03 16:46:12

我还没有发现很多与文本分析相关的关于突发性的公开引用。我确实遇到了书面文本统计特性的建模。

如果我从你提供的文章中正确地阅读了2.6节中的公式，那么它就是单词除以单词出现的文档百分比的相对比例。

我曾希望使用dfm_tfidf函数将我带到那里。但是函数的scheme_df部分没有比例文档频率选项。

但是我们可以利用quanteda现有功能的一部分把所有的东西组合在一起。

假设我们有一个名为"docfm“的文档特性矩阵(dfm)。然后台阶是这样的

这些术语的相对比例可以用dfm_weight(docfm, scheme = "prop")计算。
得到的比例文档频率是docfreq(docfm) / ndocs(docfm)。

现在进行矩阵除法计算。apply或sweep都能工作。apply将返回一个矩阵，需要转换，扫描将返回一个dgeMatrix。在这两种情况下，您都可以用as.dfm将它们转换回一个as.dfm。不幸的是，两者都是密集矩阵，因此您可能需要考虑到这一点。把这一切结合在一起：

使用apply

t(apply(X = dfm_weight(docfm, scheme = "prop"), 1, "/",  (docfreq(docfm) / ndoc(docfm))))

使用sweep

sweep(dfm_weight(docfm, scheme = "prop"), MARGIN = 2, STATS = docfreq(docfm) / ndoc(docfm), FUN = "/")

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50666860

复制

相似问题

问R:是否可以用quanteda或任何其他文本挖掘R包来计算单词的突发性？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问R:是否可以用quanteda或任何其他文本挖掘R包来计算单词的突发性？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问R:是否可以用quanteda或任何其他文本挖掘R包来计算单词的突发性？
EN