首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >R:是否可以用quanteda或任何其他文本挖掘R包来计算单词的突发性?

R:是否可以用quanteda或任何其他文本挖掘R包来计算单词的突发性?
EN

Stack Overflow用户
提问于 2018-06-03 13:20:22
回答 1查看 163关注 0票数 1

我们使用的术语/词汇归纳从文本语料库突飞猛进。

我们目前已经实现了一个R脚本,该脚本基于以下文章2.6节中描述的毛刺相似性公式之一: Ann和(2017)。双语词汇归纳的综合分析。计算语言学,第43卷,第2期,2017年6月,第273至310页。00284

据我所知,Katz是最早使用快速性概念进行语言建模的科学家之一(见Justeson,J. S.和Katz,S. M. (1995)。技术术语:一些语言特性和一种文本识别算法。自然语言工程,1:9-27;Katz,S. (1996)。内容词和短语在文本和语言modelling.Natural语言工程中的分布,2(1):15-60.

我们希望使用现成的快速实现来比较和评估我们的脚本。

我想知道在文本语料库中是否存在识别突发词的R包或R函数。我特别感兴趣的是基于全德达的任何解决方案,因为泉泰达是一套非常通用的文本统计软件包。

到目前为止,我发现的唯一的R包是包“爆发”(2015年2月19日),它实现了Kleinberg的爆发力。Kleinberg的突发检测算法“识别目标事件异常频繁或”突发“的时间段,这不是我所需要的,因为这种方法是基于时间序列的。

非常感谢您的帮助,建议,参考。

干杯,玛丽娜

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-06-03 16:46:12

我还没有发现很多与文本分析相关的关于突发性的公开引用。我确实遇到了书面文本统计特性的建模

如果我从你提供的文章中正确地阅读了2.6节中的公式,那么它就是单词除以单词出现的文档百分比的相对比例。

我曾希望使用dfm_tfidf函数将我带到那里。但是函数的scheme_df部分没有比例文档频率选项。

但是我们可以利用quanteda现有功能的一部分把所有的东西组合在一起。

假设我们有一个名为"docfm“的文档特性矩阵(dfm)。然后台阶是这样的

  1. 这些术语的相对比例可以用dfm_weight(docfm, scheme = "prop")计算。
  2. 得到的比例文档频率是docfreq(docfm) / ndocs(docfm)

现在进行矩阵除法计算。applysweep都能工作。apply将返回一个矩阵,需要转换,扫描将返回一个dgeMatrix。在这两种情况下,您都可以用as.dfm将它们转换回一个as.dfm。不幸的是,两者都是密集矩阵,因此您可能需要考虑到这一点。把这一切结合在一起:

使用apply

代码语言:javascript
复制
t(apply(X = dfm_weight(docfm, scheme = "prop"), 1, "/",  (docfreq(docfm) / ndoc(docfm))))

使用sweep

代码语言:javascript
复制
sweep(dfm_weight(docfm, scheme = "prop"), MARGIN = 2, STATS = docfreq(docfm) / ndoc(docfm), FUN = "/")
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50666860

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档