我们使用的术语/词汇归纳从文本语料库突飞猛进。
我们目前已经实现了一个R脚本,该脚本基于以下文章2.6节中描述的毛刺相似性公式之一: Ann和(2017)。双语词汇归纳的综合分析。计算语言学,第43卷,第2期,2017年6月,第273至310页。00284
据我所知,Katz是最早使用快速性概念进行语言建模的科学家之一(见Justeson,J. S.和Katz,S. M. (1995)。技术术语:一些语言特性和一种文本识别算法。自然语言工程,1:9-27;Katz,S. (1996)。内容词和短语在文本和语言modelling.Natural语言工程中的分布,2(1):15-60.
我们希望使用现成的快速实现来比较和评估我们的脚本。
我想知道在文本语料库中是否存在识别突发词的R包或R函数。我特别感兴趣的是基于全德达的任何解决方案,因为泉泰达是一套非常通用的文本统计软件包。
到目前为止,我发现的唯一的R包是包“爆发”(2015年2月19日),它实现了Kleinberg的爆发力。Kleinberg的突发检测算法“识别目标事件异常频繁或”突发“的时间段,这不是我所需要的,因为这种方法是基于时间序列的。
非常感谢您的帮助,建议,参考。
干杯,玛丽娜
发布于 2018-06-03 16:46:12
我还没有发现很多与文本分析相关的关于突发性的公开引用。我确实遇到了书面文本统计特性的建模。
如果我从你提供的文章中正确地阅读了2.6节中的公式,那么它就是单词除以单词出现的文档百分比的相对比例。
我曾希望使用dfm_tfidf函数将我带到那里。但是函数的scheme_df部分没有比例文档频率选项。
但是我们可以利用quanteda现有功能的一部分把所有的东西组合在一起。
假设我们有一个名为"docfm“的文档特性矩阵(dfm)。然后台阶是这样的
dfm_weight(docfm, scheme = "prop")计算。docfreq(docfm) / ndocs(docfm)。现在进行矩阵除法计算。apply或sweep都能工作。apply将返回一个矩阵,需要转换,扫描将返回一个dgeMatrix。在这两种情况下,您都可以用as.dfm将它们转换回一个as.dfm。不幸的是,两者都是密集矩阵,因此您可能需要考虑到这一点。把这一切结合在一起:
使用apply
t(apply(X = dfm_weight(docfm, scheme = "prop"), 1, "/", (docfreq(docfm) / ndoc(docfm))))使用sweep
sweep(dfm_weight(docfm, scheme = "prop"), MARGIN = 2, STATS = docfreq(docfm) / ndoc(docfm), FUN = "/")https://stackoverflow.com/questions/50666860
复制相似问题