我正试图用以色列国防军的分数在我相当大的文档库中找到有趣的短语。
基本上,我需要类似Amazon的统计上不可能的短语,即区分文档和所有其他文档的短语。
我遇到的问题是,在我的数据中有一些(3,4)-grams,这些数据有很高的以色列国防军,实际上是由成分单数和数值组成,而这些数值实际上是很低的。
例如,“你从来没有试过”有一个很高的以色列国防军,而每个组件单元组的以色列国防军很低。
我需要想出一个函数,它可以接收n克及其所有组件(n-k)-grams的文档频率,并返回一个更有意义的度量这个短语将从多大程度上区分父文档和其他文档。
如果我在处理概率问题,我会尝试插值或退避模型。我不知道这些模型利用什么假设/直觉来取得好成绩,也不知道它们对以色列国防军的得分有多大影响。
有人有更好的主意吗?
发布于 2010-06-11 07:31:10
我认为“你从来没有试过”是一个你不想提取的短语,但它有很高的以色列国防军。问题将是,将有大量的n克,只发生在一个文件,因此有最大的可能的以色列国防军得分。
在NLP中有很多平滑技术。本文[陈古德曼]是对其中许多问题的一个很好的总结。特别是,您可能对Kneser平滑算法感兴趣,该算法以建议的方式工作(后退到较低的长度n-克)。
这些方法通常用于语言建模的任务,即在语言语料库很大的情况下,估计出现一个n-图的概率。我真的不知道你怎么把他们和以色列国防军的分数结合起来,或者即使这是你真正想要做的。
https://stackoverflow.com/questions/3017455
复制相似问题