我收集特定主题的新闻,然后对它们运行贝叶斯分类器,将它们标记为有趣或不有趣。我看到有新闻,不同的文章本质上是相同的新闻。本·金斯利携妻子参观泰姬玛哈--金斯利与妻子在泰姬的草坪上浪漫
我如何教系统将所有这些标记为重复的?
谢谢Sanjay
发布于 2009-12-09 19:46:37
有趣的想法。我猜这之前已经被研究过了,在一些comp-sci期刊上应该会找到一些很好的建议。话虽如此,以下是我的一些想法:
方法
您可以找到最独特的关键短语,并查看它们与其他文章中的关键短语的匹配程度。我想,google发布的关于网络上短语频率的数据会给你提供基准。
不知何故,你需要意识到“在”是一个非常常见的短语,但“金斯利访问”很重要。一旦你过滤了所有的文本,只剩下关键的短语,你就可以看到它们中有多少匹配。
关键短语:
删除所有动词、名词、名称和新奇(新的/拼写错误的)单词的集合
如果你自己写这篇文章并不容易,但我想说这是一个非常有趣的问题领域。
示例
如果我们只是使用标题,并手把手地遵循方法。
本·金斯利和妻子参观泰吉玛哈将创建以下关键字:
本·Kingsley
但这些内容应该删除,因为它们太常见了(因此无助于唯一标识内容)。
一旦对另一个标题金斯利的妻子在泰晤士河草坪上的浪漫做了同样的事情,那么你可以比较并发现相当多的关键短语相互匹配。因此,他们在同一主题上。
尽管这已经是一项很大的任务,但您可以做很多事情来进一步匹配。
扩展
这些都是在关键字集合创建后对其进行裁剪的方法。
对于寻找"longer“和"extend”之间的匹配,
我有一种感觉,这是一个非常好的答案会给你一个PhD的事情之一。再说一次,我想before已经做到了(谷歌必须有一些自动的方法来抓取所有这些新闻网站,并将它们归入类别和类似的文章中)
祝你好运。
发布于 2009-12-09 20:02:47
这是一个分类问题,但考虑到您将拥有的不同类的数量,这将变得更加困难。一种选择可能是使用 (more info)减小每个文档的大小。功能选择包括选择前n术语(不包括stop words,可能还会对每个单词应用stemming )。为此,为每个文档计算每个术语的 (more info),按该数字对术语进行排序,并为每个文档选择前n个术语。每个文档的前n个术语的缩减特征集现在可以形成用于执行重复选择的基础(例如,如果在任何文档之间存在多于x%个公共术语,则再次通过反向测试计算x),
在information retrieval上的这本免费书籍中涵盖了大部分内容。
https://stackoverflow.com/questions/1873225
复制相似问题