文章/答案/技术大牛

发布

社区首页 >问答首页 >标记重复项的贝叶斯过滤器

问标记重复项的贝叶斯过滤器
EN

Stack Overflow用户

提问于 2009-12-09 19:18:49

回答 2查看 202关注 0票数 2

我收集特定主题的新闻，然后对它们运行贝叶斯分类器，将它们标记为有趣或不有趣。我看到有新闻，不同的文章本质上是相同的新闻。本·金斯利携妻子参观泰姬玛哈--金斯利与妻子在泰姬的草坪上浪漫

我如何教系统将所有这些标记为重复的？

谢谢Sanjay

duplicates

bayesian

回答 2

Stack Overflow用户

回答已采纳

发布于 2009-12-09 19:46:37

有趣的想法。我猜这之前已经被研究过了，在一些comp-sci期刊上应该会找到一些很好的建议。话虽如此，以下是我的一些想法：

方法

您可以找到最独特的关键短语，并查看它们与其他文章中的关键短语的匹配程度。我想，google发布的关于网络上短语频率的数据会给你提供基准。

不知何故，你需要意识到“在”是一个非常常见的短语，但“金斯利访问”很重要。一旦你过滤了所有的文本，只剩下关键的短语，你就可以看到它们中有多少匹配。

关键短语：

删除所有动词、名词、名称和新奇(新的/拼写错误的)单词的集合

查看文章之间有多少个单词是匹配的。
有一个可控制的滑块来设置匹配阈值

如果你自己写这篇文章并不容易，但我想说这是一个非常有趣的问题领域。

示例

如果我们只是使用标题，并手把手地遵循方法。

本·金斯利和妻子参观泰吉玛哈将创建以下关键字：

本·Kingsley

Kingsley

Kingsley visits

wife

Mahal

...的
等等...

但这些内容应该删除，因为它们太常见了(因此无助于唯一标识内容)。

Ben
with妻子

一旦对另一个标题金斯利的妻子在泰晤士河草坪上的浪漫做了同样的事情，那么你可以比较并发现相当多的关键短语相互匹配。因此，他们在同一主题上。

尽管这已经是一项很大的任务，但您可以做很多事情来进一步匹配。

扩展

这些都是在关键字集合创建后对其进行裁剪的方法。

对于寻找"longer“和"extend”之间的匹配，

WordNet将是一个很好的开始。这将是有用的，因为文章不会使用相同的词典写作。
你可以对关键短语运行贝叶斯分类器。可以通过拥有所有匹配/非匹配文章及其关键短语的集合来训练它。你必须小心处理未见过的短语，因为这些可能是你遇到的最重要的事情。在isna key-phrase上运行可能会更好。
如果没有找到匹配的关键短语，那么计算一些关键短语之间的Levenshtein distance甚至可能是一个好主意。我猜很可能总会找到一些匹配项。

我有一种感觉，这是一个非常好的答案会给你一个PhD的事情之一。再说一次，我想before已经做到了(谷歌必须有一些自动的方法来抓取所有这些新闻网站，并将它们归入类别和类似的文章中)

祝你好运。

票数 4

Stack Overflow用户

发布于 2009-12-09 20:02:47

这是一个分类问题，但考虑到您将拥有的不同类的数量，这将变得更加困难。一种选择可能是使用 (more info)减小每个文档的大小。功能选择包括选择前n术语(不包括stop words，可能还会对每个单词应用stemming )。为此，为每个文档计算每个术语的 (more info)，按该数字对术语进行排序，并为每个文档选择前n个术语。每个文档的前n个术语的缩减特征集现在可以形成用于执行重复选择的基础(例如，如果在任何文档之间存在多于x%个公共术语，则再次通过反向测试计算x)，

在information retrieval上的这本免费书籍中涵盖了大部分内容。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/1873225

复制

相似问题

问标记重复项的贝叶斯过滤器
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问标记重复项的贝叶斯过滤器EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问标记重复项的贝叶斯过滤器
EN