我正在开发一个应用程序,它正在从旧的试题中创建一个数据库。我想要维护一个表格,将类似的问题在插入时连接在一起。(我想到的表是一个修改过的预排序遍历树)。
我的要求是:
任何关于如何在算法方面进行操作的想法都是非常感谢的。
此外,我将处理包含数学符号的图像。我应该确保我的所有图像都在'ALT‘属性中有LaTeX,以确保它们被这个算法处理得太过容易,还是有更好的方法来实现呢?
发布于 2012-07-20 07:18:56
听起来,当两个问题具有相同的句子结构时,你想要考虑两个问题的相似之处,在剔除了一系列你期望变化的句法模式之后。因此,这个问题看起来类似于在语料库中检测接近重复的文档的问题。
这样做的一种方法是一种称为“simhash”的技术;一种是获取(预处理)文档并计算simhash指纹。就像一个典型的散列,指纹有一个固定的大小,看起来像二进制胡言乱语。与典型的散列不同,文本相似的文档也会有相似的指纹。通过选择指纹可能不同的最大距离(Hamming),您可以定义您认为“相似”的文档(问题)集群。
然后,新问题的索引过程将如下所示:
这个书是一般信息检索的一个很好的入门。这是模拟纸。下面是一个计算simhashes的简单程序的命令页,如果您不想自己实现这个算法,这可能是一个很好的起点。
发布于 2012-07-20 06:41:55
你需要做的特征提取和阅读这一点。
数据挖掘的关键是预处理。您不能仅仅把硬盘扔在硬盘上,期望它找到有用的东西,但是您需要通过适当地预处理数据来指导搜索。这可能是90%的工作。所以请读一读特征提取!
https://stackoverflow.com/questions/11564527
复制相似问题