我正在考虑在信息检索上下文中构建框架的问题。
我有一系列具有不同属性的文档。在网络环境中,这些都是网页。一个属性可能是“这是前10名的内容创建者吗?”等等。当我们将多个标记值转换为二进制指示符时,我们最终得到一个矩阵,如:
a b c d e f
A: 1 0 0 0 1 0
B: 0 1 0 0 1 0
C: 0 0 1 0 0 0
D: 0 1 0 0 0 1
E: 0 0 0 0 1 0
F: 0 0 1 0 0 1我们可以向用户询问一系列关于他们在这个数据集中的首选项的累进问题。例如:“你关心它来自前十名的内容创建者吗?”
然而,这些只是偏好。仅仅因为我们知道问题的“答案”,并不能立即使带有该属性的文档失效。在最终的排名中,它应该会把它打倒。
手边的任务变成知道A)要问哪些问题来最大限度地获取信息,以及B)对结果列表进行排序。这似乎是一个现有的研究领域,但到目前为止,我还没有在它上找到任何东西。这个算法设计领域有名字吗?
发布于 2018-07-10 00:22:39
这是一个学习排序问题,特别是用于学习排名的特性选择。
解决这个问题有很多种方法。一种常见的方法是最大化特征的重要性,同时最小化相似度。换句话说,基于最有价值和最独特的特性对文档进行排序。这是mRMR(最小冗余-最大相关性)特征选择mRMR(最小冗余-最大相关性)特征选择的一个变种。
为了使特征重要性最大化,首先使用所有特征对所有文档进行排序,使用评估度量来评估绩效,并显示具有最高重要分数的文档。
若要最小化相似性,请查找冗余最少的特性。冗余度可以度量为每个特征对之间所有相互信息值的平均值。
"排序的特征选择“会有更多细节。
一旦使用mRMR对这些特性进行排序,用户就可以选择特定的特性。然后根据用户选择的特征重新排序文档。
https://datascience.stackexchange.com/questions/34114
复制相似问题