手边资料: 1000份问卷,包含一个有限的问题库,包括100个关于姓名、性别、收入等的问题。每个问卷包含10到30个问题。在不同的调查问卷中,某一问题的措辞仍然相同。这100个问题在数据库中有其独特的标签(Q1到Q100)。
任务:创建一个新的问卷。假设我知道哪些问题(比如20个问题,包括Q1,Q5,Q10,Q22等),我需要在新的问卷上问,我需要知道我应该把这些问题排序。
机器学习问题:如何从现有数据中学习模式来帮助自己在新的问卷中订购20个问题?
发布于 2022-05-10 18:28:31
一个简单但不准确的解决方案将计算现有数据上每个问题标签的顺序。假设Q1在现有数据上出现了300次,70%的时间是问卷上的第一个问题,所以我预测Q1在任何新的问卷上都会是1。
或者,我可以计算现有数据上每个问题的平均顺序。假设Q1的平均阶为2.53,Q10的平均阶为1.33。然后,当我创建一个包含Q1和Q10的新问卷时,Q1将放在Q10之后。
上述方法未能捕捉到问题之间的关系。例如,也许Q5总是出现在Q6之后。我希望算法能捕捉到这样的隐藏模式。
https://stackoverflow.com/questions/72191377
复制相似问题