假设我们有10年级学生的数据,我们的考试成绩从0到100不等,但是我们只提供了两个标签:高分=如果score>为80%,低分为< 80%。
假设我们训练了一个基于树的分类器,模型也会学习插值吗?当一棵经过校准的树确信一个记录( A )是低复杂度,而另一个记录(B)是40%时,我们能说记录B可能比记录A有更高的分数吗?
我们如何在没有明确提供绝对分数的情况下训练一个模型来学习这一点?
编辑 -假设您可以自由地获取所需的所有输入特性。例:家庭收入,学习时间等在培训组。
发布于 2022-08-30 21:08:39
根据数据和模型的拟合,信心分数有可能代表(相对)预测业绩。但是,您不能保证您所描述的关系会发生。
即使发生了与此有关的一些关系,信心分数也不容易解释。在最好的情况下,你可能能够产生一个粗略的排序考试成绩,这可能会产生合理的结果的总和。它不太可能适合直接比较两个样本,或估计绝对考试分数。
如果提供更多关于所需用例的信息,将更容易进行进一步的评论。还请注意,如果您的模型适用于培训集,那么这就不太可能有效。
发布于 2022-08-30 08:41:18
你是说你把这个作为数据吗?
import numpy as np
import pandas as pd
df = pd.DataFrame()
df['student'] = [f'student_{i}' for i in range (10)]
df['maths'] = np.random.choice(['high score', 'low score'], size=10)
df['chemsitry'] = np.random.choice(['high score', 'low score'], size=10)
df['physics'] = np.random.choice(['high score', 'low score'], size=10)
df也就是说:

如果是的话,我认为你不能做机器学习,因为没有任何特点可以训练。在这种情况下,你真正能做的就是为每个人取低/高百分比并进行比较(或者可能是做比率)。
https://datascience.stackexchange.com/questions/113938
复制相似问题