我可能有个奇怪的问题。如果您正在处理多类分类问题,您是否总是已经确定了目标输出/标签?
例如,我有一个庞大的数据集,其中有许多关于不同城市地区(人口、人口密度、服务数量、银行等)的特征。我想根据这些特征对这些城市地区的物体(房屋、建筑物)进行分类,不管它们是否靠近市中心,比方说,我想在最后有3-5个标签。但我还不知道自己该怎么确定这些标签。是否有解决这一问题的具体办法?有类似的问题吗?请指教
早些时候,我计算了一些物体(如房屋)与城市中心点之间的距离(基于经纬度)。根据我产生的标签的距离。但是,当我们有不同规模的城市时,这种方法并不普遍。
我必须遵循可能没有监督的学习方法吗?进行聚类并找到集群。然后对聚类进行分析,给出所识别的聚类的意义。然后把这个问题作为一个多类分类问题来解决?
发布于 2019-11-28 12:14:16
你的问题与机器学习中的“无监督”学习有关。您没有具有训练数据的数据集--这意味着还不知道具有正确指定标签的数据点。
您可以尝试使用给定的功能对数据集进行分组/标记的不同方法。您可能需要自己检查您的模型是否“自动”-labeling您的数据正确。
https://datascience.stackexchange.com/questions/63907
复制相似问题