我对此很陌生,但我想我是在寻找K-的方法来做这个。
我有一堆带有标签的对象(很多)。他们的其他特征都不重要。我知道相似的对象有相似的标签,它们可以被归类为“类别”。我想知道这些类别是什么(使用k-意思?)。标签看起来像..。
你‘品味’,你‘健康’,你‘食谱’,你‘’vietnam‘,你’蛋‘,你’汤‘,.
你‘孩子’,你‘品味’,你‘健康’,你‘学校’,你‘食谱’,你‘家庭’,.
你的饮食,你的舌头,你的健康,你的美,你的头发,.
你‘锻炼’,你‘比萨诺’‘,’你‘体重’‘,’‘你’减肥‘,.
当使用k-方法时,有关于字符串列表的教程或指南吗?命令不重要。我希望结果能够返回,也许是一组成群的标签?它就是这样工作的吗?谢谢你!!
发布于 2017-06-30 07:21:09
K-均值是基于方差最小化的。
它试图最小化与平均值的平方偏差之和。
正因为如此,它只适用于连续的数值变量,在那里你可以计算平均值。
人们试图将其他数据嵌入到0,1向量中,但通常结果非常糟糕,而且您无法很好地解释结果。
对你的任务来说,“刻薄”并不是一个非常合适的模型。也许更愿意看看频繁项集(或者在您的例子中:频繁标记集)
https://stackoverflow.com/questions/44837902
复制相似问题