我有一个任务,在这个任务中,我们必须对烹饪进行分类,并且根据给定的输入还给出前五名的食谱。我对以下数据进行了计数矢量化(countVectorize.transformer()),然后使用Jaccard的距离来计算最接近的匹配。这种方法是对的,还是有更好的距离度量来达到我的目的?
数据集:https://www.kaggle.com/c/whats-cooking/data
{ "id":24717,“烹饪”:“印度”,“配料”:“数字”、“蔬菜汤”、“西红柿”、“大蒜”、“纳恩”、“红扁豆”、“红辣椒”、“洋葱”、“菠菜”、“红薯” },
发布于 2021-07-09 01:58:04
因为成分可以转换成集合中的元素,所以可以直接使用Jaccard距离。没有必要先计算向量化。
另一种选择是使用预先训练过的单词嵌入。结果将是一个表示每个单词的密集向量。然后可以使用任何Minkowski距离或余弦距离。
https://datascience.stackexchange.com/questions/31749
复制相似问题