拥有来自不同列表站点的多个类别(例如Yelp、yellowpages.com、Google .)。我想弄清楚一个站点上的X类是在另一个站点上的。
我们在所有的网站上都有成千上万的企业和分类,所以我们可以看到,"Galbi Foo Restaurant“在一个网站上属于”餐馆>韩国餐厅“,而”餐馆“在另一个网站上。
一些必须发生的类别映射示例:
我从哪里开始解决这个问题?这似乎是一个分类(logistic回归)问题。但是这个ML的东西还没有和我一起点击,所以我很可能会让这些事情变得更复杂:)。
发布于 2016-04-11 17:05:12
这听起来像是一个标准的监督学习问题。在这种情况下,您的记录将是站点X上的业务,其实际类别是Z站点上的实际类别。您的预测器将是站点X上的特定业务的标记/类别,而您的目标变量y(即您试图预测的内容)将是另一个网站上的类别。就代码而言,根据您喜欢的语言,您有各种各样的选项。您可以在Java/Scala中使用R中的插入符号包、Python中的scikit学习库或Weka库(甚至可能因为它的简单性而使用Spark的ML lib )。
请注意,在你的问题中,我认为你是说“逻辑回归”而不是“逻辑回归”。您不需要使用逻辑回归(虽然不会有什么影响)。你也可以尝试像随机森林或朴素贝叶斯这样的算法。
同样值得注意的是:您的目标变量将有许多类(即您试图预测的站点的每个可能的类别),因此,如果似乎有很多类,请不要惊慌。对于你所描述的问题来说,这是正常的。
https://datascience.stackexchange.com/questions/11146
复制相似问题