文章/答案/技术大牛

发布

社区首页 >问答首页 >CSV文件格式

问CSV文件格式
EN

Data Science用户

提问于 2015-02-03 23:49:30

回答 4查看 214关注 0票数 -1

我正在尝试建立一个基于回归的预测(比如预订网站)：预测每家酒店的点击率。

我必须生成一个包含两列的.csv文件：

hotel_id
predicted_number_of_clicks for all hotel_ids.

我的第一个问题是:我是否应该将hotel_id作为预测模型的特性？我想我必须放弃它..。对吗？

第二个问题是:如果从模型特性中删除hotel_id，我如何才能只在这2列中写入csv文件？

regression

predictive-modeling

回答 4

Data Science用户

发布于 2015-02-04 06:18:04

尝试使用酒店ID进行分类，就像试图根据学生的姓氏确定学生在考试中是否表现良好一样。你应该得到更多的东西，比如房间的数量，便利设施，位置，员工等等。这些都是你可以在分类器中使用的信息功能。

票数 1

Data Science用户

发布于 2015-02-04 09:28:16

当你训练模特的时候，你不需要使用旅馆的身份证。该模型需要从实例中学习。它只需要特征值和点击次数，所以它可以了解这些之间的关系。

一旦你训练好你的模型，你就可以用它来做一些看不见的例子。这些酒店有一个id和一组特征值。您的模型应该以id和特征值作为输入，但是它应该只使用特征值来进行预测。id应该保持在侧，这样它就可以与对输出csv文件的预测一起打印出来。

我希望这能帮到你!

票数 1

Data Science用户

发布于 2015-02-04 11:22:53

监督学习应该尝试“理解”是什么使酒店比其他酒店有更多的点击量。因此，学习试图定义哪些是某些特定酒店的特征，这些特征是否使其具有吸引力。所以它使用了一些相似之处，因为人们认为类似的酒店的行为方式是相似的。

现在，如果你把相似性限制在身份上，你就不会学到任何新的东西，因为酒店是独一无二的。事实上，这种学习者是存在的，被称为Rote学习者，它由输入到输出的一对一映射组成。这也被称为回忆录。如果要在特性中添加hotel_id，就会发生这种情况。不过，我认为您希望使用它来预测新酒店的点击率(它确实有一个不同于培训集的hotel_id )。

另一方面，为了使用hotel_id存储预测，只需保存原始数据集的副本即可。在学习时，您有一个训练数据集，从中删除hotel_id，并将其用于学习。

在预测时，您将复制数据集，供以后使用。从原始数据集中删除order_id，将其用于预测并获得结果。现在，预测的结果与复制的数据集具有相同的实例顺序。这种情况在python (scikit learn)、java (weka)、R.中肯定会发生。实际上，我不知道有一个不保留位置的系统。

现在，使用原始和预测副本中的位置，您可以将每个hotel_id与每个预测相关联，没有问题。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/5033

复制

相似问题

问CSV文件格式
EN

回答 4

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问CSV文件格式EN

回答 4

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问CSV文件格式
EN