首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >CSV文件格式

CSV文件格式
EN

Data Science用户
提问于 2015-02-03 23:49:30
回答 4查看 214关注 0票数 -1

我正在尝试建立一个基于回归的预测(比如预订网站):预测每家酒店的点击率。

我必须生成一个包含两列的.csv文件:

  • hotel_id
  • predicted_number_of_clicks for all hotel_ids.

我的第一个问题是:我是否应该将hotel_id作为预测模型的特性?我想我必须放弃它..。对吗?

第二个问题是:如果从模型特性中删除hotel_id,我如何才能只在这2列中写入csv文件?

EN

回答 4

Data Science用户

发布于 2015-02-04 06:18:04

尝试使用酒店ID进行分类,就像试图根据学生的姓氏确定学生在考试中是否表现良好一样。你应该得到更多的东西,比如房间的数量,便利设施,位置,员工等等。这些都是你可以在分类器中使用的信息功能。

票数 1
EN

Data Science用户

发布于 2015-02-04 09:28:16

当你训练模特的时候,你不需要使用旅馆的身份证。该模型需要从实例中学习。它只需要特征值和点击次数,所以它可以了解这些之间的关系。

一旦你训练好你的模型,你就可以用它来做一些看不见的例子。这些酒店有一个id和一组特征值。您的模型应该以id和特征值作为输入,但是它应该只使用特征值来进行预测。id应该保持在侧,这样它就可以与对输出csv文件的预测一起打印出来。

我希望这能帮到你!

票数 1
EN

Data Science用户

发布于 2015-02-04 11:22:53

监督学习应该尝试“理解”是什么使酒店比其他酒店有更多的点击量。因此,学习试图定义哪些是某些特定酒店的特征,这些特征是否使其具有吸引力。所以它使用了一些相似之处,因为人们认为类似的酒店的行为方式是相似的。

现在,如果你把相似性限制在身份上,你就不会学到任何新的东西,因为酒店是独一无二的。事实上,这种学习者是存在的,被称为Rote学习者,它由输入到输出的一对一映射组成。这也被称为回忆录。如果要在特性中添加hotel_id,就会发生这种情况。不过,我认为您希望使用它来预测新酒店的点击率(它确实有一个不同于培训集的hotel_id )。

另一方面,为了使用hotel_id存储预测,只需保存原始数据集的副本即可。在学习时,您有一个训练数据集,从中删除hotel_id,并将其用于学习。

在预测时,您将复制数据集,供以后使用。从原始数据集中删除order_id,将其用于预测并获得结果。现在,预测的结果与复制的数据集具有相同的实例顺序。这种情况在python (scikit learn)、java (weka)、R.中肯定会发生。实际上,我不知道有一个不保留位置的系统。

现在,使用原始和预测副本中的位置,您可以将每个hotel_id与每个预测相关联,没有问题。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/5033

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档