我有一个包含用户(行)和他们兴趣列表(IAB)的数据集,如下所示
user_id | gender | list of interests
--------+--------+--------------------------------
user 1 | male | games, productivity
user 2 | female | games, lifestyle, design
user 3 | male | travel, games, messaging
user 4 | male | messaging, blogging, lifestyle
...由于独特兴趣的数量少(~500)和行数高(~67M),我应该遵循哪些特征工程实践,以获得一个ML模型得分更高的准确性?
P.S.:一次热/计数热矢量化的简单模型的准确率为52%。
发布于 2023-03-12 18:29:07
下午好,‘theodre7’,看看你展示了什么,很难得到一个准确的答案。但如果能帮上忙我就开心了。
考虑到一个简单的模型,我在这个表中看到的是一个k近邻用户评级:
因为它非常简单,它将对您的“兴趣列表”列非常有用,但是在构建模型之前,最好使用一个热点,这些特性转换列,我们将只有0\1。
在性别专栏中,这也是有用的,但因为它有两个不同的数据,用一个替换方法,“男性”== 0和“女性”== 1。
如果你不想有一个单独的“兴趣清单”,那也是不够的,但利益会被更多地分开。
在这个处理之后,我将从我传递的第一个链接创建模型。阅读文档,您可以看到可能对您使用的选项。对于这些数据集。我在下面留下了一个链接,上面有关于K的解释,以帮助理解这个概念。
https://datascience.stackexchange.com/questions/120128
复制相似问题