开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >基于兴趣的年龄分类特征工程

问基于兴趣的年龄分类特征工程
EN

Data Science用户

提问于 2023-03-12 03:42:38

回答 1查看 25关注 0票数 0

我有一个包含用户(行)和他们兴趣列表(IAB)的数据集，如下所示

user_id | gender | list of interests
--------+--------+--------------------------------
user 1  | male   | games, productivity
user 2  | female | games, lifestyle, design
user 3  | male   | travel, games, messaging
user 4  | male   | messaging, blogging, lifestyle
...

由于独特兴趣的数量少(~500)和行数高(~67M)，我应该遵循哪些特征工程实践，以获得一个ML模型得分更高的准确性？

P.S.：一次热/计数热矢量化的简单模型的准确率为52%。

machine-learning

feature-selection

feature-engineering

EN

回答 1

Data Science用户

发布于 2023-03-12 18:29:07

下午好，‘theodre7’，看看你展示了什么，很难得到一个准确的答案。但如果能帮上忙我就开心了。

考虑到一个简单的模型，我在这个表中看到的是一个k近邻用户评级：

因为它非常简单，它将对您的“兴趣列表”列非常有用，但是在构建模型之前，最好使用一个热点，这些特性转换列，我们将只有0\1。

在性别专栏中，这也是有用的，但因为它有两个不同的数据，用一个替换方法，“男性”== 0和“女性”== 1。

如果你不想有一个单独的“兴趣清单”，那也是不够的，但利益会被更多地分开。

在这个处理之后，我将从我传递的第一个链接创建模型。阅读文档，您可以看到可能对您使用的选项。对于这些数据集。我在下面留下了一个链接，上面有关于K的解释，以帮助理解这个概念。

票数 0

EN

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/120128

复制

相似问题