首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >基于兴趣的年龄分类特征工程

基于兴趣的年龄分类特征工程
EN

Data Science用户
提问于 2023-03-12 03:42:38
回答 1查看 25关注 0票数 0

我有一个包含用户(行)和他们兴趣列表(IAB)的数据集,如下所示

代码语言:javascript
复制
user_id | gender | list of interests
--------+--------+--------------------------------
user 1  | male   | games, productivity
user 2  | female | games, lifestyle, design
user 3  | male   | travel, games, messaging
user 4  | male   | messaging, blogging, lifestyle
...

由于独特兴趣的数量少(~500)和行数高(~67M),我应该遵循哪些特征工程实践,以获得一个ML模型得分更高的准确性?

P.S.:一次热/计数热矢量化的简单模型的准确率为52%。

EN

回答 1

Data Science用户

发布于 2023-03-12 18:29:07

下午好,‘theodre7’,看看你展示了什么,很难得到一个准确的答案。但如果能帮上忙我就开心了。

考虑到一个简单的模型,我在这个表中看到的是一个k近邻用户评级:

K近邻

因为它非常简单,它将对您的“兴趣列表”列非常有用,但是在构建模型之前,最好使用一个热点,这些特性转换列,我们将只有0\1。

OneHot

在性别专栏中,这也是有用的,但因为它有两个不同的数据,用一个替换方法,“男性”== 0和“女性”== 1。

如果你不想有一个单独的“兴趣清单”,那也是不够的,但利益会被更多地分开。

在这个处理之后,我将从我传递的第一个链接创建模型。阅读文档,您可以看到可能对您使用的选项。对于这些数据集。我在下面留下了一个链接,上面有关于K的解释,以帮助理解这个概念。

K近邻

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/120128

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档