首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >点击流数据的实时预处理

点击流数据的实时预处理
EN

Stack Overflow用户
提问于 2021-06-22 04:34:15
回答 1查看 118关注 0票数 0

我正在做一个项目,以实时检测网络用户活动中的异常.必须实时检测用户的任何恶意或恶意活动。输入数据是用户的点击流数据。单击“数据包含用户ID(唯一用户ID)”、“URL (网页URL )”、“单击文本”(用户单击的网站中的文本/功能)和“信息”(用户键入的任何信息)。该项目类似于入侵检测系统(IDS)。我使用python 3.6,我有以下查询,

作为进行数据预处理的最佳方法,考虑到数据集中的所有属性都是分类的,可以应用热编码或标签编码等values.

  • Encoding方法,但必须对数据进行实时处理,因此很难按照项目3列(单击URL、单击文本和类型化信息)的要求应用

我真的很困惑如何处理数据预处理。如有任何见解或建议,将不胜感激。

EN

回答 1

Stack Overflow用户

发布于 2021-08-12 09:42:39

在最近的一些个人和专业项目中,当面临将ML应用于流数据的挑战时,我在python https://github.com/online-ml/river方面取得了成功。

一些在线算法可以处理有标签的值(比如hoeffding ),因此,根据您想要实现的目标,您可能不需要执行preprocessing.

  1. 如果确实需要进行预处理,则可以以增量方式应用标签编码和热编码。下面是一些让你开始的代码。River还有许多类可以帮助进行特征提取和特征选择,例如: TF-IDF、单词袋或频率聚合。

代码语言:javascript
复制
online_label_enc = {}

for click in click_stream:
    try:
        label_enc = click[click__feature_label_of_interest]
    except KeyError:
        click[click__feature_label_of_interest] = len(online_label_enc)
        label_enc = click[click__feature_label_of_interest]

  1. 我不知道您在问什么,但是如果您正在在线/增量地处理问题,那么提取您想要的特征并将它们传递给您所选择的在线算法,然后在每一个数据增量中进行更新和学习。
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/68077588

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档