我正在做一个项目,以实时检测网络用户活动中的异常.必须实时检测用户的任何恶意或恶意活动。输入数据是用户的点击流数据。单击“数据包含用户ID(唯一用户ID)”、“URL (网页URL )”、“单击文本”(用户单击的网站中的文本/功能)和“信息”(用户键入的任何信息)。该项目类似于入侵检测系统(IDS)。我使用python 3.6,我有以下查询,
作为进行数据预处理的最佳方法,考虑到数据集中的所有属性都是分类的,可以应用热编码或标签编码等values.
我真的很困惑如何处理数据预处理。如有任何见解或建议,将不胜感激。
发布于 2021-08-12 09:42:39
在最近的一些个人和专业项目中,当面临将ML应用于流数据的挑战时,我在python https://github.com/online-ml/river方面取得了成功。
一些在线算法可以处理有标签的值(比如hoeffding ),因此,根据您想要实现的目标,您可能不需要执行preprocessing.
。
online_label_enc = {}
for click in click_stream:
try:
label_enc = click[click__feature_label_of_interest]
except KeyError:
click[click__feature_label_of_interest] = len(online_label_enc)
label_enc = click[click__feature_label_of_interest]https://stackoverflow.com/questions/68077588
复制相似问题