文章/答案/技术大牛

发布

社区首页 >问答首页 >点击流数据的实时预处理

问点击流数据的实时预处理
EN

Stack Overflow用户

提问于 2021-06-22 04:34:15

回答 1查看 118关注 0票数 0

我正在做一个项目，以实时检测网络用户活动中的异常.必须实时检测用户的任何恶意或恶意活动。输入数据是用户的点击流数据。单击“数据包含用户ID(唯一用户ID)”、“URL (网页URL )”、“单击文本”(用户单击的网站中的文本/功能)和“信息”(用户键入的任何信息)。该项目类似于入侵检测系统(IDS)。我使用python 3.6，我有以下查询，

作为进行数据预处理的最佳方法，考虑到数据集中的所有属性都是分类的，可以应用热编码或标签编码等values.

Encoding方法，但必须对数据进行实时处理，因此很难按照项目3列(单击URL、单击文本和类型化信息)的要求应用

我真的很困惑如何处理数据预处理。如有任何见解或建议，将不胜感激。

pandas

python-3.6

real-time-data

data-preprocessing

clickstream

回答 1

Stack Overflow用户

发布于 2021-08-12 09:42:39

在最近的一些个人和专业项目中，当面临将ML应用于流数据的挑战时，我在python https://github.com/online-ml/river方面取得了成功。

一些在线算法可以处理有标签的值(比如hoeffding )，因此，根据您想要实现的目标，您可能不需要执行preprocessing.

如果确实需要进行预处理，则可以以增量方式应用标签编码和热编码。下面是一些让你开始的代码。River还有许多类可以帮助进行特征提取和特征选择，例如: TF-IDF、单词袋或频率聚合。

。

online_label_enc = {}

for click in click_stream:
    try:
        label_enc = click[click__feature_label_of_interest]
    except KeyError:
        click[click__feature_label_of_interest] = len(online_label_enc)
        label_enc = click[click__feature_label_of_interest]

我不知道您在问什么，但是如果您正在在线/增量地处理问题，那么提取您想要的特征并将它们传递给您所选择的在线算法，然后在每一个数据增量中进行更新和学习。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/68077588

复制

相似问题

问点击流数据的实时预处理
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问点击流数据的实时预处理EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问点击流数据的实时预处理
EN