我想使用pcap和wincap提取原始数据。由于我将针对使用NSLKDD数据集训练的神经网络进行测试,因此我想知道如何从原始数据中获取这41个属性?或者,即使这是不可能的,有可能获得的功能,如src_bytes,dst host_same_srv_rate,diff_srv_rate,计数,dst_host_serror_rate,wrong_fragment从原始的实时捕获的数据包从pcap?
发布于 2016-06-21 05:15:07
如果有人想要尝试KDD '99特征,尽管这个数据集的名声不好,我创建了一个名为kdd99extractor的工具来从实时流量或.pcap文件中提取KDD特征的子集。
这个工具是作为一个大学项目的一部分创建的。我还没有找到KDD '99特性的详细文档,所以结果值可能与原始KDD略有不同。自述文件中提到了一些使用的源码。而且实现也不完整。例如,处理有效负载的内容特性没有实现。
它可以在我的github repository中找到。
发布于 2014-03-20 10:18:57
1999年的KDD Cup数据有缺陷,不应再使用
甚至这个“清理”版本(NSL KDD)也是不现实的。
此外,他们所做的许多“清理”是不明智的。真实数据具有重复项,并且此类记录的频率很重要。通过删除重复项,您可以将您的数据偏向于更罕见的观察。您不能盲目地这样做,“仅仅因为”,甚至更糟:减少数据集大小。
然而,最大的问题仍然是:
KDD99在任何方面都不现实
即使在1999年,这也不现实,但从那时起,互联网已经发生了很大变化。
将此数据集用于机器学习是不合理的。其中的攻击最好通过简单的包检测防火墙规则来检测。攻击是很容易理解的,在许多情况下,现代路由器上都应该有适当的检测器-高效,具有100%的检测率和0%的假阳性。
如果你想要真正的攻击,寻找SQL注入和类似的东西。
停止使用此数据集。
说真的,这是无用的数据。标签,大,经常使用,但无用的。
发布于 2016-08-12 07:37:35
看来我回复晚了。但是,正如其他人已经回答的那样,KDD99数据集已经过时了。
我不知道NSL-KDD数据集的用处。然而,有几件事:
你可以看看这项工作,我参与了这项工作,除了采用原始KDD的统计特征外,还从真实的网络环境中获取了额外的特征。
该软件在请求中,它是免费的,用于学术目的!这里有两个指向出版物的链接:
谢谢!
https://stackoverflow.com/questions/22500525
复制相似问题