文章/答案/技术大牛

发布

社区首页 >问答首页 >如何使用tensorflow_io的IODataset？

问如何使用tensorflow_io的IODataset？
EN

Stack Overflow用户

提问于 2020-02-04 07:46:25

回答 1查看 1.3K关注 0票数 1

我正在尝试编写一个程序，该程序可以使用恶意pcap作为数据集，并预测其他pcaps文件中是否包含恶意数据包。在深入研究了Tensorflow加法之后，我找到了TensorIO，但是我不知道如何使用dataset来创建模型并用它进行预测。

这是我的密码：

%tensorflow_version 2.x
import tensorflow as tf
import numpy as np
from tensorflow import keras

try:
  import tensorflow_io as tfio
  import tensorflow_datasets as tfds
except:
  !pip install tensorflow-io
  !pip install tensorflow-datasets

import tensorflow_io as tfio
import tensorflow_datasets as tfds

# print(tf.__version__)

dataset = tfio.IODataset.from_pcap("dataset.pcap")
print(dataset) # <PcapIODataset shapes: ((), ()), types: (tf.float64, tf.string)>

(使用Google Collab)

我试着在网上寻找答案，但找不到答案。

python

tensorflow

tensorflow2.0

pcap

tensorflow-datasets

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-05-28 14:33:52

我已经下载了两个pcap文件并将它们连接起来。稍后，我提取了packet_timestamp和packet_data。请求您根据您的需求对packet_data进行预处理。如果要添加任何标签，则可以将其添加到培训数据集中(在下面的模型示例中，我已经创建了一个全为零的虚拟标签，并将其添加为一个列)。如果它在一个文件中，那么您可以将其zip为pcap。传递(特性，标签)对的数据集是Model.fit和Model.evaluate所需要的

下面的是packet_data预处理的一个例子--您可以像if packet_data is valid then labels = valid else malicious一样修改。

%tensorflow_version 2.x
import tensorflow as tf
import tensorflow_io as tfio 
import numpy as np

# Create an IODataset from a pcap file  
first_file = tfio.IODataset.from_pcap('/content/fuzz-2006-06-26-2594.pcap')
second_file = tfio.IODataset.from_pcap(['/content/fuzz-2006-08-27-19853.pcap'])

# Concatenate the Read Files
feature = first_file.concatenate(second_file)
# List for pcap 
packet_timestamp_list = []
packet_data_list = []

# some dummy labels
labels = []

packets_total = 0
for v in feature:
    (packet_timestamp, packet_data) = v
    packet_timestamp_list.append(packet_timestamp.numpy())
    packet_data_list.append(packet_data.numpy())
    labels.append(0)
    if packets_total == 0:
        assert np.isclose(
            packet_timestamp.numpy()[0], 1084443427.311224, rtol=1e-15
        )  # we know this is the correct value in the test pcap file
        assert (
            len(packet_data.numpy()[0]) == 62
        )  # we know this is the correct packet data buffer length in the test pcap file
    packets_total += 1
assert (
    packets_total == 43
)  # we know this is the correct number of packets in the test pcap file

下面的是在Model -中使用的示例--模型不能工作，因为我还没有处理字符串类型的packet_data。根据您的需求和模型中的使用情况进行预处理。

%tensorflow_version 2.x
import tensorflow as tf
import tensorflow_io as tfio 
import numpy as np

# Create an IODataset from a pcap file  
first_file = tfio.IODataset.from_pcap('/content/fuzz-2006-06-26-2594.pcap')
second_file = tfio.IODataset.from_pcap(['/content/fuzz-2006-08-27-19853.pcap'])

# Concatenate the Read Files
feature = first_file.concatenate(second_file)

# List for pcap 
packet_timestamp = []
packet_data = []

# some dummy labels
labels = []

# add 0 as label. You can use your actual labels here
for v in feature:
  (timestamp, data) = v
  packet_timestamp.append(timestamp.numpy())
  packet_data.append(data.numpy())
  labels.append(0)

## Do the preprocessing of packet_data here

# Add labels to the training data
# Preprocess the packet_data to convert string to meaningful value and use here
train_ds = tf.data.Dataset.from_tensor_slices(((packet_timestamp,packet_data), labels))
# Set the batch size
train_ds = train_ds.shuffle(5000).batch(32)

##### PROGRAM WILL RUN SUCCESSFULLY TILL HERE. TO USE IN THE MODEL DO THE PREPROCESSING OF PACKET DATA AS EXPLAINED ### 

# Have defined some simple model
model = tf.keras.Sequential([
  tf.keras.layers.Flatten(),
  tf.keras.layers.Dense(100),
  tf.keras.layers.Dense(10)
])

model.compile(optimizer='adam',
              loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True), 
              metrics=['accuracy'])

model.fit(train_ds, epochs=2)

希望这能回答你的问题。学习愉快。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/60052740

复制

相似问题

问如何使用tensorflow_io的IODataset？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用tensorflow_io的IODataset？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用tensorflow_io的IODataset？
EN