from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report
from sklearn.metrics import roc_auc_score


nprint = '/usr/local/bin/nprint'
data = 'data/'

cmd_http = '{} -P {}/http.pcap -t -W {}/http.npt'.format(nprint, data, data)
cmd_log4j = '{} -P {}/log4j.pcap -t -W {}/log4j.npt'.format(nprint, data, data)
!{cmd_80}
!{cmd_443}

cmd_80: Command not found.
cmd_443: Command not found.


import pandas as pd

nprint_http = pd.read_csv('{}/http.npt'.format(data), index_col=0)
nprint_log4j = pd.read_csv('{}/log4j.npt'.format(data), index_col=0)

print('HTTP nPrint: Number of Packets: {0}, Features per packet: {1}'.format(nprint_http.shape[0], nprint_http.shape[1]))
print('Log4j nPrint: Number of Packets: {0}, Features per packet: {1}'.format(nprint_log4j.shape[0], nprint_log4j.shape[1]))

HTTP nPrint: Number of Packets: 24798, Features per packet: 240
Log4j nPrint: Number of Packets: 80682, Features per packet: 240


print(nprint_http.columns)
print(nprint_log4j.columns)

Index(['payload_bit_0', 'payload_bit_1', 'payload_bit_2', 'payload_bit_3',
       'payload_bit_4', 'payload_bit_5', 'payload_bit_6', 'payload_bit_7',
       'payload_bit_8', 'payload_bit_9',
       ...
       'payload_bit_230', 'payload_bit_231', 'payload_bit_232',
       'payload_bit_233', 'payload_bit_234', 'payload_bit_235',
       'payload_bit_236', 'payload_bit_237', 'payload_bit_238',
       'payload_bit_239'],
      dtype='object', length=240)
Index(['payload_bit_0', 'payload_bit_1', 'payload_bit_2', 'payload_bit_3',
       'payload_bit_4', 'payload_bit_5', 'payload_bit_6', 'payload_bit_7',
       'payload_bit_8', 'payload_bit_9',
       ...
       'payload_bit_230', 'payload_bit_231', 'payload_bit_232',
       'payload_bit_233', 'payload_bit_234', 'payload_bit_235',
       'payload_bit_236', 'payload_bit_237', 'payload_bit_238',
       'payload_bit_239'],
      dtype='object', length=240)


import numpy as np

def label_data(data, label, features, labels):
    for _, row in data.iterrows():
        features.append(np.array(row))
        labels.append(label)
    return features, labels

def train_eval(features,labels,clf):
    # Split data
    X_train, X_test, y_train, y_test = train_test_split(features, labels)

    clf.fit(X_train, y_train) 
    y_pred = clf.predict(X_test)

    # Statistics
    report = classification_report(y_test, y_pred)
    print(report)

    # Let's also get the ROC AUC score while we're here, which requires a probability instead of just the prediction
    y_pred_proba = clf.predict_proba(X_test)
    # predict_proba gives us a probability estimate of each class, while roc_auc just cares about the "positive" class
    y_pred_proba_pos = [sublist[1] for sublist in y_pred_proba]
    roc = roc_auc_score(y_test, y_pred_proba_pos)
    print('ROC AUC Score: {0}'.format(roc))

def eval_nprint(class1, class2):
    
    (cmd1, label1) = class1
    (cmd2, label2) = class2
    
    # Generate nPrints
    !{cmd1}
    !{cmd2}

    # Load nPrints
    df1 = pd.read_csv('{}/http.npt'.format(data), index_col=0)
    df2 = pd.read_csv('{}/log4j.npt'.format(data), index_col=0)

    features = []
    labels = []

    (features, labels) = label_data(df1, label1, features, labels)
    (features, labels) = label_data(df2, label2, features, labels)

    rf = RandomForestClassifier(n_estimators=1000, max_depth=None, min_samples_split=2, random_state=0)
    train_eval(features,labels,rf)
    return rf


import pandas as pd
import logging
logging.getLogger("scapy").setLevel(logging.CRITICAL)

import pcapml_fe
from pcapml_fe_helpers import *

packets = []

for traffic_sample in pcapml_fe.sampler('data/country-of-origin.pcapng'):
    for pkt in traffic_sample.packets:
        # Print packet timestamp and raw bytes
        pip = IP(pkt.raw_bytes)
        ptcp = TCP(pkt.raw_bytes)
        packets.append((str(pip.src), ptcp.sport, str(pip.dst), ptcp.dport, len(pip), traffic_sample.metadata))
            
pdf = pd.DataFrame(packets, columns=['src IP', 'src port', 'dst IP', 'dst port', 'length', 'country'])

Automating Machine Learning for Networking¶

Learning Objectives¶

Tasks¶

Requirements¶

Part 1: Generating nPrints from Traffic¶

Part 2: nPrint to Machine Learning Samples¶

Part 3: Training a Classifier¶

Understanding the Model¶

Part 4: Exploring Different Representations¶

Summary¶

Part 5: pcapML¶