Новые статистический и энтропийный подходы к выбору признаков при классификации сетевого трафика

В машинном обучении отбор наиболее информативных признаков входных данных является очень важным этапом, цель которого заключается не только в снижении затраченного времени на обучение конкретной модели, но еще и по возможности в улучшении показателей обучаемой модели. Целью данной работы является исследование влияния двух предложенных параметрических алгоритмов снижения размерности на качество прогнозирования классов интернет-трафика на основе набора данных NSL-KDD. Первый алгоритм вырабатывает статистический фильтр, позволяющий установить критерий значимости атрибутов в разделении классов между собой. Второй предложенный алгоритм снижает размерность входных обучающих векторов за счет поиска линейной зависимости между признаками, используя при этом энтропию и сверки законов распределения признаков. Проведенные эксперименты с использованием моделей машинного обучения, такие как дерево решения, метод опорных векторов, наивный байесовский классификатор и К-ближайших соседей показывают, что энтропийный алгоритм в 80 % случаев превосходит по показателям точности, полноты и F1. Аналогичные алгоритмы - метод главных компонентов, гребневая регуляризация регрессии, в то время как наш статический фильтр по своим показателям сравним с перечисленными методами. Данные результаты показывают, что предложенные алгоритмы эффективны и могут быть применены как альтернатива традиционным алгоритмам.

In machine learning, selecting the most informative features of input data is a very important stage, the goal of which is not only to reduce the time spent on training a specific model, but also, if possible, to improve the performance of the trained model. The purpose of this paper is to study the impact of two proposed parametric dimensionality reduction algorithms on the quality of Internet traffic class prediction based on the NSL-KDD dataset. The first algorithm produces a statistical filter that allows you to establish a criterion for the significance of attributes in separating classes from each other. The second proposed algorithm reduces the dimensionality of input training vectors by searching for a linear relationship between features, using entropy and convolutions of feature distribution laws. Experiments conducted using machine learning models such as decision tree; support vector machine, naive Bayes classifier and k-nearest neighbors show that the entropy algorithm in 80 % of cases outperforms similar algorithms in terms of accuracy, recall and F1: principal component analysis, ridge regression regularization, while our static filter is comparable in its performance to the listed methods. These results show that the proposed algorithms are effective and can be used as an alternative to traditional algorithms.

Издательство
Межрегиональная общественная организация "Фонд развития науки и культуры"
Номер выпуска
10
Язык
Русский
Страницы
13-21
Статус
Опубликовано
Год
2024
Организации
  • 1 ФГАОУ ВО «Российский университет дружбы народов имени Патриса Лумумбы»
Ключевые слова
classification models; network traffic; entropy; convolution; Principal Component analysis; анализ главных компонентов; модели классификации; сетевой трафик; свертка; энтропия
Цитировать
Поделиться

Другие записи

Аватков В.А., Апанович М.Ю., Борзова А.Ю., Бордачев Т.В., Винокуров В.И., Волохов В.И., Воробьев С.В., Гуменский А.В., Иванченко В.С., Каширина Т.В., Матвеев О.В., Окунев И.Ю., Поплетеева Г.А., Сапронова М.А., Свешникова Ю.В., Фененко А.В., Феофанов К.А., Цветов П.Ю., Школярская Т.И., Штоль В.В. ...
Общество с ограниченной ответственностью Издательско-торговая корпорация "Дашков и К". 2018. 411 с.