Структурный анализ текстовых данных в задаче мульти-лейбл классификации рекламных текстов

Многие наборы данных реального мира не обеспечивают достаточного количества обучающих примеров как для традиционных классификаторов, так и для более сложных моделей глубокого обучения. Одной из ключевых проблем является дисбаланс классов, когда некоторые категории представлены значительно чаще, чем другие. В таких условиях модель может демонстрировать смещение в сторону преобладающих классов, что приводит к ухудшению обобщающей способности алгоритма и снижению точности предсказаний для малочисленных классов. В данной работе основное внимание уделяется предобработке корпуса данных в задаче мульти-лейбл классификации рекламных текстов, относящихся к различным категориям соответствия законодательству. Рассматриваются методы анализа, очистки и нормализации текста, устранения шумовых элементов и приведение терминов к единообразному виду. Для оценки влияния препроцессинга на качество классификации проводится экспериментальное исследование с использованием модели BERT. На финальном этапе обученная модель оценивается с точки зрения ее способности корректно классифицировать редкие классы. Результаты показывают, что комплексный подход к предобработке данных, включающий оптимизацию структуры текста и балансировку выборки, способствует значительному улучшению показателей классификации, особенно для классов с малым числом примеров. Полученные выводы подчеркивают важность предварительного анализа и трансформации данных перед обучением моделей машинного обучения для задачи мульти-лейбл классификации.

Издательство
Российский университет дружбы народов (РУДН)
Язык
Русский
Страницы
260-266
Статус
Опубликовано
Год
2025
Организации
  • 1 Российский университет дружбы народов
Ключевые слова
машинное обучение; анализ данных; классификация несбалансированных данных; глубокое обучение; трансформеры; рекламные тексты; nlp
Цитировать
Поделиться

Другие записи

Аватков В.А., Апанович М.Ю., Борзова А.Ю., Бордачев Т.В., Винокуров В.И., Волохов В.И., Воробьев С.В., Гуменский А.В., Иванченко В.С., Каширина Т.В., Матвеев О.В., Окунев И.Ю., Поплетеева Г.А., Сапронова М.А., Свешникова Ю.В., Фененко А.В., Феофанов К.А., Цветов П.Ю., Школярская Т.И., Штоль В.В. ...
Общество с ограниченной ответственностью Издательско-торговая корпорация "Дашков и К". 2018. 411 с.