Многие наборы данных реального мира не обеспечивают достаточного количества обучающих примеров как для традиционных классификаторов, так и для более сложных моделей глубокого обучения. Одной из ключевых проблем является дисбаланс классов, когда некоторые категории представлены значительно чаще, чем другие. В таких условиях модель может демонстрировать смещение в сторону преобладающих классов, что приводит к ухудшению обобщающей способности алгоритма и снижению точности предсказаний для малочисленных классов. В данной работе основное внимание уделяется предобработке корпуса данных в задаче мульти-лейбл классификации рекламных текстов, относящихся к различным категориям соответствия законодательству. Рассматриваются методы анализа, очистки и нормализации текста, устранения шумовых элементов и приведение терминов к единообразному виду. Для оценки влияния препроцессинга на качество классификации проводится экспериментальное исследование с использованием модели BERT. На финальном этапе обученная модель оценивается с точки зрения ее способности корректно классифицировать редкие классы. Результаты показывают, что комплексный подход к предобработке данных, включающий оптимизацию структуры текста и балансировку выборки, способствует значительному улучшению показателей классификации, особенно для классов с малым числом примеров. Полученные выводы подчеркивают важность предварительного анализа и трансформации данных перед обучением моделей машинного обучения для задачи мульти-лейбл классификации.