ИССЛЕДОВАНИЕ ТОЧНОСТИ РАБОТЫ АЛГОРИТМОВ КЛАСТЕРИЗАЦИИ ТЕКСТОВ НАПИСАННЫХ НА ЕСТЕСТВЕННЫХ ЯЗЫКАХ

данная работа посвящена исследованию проблемы оценки точности кластеризации текстов. Для проведения исследований был создан размеченный экспертами датасет из 1800 текстов, разделенных на три тематики: IT инновации, образование и политика, а также по размерам текстов. Исследование включало этапы обработки текстов, построения векторных моделей и применение различных алгоритмов кластеризации, таких как K-means, Affinity Propagation и DBScan. Результаты показали, что алгоритмы K-means и Affinity Propagation достигли хороших результатов в точности кластеризации текстов (соответственно 82% и 85%), в то время как DBScan демонстрировал низкую точность (52%) из-за особенностей данных. Кроме того, K-means превзошел другие алгоритмы по полноте кластеризации, показав 78%.

this paper is devoted to investigate the problem of evaluating the accuracy of text clustering. To conduct the research, an expertly labeled dataset of 1800 texts was created, divided into three topics: IT innovations, education and politics, as well as by text size. The research included the steps of text processing, building vector models and applying different clustering algorithms such as K-means, Affinity Propagation and DBScan. The results showed that K-means and Affinity Propagation algorithms achieved good results in text clustering accuracy (82% and 85%, respectively), while DBScan showed low accuracy (52%) due to data features. In addition, K-means outperformed the other algorithms in terms of clustering completeness, showing 78%.

Авторы
Хайров М.Р. 1 , Сабирова Д.И. 2 , Новикова Д.С. 1
Издательство
Общество с ограниченной ответственностью Научные технологии
Номер выпуска
7-2
Язык
Русский
Страницы
190-195
Статус
Опубликовано
Год
2024
Организации
  • 1 Российский университет дружбы народов им. Патриса Лумумбы
  • 2 МИРЭА - Российский технологический университет
Ключевые слова
text clustering; text vector models; tf-idf; k-means; affinity propagation; dbscan; Clustering accuracy; кластеризация текстов; векторные модели текстов; точность кластеризации
Цитировать
Поделиться

Другие записи

Аватков В.А., Апанович М.Ю., Борзова А.Ю., Бордачев Т.В., Винокуров В.И., Волохов В.И., Воробьев С.В., Гуменский А.В., Иванченко В.С., Каширина Т.В., Матвеев О.В., Окунев И.Ю., Поплетеева Г.А., Сапронова М.А., Свешникова Ю.В., Фененко А.В., Феофанов К.А., Цветов П.Ю., Школярская Т.И., Штоль В.В. ...
Общество с ограниченной ответственностью Издательско-торговая корпорация "Дашков и К". 2018. 411 с.