данная работа посвящена исследованию проблемы оценки точности кластеризации текстов. Для проведения исследований был создан размеченный экспертами датасет из 1800 текстов, разделенных на три тематики: IT инновации, образование и политика, а также по размерам текстов. Исследование включало этапы обработки текстов, построения векторных моделей и применение различных алгоритмов кластеризации, таких как K-means, Affinity Propagation и DBScan. Результаты показали, что алгоритмы K-means и Affinity Propagation достигли хороших результатов в точности кластеризации текстов (соответственно 82% и 85%), в то время как DBScan демонстрировал низкую точность (52%) из-за особенностей данных. Кроме того, K-means превзошел другие алгоритмы по полноте кластеризации, показав 78%.
this paper is devoted to investigate the problem of evaluating the accuracy of text clustering. To conduct the research, an expertly labeled dataset of 1800 texts was created, divided into three topics: IT innovations, education and politics, as well as by text size. The research included the steps of text processing, building vector models and applying different clustering algorithms such as K-means, Affinity Propagation and DBScan. The results showed that K-means and Affinity Propagation algorithms achieved good results in text clustering accuracy (82% and 85%, respectively), while DBScan showed low accuracy (52%) due to data features. In addition, K-means outperformed the other algorithms in terms of clustering completeness, showing 78%.