Сахарный диабет - распространенное инвалидизирующее заболевание, которое без надлежащего лечения приводит к ухудшению зрения и слепоте. В данной статье представлены результаты анализа дубликатов и модифицированных изображений в открытых датасетах (наборы данных, которые можно свободно скачать в сети Интернет), содержащих снимки глазного дна с проявлениями диабетической ретинопатии.Цель: определение качества и пригодности открытых датасетов, доступных по запросу «диабетическая ретинопатия» («diabetic retinopathy») на платформе Kaggle.com, для использования в обучении моделей машинного обучения.Материал и методы. Было проанализировано более 100 открытых источников данных с суммарным количеством изображений глазного дна с диабетической ретинопатией, составившим почти 2 млн. Исследование изображений проводилось в несколько этапов: сначала датасеты скачивались, имя и уникальная хеш-сумма каждого изображения по алгоритму SHA-3 сохранялись в специально созданную базу данных, затем считались повторные вхождения хешсумм внутри базы данных в разных наборах, производился поиск модифицированных имен файлов.Результаты. Исследование показало, что дубликаты изображений достаточно распространены, максимальное количество повторений в разных датасетах достигало 14 . Было выявлено, что 56% всех изображений повторяются хотя бы дважды в разных наборах данных. Также была проведена работа по поиску модифицированных изображений, то есть изображений с измененным размером. В ходе анализа было обнаружено 9 наборов данных с такими изображениями, что составляет 24% от общего числа изображений в базе.Заключение. Полученные результаты могут быть использованы для оптимизации процесса обучения и улучшения качества работы алгоритмов компьютерного зрения в офтальмологии. Также они указывают на необходимость разработки мер по предотвращению дублирования и модификации изображений в наборах данных, чтобы обеспечить их высокое качество и надежность результатов обучения нейросетевых моделей, так как создание датасетов без стандартизации и верификации не приведет к улучшению результатов машинного обучения.
Diabetes mellitus is a common disabling disease that, without proper treatment, leads to visual impairment and blindness. This paper presents the analysis of duplicate and modified images in open datasets (datasets that can be freely downloaded on the Internet) containing ocular fundus images with manifestations of diabetic retinopathy.Aim: To determine the quality and suitability of open datasets available for the query "diabetic retinopathy" on the Kaggle.com platform for use in training machine learning models.Material and Methods. More than 100 open data sources were analyzed with the total number of ocular fundus images with diabetic retinopathy amounting to almost 2 million. The images were examined by analyzing the hash sums of the files obtained with the SHA-3 algorithm and comparing the file names between the original and resized images.Results. The study showed that duplicate images were quite common, with a maximum of up to 14 repetitions in different datasets. It was found that 56% of all images are repeated at least twice in different datasets. Authors also searched for modified images, i.e., resized images. The analysis found 9 datasets with such images, which is 24% of the total number of images in the database.Conclusion. The authors of the article note that the obtained results can be used to optimize the training process and improve the quality of computer vision algorithms in ophthalmology. They also point out the need to develop measures to prevent duplication and modification of images in datasets to ensure their high quality and reliability of neural network model training results, as the creation of datasets without standardization and verification will not lead to improved machine learning results.