Цель исследования - изучить возможности технологий искусственного интеллекта для определения молекулярных подтипов рака молочной железы (РМЖ) по данным лучевой диагностики. Материалы и методы. Материалом для исследования послужили данные ретроспективного анализа результатов обследования 344 больных РМЖ, получавших лечение в Свердловском областном онкологическом диспансере в период с 2021 по 2023 г. Средний возраст пациенток исследуемой выборки составил 56,8 ± 10,6 года в диапазоне от 33 до 82 лет. У всех больных РМЖ подтвержден гистологически и определены молекулярные подтипы по данным трепанобиопсии и исследования операционного материала. Всем больным выполнялась рентгеновская, ультразвуковая и магнитно-резонансная маммография, выделены диагностические симптомокомплексы, соответствующие молекулярным подтипам РМЖ. Для достижения поставленной цели были выбраны наиболее значимые диагностические признаки: возраст больных, максимальный диаметр новообразования по данным различных методов лучевой диагностики, скиалогические признаки (контуры и форма новообразований или участков перестройки структуры, пространственная ориентация, гетерогенность структуры, наличие кальцинатов, характеристики кровотока в опухоли), динамические параметры накопления парамагнетика при магнитно-резонансной маммографии. По данным гистологического исследования оценивались степень дифференцировки опухоли (G), индекс пролиферативной активности (Ki-67), статус регионарных лимфатических узлов (наличие или отсутствие метастазов), молекулярно-иммуногистохимический подтип опухоли. Был выполнен анализ статистически значимой связи между диагностическими признаками визуализации и молекулярным подтипом РМЖ путем проведения χ2-тестов в отношении признаков и подтипов (классов) РМЖ, предварительно приведенных к бинарному виду. Из массивов отобранных значений диагностических признаков визуализации были сформированы обучающая и тестовая выборки, определен алгоритм классификационной модели искусственного интеллекта. Точность типирования РМЖ обеспечивалась комбинацией из 7 визуальных признаков и 6 классификационных моделей: 5 одноклассовых и 1 мультиклассовой. Для обучения одноклассовых моделей был использован алгоритм градиентного бустинга (GradientBoostingRegressor), для обучения мультиклассовой модели - стратегия «один (класс) против остальных» с применением алгоритмов OneVsRestClassifier и градиентного бустинга (GradientBoostingClassifier). Качество обученной модели проверяли на тестовых данных. Статистическую обработку данных, разработку классификационных моделей, их тестирование и оценку качества обучения выполняли в среде Jupyter Notebook v.6.5.2. Результаты. Показатели качества обучения одноклассовых моделей распознавания подтипов РМЖ распределялись следующим образом: чувствительность в определении люминального А подтипа (LA) составила 67,0 %, люминального B подтипа (LB) - 72,7 %, люминального B HER2-положительного подтипа (LBH) - 81,8 %, нелюминального HER2-положительного (HER) и трижды негативного РМЖ (TNC) - 100 %. Cпецифичность составила при оценке LA подтипа - 90,2 %, LB - 83,0 %, LBH - 89,7 %, HER и TNC - 98,3 и 93,5 % соответственно. Площадь под ROC-кривой (AUC) в зависимости от молекулярного подтипа была определена следующим образом: для LA подтипа - 0,88; для LB - 0,86; для LBH - 0,87; для HER - 0,96; для TNC - 1,000. Мультиклассовая модель также показала низкие значения чувствительности, за исключением подтипов TNC (100 %) и HER (85,7 %), низкие уровни прогностической ценности положительных результатов для всех подтипов, за исключением TNC (91,7 %), и высокие показатели специфичности и прогностической ценности отрицательных результатов для всех подтипов. Площадь под ROC-кривой у мультиклассовой модели составила для подтипов: LA - 0,88; LB - 0,86; LBH - 0,86; HER - 0,95; TNC - 1,00. Выводы. Показана возможность определения молекулярно-биологического подтипа РМЖ по комбинации диагностических признаков визуализации, полученных от разных методов лучевой диагностики, с помощью нового диагностического инструментария типирования РМЖ на основе классификационных моделей искусственного интеллекта. В перспективе внедрение искусственного интеллекта позволит снизить вероятность ошибки определения молекулярно-биологического подтипа РМЖ при несовпадении мнения врача и результатов иммуногистохимического исследования.
Aim. To investigate the possibility of using radiation diagnostic data to determine various molecular subtypes of breast cancer (BC) using artificial intelligence technologies.Materials and methods. The material for the study was retrospective data of 344 patients treated at the Sverdlovsk Regional Oncology Dispensary in the period from 2021 to 2023. The average age of the study sample was 56.8 ± 10.6 years, ranging from 33 to 82 years. All patients were diagnosed with BC, confirmed histologically. Molecular subtypes of BC were assessed based on trepan biopsy and surgical material. All patients underwent mammographic, ultrasound, and magnetic resonance imaging examinations, and sets of diagnostic features were identified that most accurately correspond to various molecular subtypes of BC. To achieve this goal, the authors identified the following diagnostic features: age, maximum diameter of the formation measured for various methods of radiation diagnostics, morphological features (contours, spatial orientation, shape of the detected formations or areas of reconstruction, heterogeneity of the structure of formations, presence of calcifications, characteristics of blood flow in the tumor) and dynamic parameters of paramagnetic accumulation during magnetic resonance imaging of the mammary gland.Based on the histological examination data, the degree of tumor differentiation (G), proliferative activity index (Ki-67), regional lymph node status (presence or absence of metastases), and molecular-immunohistochemical tumor subtype were assessed. An analysis was conducted to determine whether there was a statistically significant relationship between diagnostic features and molecular subtypes of BC. The analysis was performed by conducting chi-square tests for features and subtypes (classes) of BC, previously converted to binary form. From the arrays of values s elected for the study of diagnostic features, training and test samples were formed, and an algorithm for the classification model of artificial intelligence was determined. The accuracy of BC typing was ensured by using a combination of 7 diagnostic features and 6 classification models: five single-class and one multi-class. The gradient boosting algorithm (GradientBoostingRegressor) was used to train single-class models. The strategy “one (class) versus the rest” was used to train the multi-class model using the OneVsRestClassifier and gradient boosting (GradientBoostingClassifier) algorithms. The quality of the trained model was tested on test data. Statistical data processing, development of classification models, their testing and assessment of the quality of training were performed in the Jupyter Notebook environment v.6.5.2.Results. The training quality indicators of single-class models for recognizing BC subtypes were as follows: sensitivity in determining luminal A subtype (LA) was 67.0 %, luminal B subtype (LB) - 72.7 %, luminal B HER2-positive subtype (LBH) - 81.8 %, non-luminal HER2-positive (HER) and triple negative breast cancer (TNC) - 100 %. The specificity was 90.2 % for LA, 83.0 % for LB, 89.7 % for LBH, 98.3 % and 93.5 % in the cases of HER and TNC, respectively.The area under the ROC curve (AUC) depending on the molecular subtype was determined as follows: for LA - 0.88, for LB - 0.86, for LBH - 0.87, for HER - 0.96, and for TNC - 1.000. The multiclass model also showed low sensitivity values, except for the TNC (100 %) and HER (85.7 %) subtypes, low levels of positive predictive value for all subtypes, except for TNC (91.7 %), and high specificity and negative predictive value for all subtypes. The area under the ROC curve for the multiclass model was for the subtypes: LA - 0.88, LB - 0.86, LBH - 0.86, HER - 0.95 and for TNC - 1.00.Conclusion. The possibility of using certain combinations of diagnostic features obtained as a result of radiation diagnostic methods to determine the probability of a molecular biological subtype of BC was proven. This indicates the presence of prerequisites for the creation of a new diagnostic tool for typing BC using classification models of artificial intelligence. In the future, its implementation will reduce the likelihood of an error in determining the molecular biological subtype of BC, especially in situations where the doctor»s opinion and the results of the immunohistochemical study do not coincide.