Рак легких является одним из самых распространенных онкологических заболеваний. Для морфологической верификации опухоли используются бронхоскопия и трансторакальная биопсия легких под контролем компьютерной томографии (КТ). Обе эти технологии являются инвазивными с определенными рисками и высокими затратами. Точность морфологически верифицированного диагноза рака легкого в России достигает в среднем 88,2%. От гистологического типа рака легких зависят тактика лечения, характер течения и прогноз заболевания. “Золотым стандартом” диагностики рака легких является КТ органов грудной клетки. Развивающимся направлением обработки КТ-изображений является радиомика - математический анализ данных лучевых методов исследований, позволяющий выявлять особенности текстуры ткани на уровне, недоступном глазу врача-рентгенолога. Применение методов радиомики может способствовать определению гистологического типа рака легкого еще на этапе диагностического поиска. Цель исследования: разработка метода определения наиболее распространенных гистологических типов рака легких на основе текстурного анализа КТ-изображений органов грудной клетки. Материал и методы. В исследование были включены данные 200 пациентов, проходивших лечение в РНЦРР с гистологически подтвержденным раком легкого, из них 100 пациентов с мелкоклеточным раком легкого, 100 пациентов с немелкоклеточным раком легкого (50 из них с аденокарциномой и 50 - с плоскоклеточным раком легкого). Для каждого образования было рассчитано 107 радиомических показателей. Построение моделей машинного обучения производилось на языке программирования Python 3.10 с использованием специализированных библиотек. Для выбора наиболее эффективных моделей использовались стандартные метрики машинного обучения: precision, recall, accuracy, П-мера и площадь под характеристической кривой (ROC-AUC). Результаты. Разработаны различные модели машинного обучения, наилучшими метриками обладали градиентный бустинг для дифференцировки немелкоклеточного рака легкого и мелкоклеточного рака легкого c площадью под ROC-кривой 0,973 и случайный лес на основе трех деревьев для дифференцировки аденокарциномы и плоскоклеточного рака легкого с площадью под ROC-кривой 0,833. Заключение. Разработанные нами модели классификации обладают высокими метриками диагностической точности, что позволяет говорить о применимости показателей радиомики для дифференцировки различных типов рака легкого на этапе диагностического поиска, а также в ситуациях с невозможностью получения материала для гистологического исследования.
Lung cancer is one of the most common cancers. Bronchoscopy and transthoracic lung biopsy under the control of computed tomography (CT) are used for morphological verification of the tumor. Both of these technologies are invasive with certain risks and high costs. The accuracy of the morphologically verified diagnosis of lung cancer in Russia reaches an average of 88.2%. Treatment tactics, progression and prognosis of the disease depends on the histological type of lung cancer. The gold standard for lung cancer diagnosis is computed tomography of the chest. A developing area of CT image processing is radiomics, a mathematical analysis of data from radiation research methods that allows the detection of tissue texture features at a level inaccessible to the eye of a radiologist. The use of radiomics methods can contribute to the determination of the histotype of lung cancer even at the stage of diagnostic search. Objective: to determine the most common histological types of lung cancer based on the textural analysis of CT-scans of the chest organs. Materials and methods. The study included data from 200 patients treated at the RSCRR with histologically confirmed lung cancer, including 100 patients with small-cell lung cancer, 100 patients with non-small cell lung cancer (50 of them with adenocarcinoma and 50 with squamous cell carcinoma). 107 radiomic features were calculated for each tumor. Machine learning models were built in the Python 3.10 programming language using specialized libraries. To select the most effective models, standard machine learning metrics were used: precision, recall, accuracy, f1-measure and the area under the receiver operating characteristic curve (ROC-AUC). Results. Several machine learning models were developed, the best metrics were gradient boosting for differentiating non-small cell lung cancer and small-cell lung cancer with ROC-AUC 0.973 and a random forest based on three trees for differentiating adenocarcinoma and squamous cell carcinoma with ROC-AUC 0.833. Conclusion. Classification models developed by us have high metrics of diagnostic accuracy, which allows us to discourse about the applicability of radiomics features for differentiating various types of lung cancer at the stage of diagnostic search, as well as in situations where it is impossible to obtain material for histological examination.