В настоящей статье рассматриваются современные подходы к решению задачи обнаружения и классификации объектов на изображениях с использованием методов машинного обучения. Актуальность исследования обусловлена возрастающим спросом на технологии компьютерного зрения, востребованные в областях автономных транспортных систем, медицинской диагностики, систем видеонаблюдения, а также промышленной автоматизации. Основное внимание уделено сравнительному анализу двух моделей глубокого обучения, применяемых для детекции объектов - YOLOv5 и SSD, начальная инициализация которых задается с использованием предобученных на датасете COCO(Common Objects in Context) весов. Набор данных COCO предназначен для решения задач обнаружения и сегментации объектов, содержит 80 классов и свыше 120 000 изображений. В рамках исследования проведены этапы предобработки данных, обучения моделей и оценки качества полученных решений с использованием показателей Precision, Recall и F1-score. Полученные экспериментальные результаты позволяют оценить эффективность каждой из рассмотренных моделей и могут служить основой для дальнейших перспективных разработок в области создания и повышения точности алгоритмов обнаружения и локализации объектов на сложных и зашумленных изображениях.