Архитектура средств сбора и извлечения информации для интеллектуальной поисково-аналитической системы

Данные из интернета служат основой для решения широкого круга задач, от информационного поиска до аналитической обработки. При стремительном росте объемов данных эффективное извлечение метаданных из динамических веб-ресурсов становится критически важным. Традиционные методы краулинга на основе статических шаблонов малоэффективны при обработке интерактивного контента. В работе предложена архитектура адаптивной системы сбора информации, сочетающая стандартные методы извлечения данных с технологиями машинного обучения. Система имеет модульную структуру, включающую краулер, модуль управления ссылками, парсер и хранилище данных. Краулер обрабатывает как статический, так и динамический контент через эмуляцию браузера. Для извлечения метаданных применяется гибридный подход, совмещающий структурированные правила и машинное обучение. Эксперименты показали успешное извлечение метаданных из различных веб-ресурсов, включая страницы с динамическим контентом и сложными структурами. Система продемонстрировала высокую точность и устойчивость к изменениям форматов данных, включая способность обходить механизмы защиты от автоматического сбора информации. Таким образом, разработанное решение представляет собой значимый шаг в создании универсальных систем сбора и анализа данных для современных информационных сред. Представленные программные средства были использованы при наполнении индексных баз системы Неопоиск.

Издательство
Российский университет дружбы народов (РУДН)
Язык
Русский
Страницы
325-332
Статус
Опубликовано
Год
2025
Организации
  • 1 Российский университет дружбы народов
  • 2 Федеральный исследовательский центр «Информатика и управление» РАН
Ключевые слова
интеллектуальные поисково-аналитические системы; извлечение метаданных; веб-краулинг; динамический контент; машинное обучение; автоматизация сбора данных; браузерная эмуляция; MarkupLM
Цитировать
Поделиться

Другие записи

Аватков В.А., Апанович М.Ю., Борзова А.Ю., Бордачев Т.В., Винокуров В.И., Волохов В.И., Воробьев С.В., Гуменский А.В., Иванченко В.С., Каширина Т.В., Матвеев О.В., Окунев И.Ю., Поплетеева Г.А., Сапронова М.А., Свешникова Ю.В., Фененко А.В., Феофанов К.А., Цветов П.Ю., Школярская Т.И., Штоль В.В. ...
Общество с ограниченной ответственностью Издательско-торговая корпорация "Дашков и К". 2018. 411 с.