Архитектура системы сбора и извлечения информации для интеллектуальной поисково-аналитической системы

Данные из интернета служат основой для решения широкого круга задач, от информационного поиска до аналитической обработки. Рост объёмов данных повышает важность эффективного извлечения описательных сведений о документах (метаданные - заголовки, имена авторов, даты публикации и так далее) с научных и образовательных сайтов (веб-ресурсов). Традиционные методы сбора и извлечения информации на основе статических шаблонов малоэффективны при обработке веб-страниц с динамически формируемым содержанием. В работе предложена архитектура адаптивной системы сбора и извлечения информации, сочетающая стандартные методы извлечения данных с технологиями машинного обучения. Система имеет модульную структуру, включающую подсистемы управления заданиями, мониторинга и журналирования, краулинга (робота сбора информации), управления ссылками, извлечения метаданных. Подсистема краулинга обрабатывает как статически, так и динамически формируемое содержание через имитацию работы прикладного программного обеспечения для просмотра веб-страниц. Для извлечения метаданных применяется комбинированный подход, совмещающий структурированные правила и машинное обучение. Эксперименты показали успешное извлечение метаданных из различных веб-ресурсов, включая страницы с динамически формируемым содержанием и сложными структурами. Система обладает высокой точностью и устойчивостью к изменениям форматов данных, при этом строго соблюдаются этические нормы сбора данных, включая обязательное выполнение инструкций и применение разумных интервалов между запросами.

Internet data serves as the foundation for a wide range of tasks, from information retrieval to analytical processing. With the rapid growth of data volumes, efficient metadata extraction from dynamic web resources has become critically important. Traditional information collection and extraction methods based on static templates are largely ineffective when processing interactive content. This paper presents the architecture of an adaptive information collection and extraction system that integrates standard data extraction techniques with machine learning technologies. The system has a modular structure comprising the following subsystems: task management, monitoring and logging, crawling, link management, and metadata extraction. The crawling subsystem processes both static and dynamic content through browser emulation. A hybrid approach combining structured rules and machine learning is used for metadata extraction. Experimental results demonstrated successful metadata extraction from various web resources, including pages with dynamic content and complex structures. The system exhibited high accuracy and resilience to changes in data formats while strictly adhering to ethical data collection standards, such as compliance with robots.txt directives and applying reasonable request intervals. Thus, the proposed solution represents a significant step toward the development of universal data collection and extraction systems for modern information environments. The developed software tools have been utilized in populating the index databases of the Neopoisk system.

Издательство
Институт системного программирования им. В.П. Иванникова РАН
Номер выпуска
2
Язык
Russian
Страницы
263-280
Статус
Published
Том
37
Год
2025
Организации
  • 1 Российский университет дружбы народов имени Патриса Лумумбы
  • 2 Федеральный исследовательский центр «Информатика и управление» РАН
  • 3 Институт проблем передачи информации им. А.А. Харкевича РАН
  • 4 Институт системного программирования им. В.П. Иванникова РАН
Ключевые слова
intelligent search and analytical systems; information collection and extraction system; metadata extraction; Web Crawling; dynamic content; machine learning; automated data collection; browser emulation; MarkupLM; интеллектуальные поисково-аналитические системы; система сбора и извлечения информации; извлечение метаданных; веб-краулинг; динамический контент; машинное обучение; автоматизация сбора данных; браузерная эмуляция; предобученная модель MarkupLM
Цитировать
Поделиться

Другие записи

Avatkov V.A., Apanovich M.Yu., Borzova A.Yu., Bordachev T.V., Vinokurov V.I., Volokhov V.I., Vorobev S.V., Gumensky A.V., Иванченко В.С., Kashirina T.V., Матвеев О.В., Okunev I.Yu., Popleteeva G.A., Sapronova M.A., Свешникова Ю.В., Fenenko A.V., Feofanov K.A., Tsvetov P.Yu., Shkolyarskaya T.I., Shtol V.V. ...
Общество с ограниченной ответственностью Издательско-торговая корпорация "Дашков и К". 2018. 411 с.