Исследование инструментов и методов структурирования данных авторов научно-технических документов на русском языке

В данной работе рассматриваются проблемы и методы структурирования данных авторов научнотехнических документов на русском языке. Основное внимание уделяется специфическим особенностям русскоязычных имен, включая наличие отчеств, использование сокращений, вариативность написания фамилий и необходимость транслитерации для международных баз данных. Анализируются основные сложности автоматизированного выделения ФИО, такие как нестандартизированные форматы представления, ошибки ввода, сложность идентификации однофамильцев и неоднозначность некоторых имен и фамилий. Рассмотрены современные методы структурирования данных, включая регулярные выражения, правила грамматического анализа, машинное обучение, гибридные подходы и ручное корректирование. Приведены их основные преимущества и недостатки. В частности, методы машинного обучения и гибридные подходы демонстрируют высокую точность за счет способности учитывать контекст, но требуют значительных вычислительных ресурсов и предварительной подготовки данных. Регулярные выражения и грамматические правила позволяют быстро обрабатывать тексты, но их эффективность ограничена при обработке сложных случаев, таких как двойные фамилии или нестандартные формы записи. Сравнительный анализ методов показал, что оптимальный выбор подхода зависит от требований конкретной задачи, объема обрабатываемых данных и допустимого уровня автоматизации. Гибридные методы, сочетающие алгоритмические и машинные подходы, представляются наиболее перспективными для достижения высокой точности. Дальнейшие исследования должны быть направлены на разработку универсальных алгоритмов, способных учитывать не только структурные особенности русских имен, но и специфические требования научных баз данных и систем цитирования.

Авторы
Издательство
Российский университет дружбы народов (РУДН)
Язык
Русский
Страницы
358-361
Статус
Опубликовано
Год
2025
Организации
  • 1 Российский университет дружбы народов
  • 2 2Федеральный исследовательский центр «Информатика и управление» Российской академии наук
  • 3 Институт проблем передачи информации им. А.А. Харкевича Российской академии наук
Ключевые слова
структурирование данных авторов; обработка ФИО; лингвистический анализ; методы машинного обучения; регулярные выражения; гибридные подходы в обработке текстов
Цитировать
Поделиться

Другие записи

Аватков В.А., Апанович М.Ю., Борзова А.Ю., Бордачев Т.В., Винокуров В.И., Волохов В.И., Воробьев С.В., Гуменский А.В., Иванченко В.С., Каширина Т.В., Матвеев О.В., Окунев И.Ю., Поплетеева Г.А., Сапронова М.А., Свешникова Ю.В., Фененко А.В., Феофанов К.А., Цветов П.Ю., Школярская Т.И., Штоль В.В. ...
Общество с ограниченной ответственностью Издательско-торговая корпорация "Дашков и К". 2018. 411 с.
Андриевская А.А.
Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем. 2025. С. 362-363