Исследование инструментов и методов структурирования данных авторов научно-технических документов на русском языке

В данной работе рассматриваются проблемы и методы структурирования данных авторов научнотехнических документов на русском языке. Основное внимание уделяется специфическим особенностям русскоязычных имен, включая наличие отчеств, использование сокращений, вариативность написания фамилий и необходимость транслитерации для международных баз данных. Анализируются основные сложности автоматизированного выделения ФИО, такие как нестандартизированные форматы представления, ошибки ввода, сложность идентификации однофамильцев и неоднозначность некоторых имен и фамилий. Рассмотрены современные методы структурирования данных, включая регулярные выражения, правила грамматического анализа, машинное обучение, гибридные подходы и ручное корректирование. Приведены их основные преимущества и недостатки. В частности, методы машинного обучения и гибридные подходы демонстрируют высокую точность за счет способности учитывать контекст, но требуют значительных вычислительных ресурсов и предварительной подготовки данных. Регулярные выражения и грамматические правила позволяют быстро обрабатывать тексты, но их эффективность ограничена при обработке сложных случаев, таких как двойные фамилии или нестандартные формы записи. Сравнительный анализ методов показал, что оптимальный выбор подхода зависит от требований конкретной задачи, объема обрабатываемых данных и допустимого уровня автоматизации. Гибридные методы, сочетающие алгоритмические и машинные подходы, представляются наиболее перспективными для достижения высокой точности. Дальнейшие исследования должны быть направлены на разработку универсальных алгоритмов, способных учитывать не только структурные особенности русских имен, но и специфические требования научных баз данных и систем цитирования.

Авторы
Издательство
Российский университет дружбы народов (РУДН)
Язык
Russian
Страницы
358-361
Статус
Published
Год
2025
Организации
  • 1 Российский университет дружбы народов
  • 2 2Федеральный исследовательский центр «Информатика и управление» Российской академии наук
  • 3 Институт проблем передачи информации им. А.А. Харкевича Российской академии наук
Ключевые слова
структурирование данных авторов; обработка ФИО; лингвистический анализ; методы машинного обучения; регулярные выражения; гибридные подходы в обработке текстов
Цитировать
Поделиться

Другие записи

Avatkov V.A., Apanovich M.Yu., Borzova A.Yu., Bordachev T.V., Vinokurov V.I., Volokhov V.I., Vorobev S.V., Gumensky A.V., Иванченко В.С., Kashirina T.V., Матвеев О.В., Okunev I.Yu., Popleteeva G.A., Sapronova M.A., Свешникова Ю.В., Fenenko A.V., Feofanov K.A., Tsvetov P.Yu., Shkolyarskaya T.I., Shtol V.V. ...
Общество с ограниченной ответственностью Издательско-торговая корпорация "Дашков и К". 2018. 411 с.
Андриевская А.А.
Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем. 2025. С. 362-363