Кросс-языковые методы извлечения химических структур из текстов

В данной работе описывается программное решение задачи извлечения химических структур из текстов на русском и английском языках. Предлагаемый алгоритм основан на использовании нейронных сетей, построенных на архитектуре трансформер. В качестве основы описываемого решения использованы две кросс-языковые модели - mBERT и LaBSE. Основная реализованная идея заключается в их дообучении на данных необходимого вида и содержания для большей эффективности моделей при использовании в планируемых задачах извлечения сущностей. При этом изначальные веса моделей должны лишь корректироваться, а не пересчитываться с нуля. Дообучение делится на два этапа. Первый (continual-pretraining) - обучение реализуется на задачах Masked Language Modeling и Translation Language Modeling - восстановление токенов. Оно проводится на неразмеченных данных (unsupervised-обучение), состоящий их русскоязычных и англоязычных текстов патентов в области химии, медицины и биохимии. Второй этап - обучение на задаче Named Entity Recognition - распознавание сущностей. Используется размеченный (supervised-обучение) корпус ChemProt. В задаче изначально используется Begin-Inside-Outside нотация токенов, а после обработки полученных результатов реализуется более точная нотация Begin-Inside-Outside-EndSingle. Разработанные модели сравниваются с моделями-конкурентами - BioBERT, ChemBERTa и другими. В качестве основных метрик качества приняты f1-score, precision, recall. Сравнение также проводится на едином тестовом наборе данных. В работе, в том числе, описываются трудности, с которыми пришлось столкнуться на разных этапах разработки. Описывается способ их решения или обхода. Результаты проведенных экспериментов и доработок показывают, что разработанный нами алгоритм построения моделей и процесса обучения позволяет более эффективно, в сравнении с конкурентами, решать поставленную задачу кросс-языкового извлечения химических структур из текстов на русском и английском языках.

Издательство
Российский университет дружбы народов (РУДН)
Язык
Russian
Страницы
296-301
Статус
Published
Год
2025
Организации
  • 1 Российский университет дружбы народов
  • 2 Федеральный исследовательский центр «Информатика и управление» Российской Академии Наук
Ключевые слова
машинное обучение; обработка текстов; нейронные сети
Цитировать
Поделиться

Другие записи

Avatkov V.A., Apanovich M.Yu., Borzova A.Yu., Bordachev T.V., Vinokurov V.I., Volokhov V.I., Vorobev S.V., Gumensky A.V., Иванченко В.С., Kashirina T.V., Матвеев О.В., Okunev I.Yu., Popleteeva G.A., Sapronova M.A., Свешникова Ю.В., Fenenko A.V., Feofanov K.A., Tsvetov P.Yu., Shkolyarskaya T.I., Shtol V.V. ...
Общество с ограниченной ответственностью Издательско-торговая корпорация "Дашков и К". 2018. 411 с.