Архитектура: задачи предварительного обучения и стратегии декодирования для больших языковых моделей

Данная работа посвящена обзору ключевых архитектурных подходов и задач предварительного обучения, которые лежат в основе современных больших языковых моделей (Large Language Models, LLMs). Далее будет рассмотрено то, как архитектура "Трансформер" стала доминирующей в разработке LLMs благодаря своей масштабируемости и производительности, позволяя создавать модели с сотнями миллиардов параметров. Основные типы архитектур, включая кодер-декодер, причинный декодер и префиксный декодер, будут изучены с точки зрения их уникальных характеристик и применения в NLP (Natural Language Processing). Также будет продемонстрировано то, как различные задачи предварительного обучения, такие как языковое моделирование и автоматическое кодирование с устранением шумов, влияют на способность моделей к обучению и генерации текста. Важность механизма внимания, включая полное и рассеянное внимание, будет подчеркнута в контексте их роли в формировании векторных представлений токенов и обеспечении взаимодействия между ними. В последующих разделах рассмотрен каждый из этих аспектов, их влияние на производительность моделей и их применение в различных областях NLP. Эта работа позволит понять то, как выбор архитектуры и методов предварительного обучения определяет возможности и ограничения LLMs, а также их потенциал для будущих инноваций в области обработки естественного языка.

This paper is devoted to an overview of the key architectural approaches and pre-training tasks that underlie modern Large Language Models (LLMs). Next, we will consider how the Transformer architecture has become dominant in LLM development due to its scalability and performance, allowing the creation of models with hundreds of billions of parameters. The main types of architectures, including encoder-decoder, causal decoder, and prefix decoder, will be studied in terms of their unique characteristics and application in NLP (Natural Language Processing). It will also demonstrate how different pre-training tasks, such as language modeling and automatic encoding with noise removal, affect the ability of models to learn and generate text. The importance of attention mechanisms, including full and diffuse attention, will be highlighted in the context of their role in forming embeddings of tokens and enabling interactions between them. The following sections will discuss each of these aspects, their impact on model performance, and their application in different areas of NLP. This work will provide insights into how the choice of architecture and pre-training methods determines the capabilities and limitations of LLMs, as well as their potential for future innovations in natural language processing.

Авторы
Издательство
Общество с ограниченной ответственностью Журнал Инновации и инвестиции
Номер выпуска
7
Язык
Русский
Страницы
591-596
Статус
Опубликовано
Год
2024
Организации
  • 1 РУДН им. Патриса Лулумбы
Ключевые слова
language model; large language models; pre-trained language models; natural language processing; causal decoder; prefix decoder; языковая модель; большие языковые модели; предварительно обученные языковые модели; обработка естественного языка; причинный декодер; префиксный декодер
Цитировать
Поделиться

Другие записи

Аватков В.А., Апанович М.Ю., Борзова А.Ю., Бордачев Т.В., Винокуров В.И., Волохов В.И., Воробьев С.В., Гуменский А.В., Иванченко В.С., Каширина Т.В., Матвеев О.В., Окунев И.Ю., Поплетеева Г.А., Сапронова М.А., Свешникова Ю.В., Фененко А.В., Феофанов К.А., Цветов П.Ю., Школярская Т.И., Штоль В.В. ...
Общество с ограниченной ответственностью Издательско-торговая корпорация "Дашков и К". 2018. 411 с.