Рассмотрена оценка влияния лексических параметров на сложность текста и реализована на материале специализированного лингвистического корпуса, в состав которого вошли тексты 15 действующих учебников по русскому языку для 5-7 классов общим объемом 811911 слов. Исследование нацелено на определение объема и динамики изменения лексического состава учебников для 5-7 классов современных линеек учебников по русскому языку. Алгоритм исследования: (а) выявление объема и состава лексики в текстах учебников; (б) оценка доли лингвистических терминов в их составе; (в) идентификация предикторов сложности, т.е. параметров, демонстрирующих статистически значимую корреляцию с читабельностью. Осуществлению аналитической части исследования предшествовали метаописание корпуса, его токенизация, лемматизация, сегментирование на отрывки приблизительно по 1000 слов. Расчеты параметров текста производились при помощи текстового профайлера RuLingva, оценка силы корреляционных зависимостей выполнялась при помощи программы STATISTIKA. Для достоверности результатов исследования анализ влияния лексиче ских параметров на читабельность текста проведен на двух уровнях: учебники (рассчитывались средние показатели по 15 учебникам 5-7 классов), 1000-словные сегменты текста. Выявлен несколько сниженный (в среднем на 1.0-1.5. уровней) от ожидаемого индекс читабельности изученных текстов, который может служить характеристикой текста учебника по русскому языку как жанра и свидетельствует об эклектичности учебного текста, включающего фрагменты научного стиля (правила), художественного (упражнения) и делового (инструкции и задания к упражнениям). Установлено, что доля терминов не превышает 2 % в словарном составе учебников, но их доля в тексте поднимается до 13 %. Доказано, что предиктивной силой роста сложности текста обладают индексы «лексической плотности», связности (локальный и глобальный повторы существительного и аргумента), «дескриптивность» (отношение прилагательных к существительным), «нарративность» (отношение глаголов к существительным), а также доля имен существительных в родительном падеже. Перспектива исследования видится в изучении роли глаголов и местоимений в текстах учебников по русскому языку как предикторов сложности.
This study addresses the urgent issue of assessing the influence of lexical parameters on text complexity. The research has been conducted on the material of a specialized linguistic corpus, which includes texts of 15 modern Russian language textbooks for 5-7 grades, with a total size of 811911 words. The study is aimed at identifying the scale and dynamics of changes in vocabulary of Russian textbooks for 5-7 grades. The research algorithm included the following stages: (a) identifying the size and content of vocabulary in modern Russian textbooks for 5-7 grades, (b) assessing the share of linguistic terms in their vocabulary, and (c) identifying complexity predictors, i.e. parameters demonstrating a statistically significant correlation with readability. The analytical part of the study was preceded by a meta-description of the corpus, its tokenization, lemmatization, segmentation into fragments of approximately 1000 words. Text parameters were calculated using the text profiler RuLingva, and the correlation strength was assessed with STATISTIKA. To ensure the research results reliability, co-dependencies of lexical parameters and text readability were analyzed at two levels: at the textbook level (with average indicators for 15 textbooks for 5-7 grades) and at the level of 1000-word fragments. We revealed a slightly lower readability index, which was expected to be 1.0-1.5 levels higher. The latter may be a characteristic of Russian language textbook as a genre and indicate eclecticism of academic texts, including fragments of research discourse (rules and theory), fiction (exercises), and instructional discourse (texts of tasks). The research demonstrated that the share of linguistic terms does not exceed 2 % in the textbook vocabulary, but their share in the texts rises to 13 %. The statistical analysis indicates that the indices of ‘lexical density’, cohesion (global and local overlaps of nouns and arguments), ‘descriptiveness’ (ratio between adjectives and nouns), ‘narrativity’ (ratio between verbs and nouns), and the share of nouns in the genitive case are text complexity predictors. The prospects for the research include studying verbs and pronouns as complexity predictors in Russian language textbooks.