The project is presented in the paper initially is launched to design a functional recognition or classification model of a modern Russian school textbook as a genre. In this study we test and confirm the hypothesis that detection of domain (subject area) and complexity level of a textbook can be reduced to a limited number of quantitative linguistic parameters provided with accurately identified and verified value ranges. We outlined our approach to genre analysis as multi-dimensional, compiled a corpus of over 1 mln. tokens, measured values of 15 linguistic parameters in 19 textbooks of two different subject areas and complexity levels, revealed 7 complexity predictors, 7 subject area predictors, and one - frequency - a metaparameter able to discriminate textbooks of History and Social Studies from texts of other genres. Our findings highlight the significance of the following parameters for textbooks across the selected subject areas: incidence of nouns, verb tenses (present, past and future), local and global argument overlap, type-token ratio. Complexity classification model is ascertained to be a function of sentence length, word length, incidence of nouns in genitive case and verbs, Abstractness score, verb/noun ratio, and adjective/noun ratio. The outcomes of this analysis will be used to interpret quantitative linguistic descriptions and classify texts.
Проект, представленный в статье, первоначально ставил цель разработки функциональной модели распознавания или классификации современного российского школьного учебника как жанра. В этом исследовании мы проверяем и подтверждаем гипотезу о том, что определение предметной области и уровня сложности учебника может быть сведено к ограниченному числу количественных лингвистических параметров, имеющих точно заданные и проверенные диапазоны значений. Мы охарактеризовали наш подход к жанровому анализу как многомерный, собрав корпус из более чем 1 млн текстов. Лексемы, измерявшие значения 15 лингвистических параметров в 19 учебниках двух разных предметных областей и уровней сложности, выявили 7 предикторов сложности, 7 предикторов предметной области и один частотный - метапараметр, способный отличать учебники истории и обществознания от текстов других жанров. Наши результаты подчеркивают важность следующих параметров для учебников по выбранным предметным областям: частота встречаемости существительных, времена глаголов (настоящее, прошедшее и будущее), совпадение локальных и глобальных аргументов, соотношение типов лексем. Установлено, что модель классификации сложности зависит от длины предложения, длины слова, частоты встречаемости существительных в родительном падеже и глаголов, показателя абстрактности, соотношения глаголов и существительных, а также соотношения прилагательных и существительных нарицательных. Результаты этого анализа будут использованы для интерпретации количественных лингвистических описаний и классификации текстов.