Метод автоматической классификации коротких текстовых сообщений

В статье представлены результаты исследования в области классификации коротких текстовых документов. Проанализированы методы классификации на основе анализа распределения лексических дескрипторов естественного языка. Описан метод оценки информационной значимости в текстах естественного языка. Представлен метод классификации текстовых документов на основе характеристики тематической значимости.

Short text messages classification method

The article covers short text classification method based on different measures of similarity word distribution. The work presents the text classification method based on a new lexical descriptor information gain concept and a topic importance characteristic. The results of experiments are presented.

Издательство
Федеральное государственное учреждение "Федеральный исследовательский центр "Информатика и управление" Российской академии наук
Номер выпуска
3
Язык
Russian
Страницы
93-102
Статус
Published
Год
2012
Организации
  • 1 Российский университет дружбы народов
  • 2 МГУ им. Ломоносова
  • 3 ИСА РАН
Ключевые слова
short text classification; metadata based classification; tf; IDF; svm; topic importance characteristic; классификация коротких текстовых документов; классификация по метаданным; мультиномиальная модель; метод опорных векторов; характеристика тематической значимости
Цитировать
Поделиться

Другие записи