ПОЛНОТЕКСТОВЫЙ КЛАССИФИКАТОР ПАТЕНТНЫХ ДОКУМЕНТОВ

Для обработки большого количества документов, содержащих знания и результаты интеллектуальной деятельности, таких как патенты, требуется автоматическая классификация. В настоящей статье рассматривается задача классификации патентных документов на основе расширенного именными группами модели векторного представления текстовых документов. Процесс классификации начинается с извлечения ключевых слов и словосочетаний из документа с помощью автоматической обработки текста, затем выявляются значимые ключевые слова и словосочетания на основе статистической меры, далее оценивается тематическая близость документов в рамках векторно-пространственной модели. Оценки тематической близости документов используются в качестве данных для обучения классификатора. Эксперименты проведены на следующих уровнях международной патентной классификации: подклассы, группы и подгруппы.

Авторы
Издательство
Ростовский государственный экономический университет "РИНХ"
Язык
Russian
Страницы
267-274
Статус
Published
Год
2018
Организации
  • 1 Федеральный исследовательский центр "Информатика и управление" РАН
  • 2 Российский университет дружбы народов
Ключевые слова
IPC; классификация патентов; метод ближайших соседей; МПК
Цитировать
Поделиться

Другие записи

Avatkov V.A., Apanovich M.Yu., Borzova A.Yu., Bordachev T.V., Vinokurov V.I., Volokhov V.I., Vorobev S.V., Gumensky A.V., Иванченко В.С., Kashirina T.V., Матвеев О.В., Okunev I.Yu., Popleteeva G.A., Sapronova M.A., Свешникова Ю.В., Fenenko A.V., Feofanov K.A., Tsvetov P.Yu., Shkolyarskaya T.I., Shtol V.V. ...
Общество с ограниченной ответственностью Издательско-торговая корпорация "Дашков и К". 2018. 411 с.