Предложен эффективный метод поиска тематически похожих документов. Показана его применимость для решения задач эксплоративного патентного поиска. Метод позволяет снизить трудоемкость и повысить качество решения аналитических задач, связанных с патентным поиском и анализом. В качестве признаков для представления текстовых документов используются как отдельные лексемы, так и словосочетания, выделяемые синтаксически. Это позволяет решить проблему экспоненциального роста размерности признакового пространства и дает возможность эффективной индексации больших массивов текстовой информации. Представлены результаты экспериментов по решению одной из задач экспертизы заявок на изобретения и полезные модели. Сделаны выводы о перспективности использования метода при решении других задач.
The paper presents an effective method for topically similar document retrieval. The exploratory patent search based on this method is proposed. The developed method reduces complexity and time of patent expertise providing the computer assistance of patent search and analysis. The phrases extracted by the parser as well as single lexemes are used as descriptors for a document. This approach prevents exponential growth of the feature space and provides effective indexing even for large text collections. The results of experiments show that the proposed method significantly outperforms the basic keyword-based approach. Conclusions are made about the prospects of using the method for solving other problems such as source retrieval for plagiarism detection and full-text clustering.