В данной работе была рассмотрена задача обнаружения мошенничества в банковских операциях. Такая проблема решается как с помощью классических методик машинного обучения, так и с помощью статистического анализа. Для достижения цели был найден набор данных, состоящий из 284,807 транзакций пользователей. Учитывая большой дисбаланс между легитимными и мошенническими операциями (всего обнаружено 492 фрода), был проведен препроцессинг данных, включающий в себя нормализацию, проверку на наличие пропущенных значений и использование алгоритма ресэмплинга (метод SMOTE). Далее с целью сравнения и нахождения самой эффективной стратегии было реализовано несколько алгоритмов по обнаружению аномалий в финансовых транзакциях. В работе построены 2 модели машинного обучения с учителем, используемые для решения задач классификации (RandomForest, GradientBoosting, параметры которых были подобраны с помощью кросс-валидации) и 1 нейронная сеть с функцией активации ReLU, обучение которой осуществлялось с использованием алгоритма оптимизации Adam, что показало качественный результат в процессе исследования. Используемые в работе транзакционные данные позволили оценить эффективность каждой модели и их способность выявлять мошенничество в банковских операциях.
In this paper, the task of detecting fraud in banking transactions was considered. This problem is solved using both classical machine learning techniques and statistical analysis. To achieve the goal, a dataset consisting of 284,807 user transactions was found. Given the large imbalance between legitimate and fraudulent transactions (492 frauds were detected), data processing was carried out, including normalization, checking for missing values and using a resampling algorithm (SMOTE). Further, to compare and find the most effective strategy, several algorithms were implemented to detect anomalies in financial transactions. The paper builds 2 machine learning models with a teacher used to solve classification problems (RandomForest, GradientBoosting, the parameters of which were selected using cross-validation) and 1 neural network with the ReLU activation function, which was trained using the Adam optimization algorithm, which showed a qualitative result in the research process. The transactional data used in the work allowed us to evaluate the effectiveness of each model and their ability to detect fraud in banking transactions.