Как работает кредитный скоринг, и какие параметры влияют на выдачу кредита

Если раньше решение о выдачи кредита принимал человек, то сейчас это делает алгоритм. В статье рассматривается, как работают алгоритмы в скоринге, какие метрики используются, и какие параметры заемщика влияют на то, выдадут кредит или нет.

Ошибка первого и второго рода

Цель банка, выдающего заем – заработать деньги. Первый риск, с которым сталкивается банк, это выдать кредит заемщику, который не вернет заем. Дефолт может наступить по разным причинам начиная от финансовых трудностей заемщика, и заканчивая сознательным мошенничеством. Фрод – отдельная задача, рассмотрим классический скоринг.

Этот случай называется ошибкой первого рода.

Но если банк перестрахуется, и никому не будем выдавать кредиты, даже тем, кто вернул бы деньги, то банк не заработает на процентах.

Отказ в кредите ответственному заемщику – ошибка второго рода.


Для того, чтобы оценить качество принимаемых алгоритмом решений, используется коэффициент Джини (GINI). В экономике и в Data Science коэффициент Gini имеет разную интерпретацию. Для кредитного скоринга он рассчитывается, как

GINI = 2 ROC AUC - 1

Т.е., для оценки скоринга используется обычная ROC-AUC кривая!

Рис.1 ROC-AUC кривая. Площадь под кривой показывает качество работы алгоритма. 0.5 – случайный прогноз, 1 – идеальный прогноз.
Алгоритмы для скоринга

Особенностью алгоритмов для скоринга, является требование к интерпретируемости. В связи с этим, часто используются линейные модели.

Если максимизировать качество, имеет смысл использовать композиции деревьев, такие как случайный лес, и XGboost. Для кейсов с циклопическим количеством сырых данных подойдут и DNN архитектуры, но нейросети целесообразно применять только крупнейшим банкам.

Применение алгоритмов в банках чаще обусловлено не максимизацией качества, а формальными требованиями к процессу принятия решения, поэтому убедитесь, что ваша нейронная сеть достаточно интерпретируема, прежде чем выпускать решение в бой!

Параметры, влияющие на риск дефолта

Разберем влияющие параметры на примере набора данных и ноутбуков с соревнования на Kaggle - Home Credit Default Risk.

В наборе 220 параметров.


.
Подпишись на рассылку новостей о AI
Только полезные материалы о машинном обучении и искусственном интеллекте. Мы уважительно относимся к нашим читателям и рассылаем письма не чаше 1 раза в неделю!
Рис.2 Распределение дефолтных и возвращенных кредитов.
Из распределения следует, что классы несбалансированы, и дефолтов меньше чем возвращенных кредитов.

Визуализируем распределения параметров, чтобы понять, имеют ли дефолтные кредиты отличающееся распределение.

Рис.3 Пример распределения дефолтных и возвращенных кредитов по возрасту.

Как видно из изображения 3, молодые заемщики имеют больший риск дефолта.

Помимо описанных характеристик заемщика, имеются еще такие параметры как EXT_SOURCE 1,2,3,4. В исследуемом наборе данных это скоринг от бюро кредитных историй и поставщиков внешних данных. Компания DATA4, является примером подобного поставщика. Активными игроками на рынке торговли данными являются сотовые операторы и БКИ.

Для того, чтобы посмотреть с какими параметрами коррелируют прогнозы внешних поставщиков данных, и как они влияют на качество алгоритма, построим корреляционную матрицу.

Построим распределения по данным внешних поставщиков, и увидим, что они имеют отличия для дефолтных кредитов.

Для большего количества признаков получим следующую картину

Найдем влияющие на дефолт факторы по feature_importances
Построим диаграмму важности признаков для случайного леса.
Что влияет:

1) Скоринг от бюро кредитных историй и внешних поставщиков данных, таких как наша компания DATA4

2) Возраст и пол

3) Время, которое прожил заемщик по месту последней регистрации

4) Срок кредита

5) Тип запрашиваемого кредита

6) Процент, который кредит составит от денежного потока и зарплаты клиента

7) Времени использования заемщиком телефонного номера

8) Временя, на последнем месте работы, и доля от общего стажа

9) Кредитный денежный поток

10) Сумма кредита

В статье были рассмотрены принципы работы кредитного скоринга, и показали параметры, которые вносят наибольший вклад в решение о выдачи кредита. Результаты выглядят правдоподобно. Чем лучше кредитная история заемщика, чем дольше заемщик работает на одной работе, реже меняете номер телефона и место жительства, и чем меньше доля кредита от располагаемых доходов, тем меньше риск дефолта.

Связаться с нами
Напишите контактные данные, чтобы мы связались с вами.
DATA4

Сделаем будущее настоящим!