Для этого отслеживается история его транзакций на протяжении определенного отрезка времени (например, шести месяцев) и согласно установленным критериям определяется его ценность, а потом на основании уже известных клиентских историй и профилей клиентов прогнозируется будущая доходность клиентов, находящихся в кредитном портфеле в данный момент.
В этом же классе определение таких важных параметров клиентов, как вероятность их ухода (attrition), склонность их к использованию данного или других продуктов (propensity), а также к увеличению объемов использования (up-sale) или приобретения других продуктов (cross-sell).
Следует сделать два крайне важных замечания: (1) данные по транзакциям используются для выявления и предотвращения мошенничества (см. раздел настоящей главы Скоринг и мошенничество) (и это тоже относят к поведенческому скорингу); (2) для поведенческого скоринга все в большей степени используются данные не только по конкретному счету (продукту), а весь комплекс данных по клиенту, т.е. как именно он пользуется всем набором используемых продуктов.
Недаром опытные банкиры говорят, что по ипотеке перестают платить в последнюю очередь. Имея данные по другим продуктам, проблемного клиента можно увидеть раньше и попытаться своевременно найти решение.
Прагматический подход, т.е. отказ от поиска причинно-следственных связей между параметрами и использование выявленных зависимостей между параметрами для прогнозирования поведения клиента (вероятности дефолта по кредиту), вызывает у многих довольно сильное отторжение и приводит к определенным законодательным ограничениям в этой области в некоторых странах.
В США законодатели озаботились тем, что скоринг, возможно, ведет к дискриминации, поскольку учитывает пол, возраст, цвет кожи, религию и т.д. В результате в 1974 г. был принят Акт о равных возможностях (The Equal Credit Opportunity Act - ECOA), исключивший использование пола и семейного статуса, а в марте 1976 г. - поправки к нему, которые исключили еще несколько категорий, в том числе расу, цвет кожи, религию, страну происхождения, возраст, получение общественных пособий. Это наложило серьезные ограничения на возможность использования значащих характеристик и затруднило построение статистически и методологически надежных систем.
Основы разработки рейтинговой таблицы, ее проверки и настройки
Изначально при определении риска кредитования и принятии решения о том, выдавать ли кредит (а если выдавать, то на каких условиях), использовался исключительно оценочный или экспертный подход. Как правило, решение принималось на основании 3-х, 4-х или 5-ти Си (С):
1) характер клиента (The Character of the person) - известен ли характер клиента и характеристика его семьи;
2) капитал (The Capital) - какая сумма запрашивается;
3) обеспечение (The Collateral) - что из своей собственности готов предоставить клиент в залог;
4) платежеспособность (The Capacity) - насколько клиент способен выплачивать кредит, сколько у него свободных денег;
5) условия (The Condition) - каковы условия на рынке.
В настоящее время кредитный скоринг основывается на методах статистических исследований или исследований операций (operational research). Статистические подходы включают в себя дискриминационный анализ, в основе которого лежат линейная регрессия и более эффективная логарифмическая регрессия и классификационные деревья (classification trees), иногда называемые алгоритмами рекурсивного разделения. Методы исследования операций включают в себя определенные варианты линейного программирования. Большинство разработчиков скоринговых моделей применяют один или несколько вышеуказанных методов, часто в комбинации. Кроме того, в разработке скоринговых моделей используется ряд методов непараметрической статистики и подходы моделирования с помощью искусственного интеллекта.
Так, в последние десятилетия испытывались подходы нейронных сетей, экспертных систем, генетических алгоритмов и методы ближайших соседей. Весьма интересно, что к одной и той же классификационной проблеме применяются столь разнообразные методы. Отчасти это обусловлено исключительно прагматическим подходом к проблеме снижения риска при выдаче кредитов: если работает - надо использовать!
Цель - спрогнозировать, кто не справится с возвратом, а не дать объяснение, почему не справится, или подтвердить ту или иную гипотезу о связи между невыплатой и определенными экономическими или социальными параметрами (что отчасти и спровоцировало бурные обсуждения и принятие акта ЕСОА).
Построение скоринговых моделей
Для построения скоринговых моделей (причем независимо от выбранного математического подхода) берется репрезентативная выборка из предыдущих заявителей (от нескольких тысяч до сотен тысяч - что не проблема для отрасли, обслуживающей десятки миллионов клиентов). Для каждого заявителя из выборки извлекается полная информация из анкеты-заявления и информация из его кредитной истории за фиксированный период времени (обычно 12, 18 или 24 мес.). Затем принимается экспертное решение, какую историю считать приемлемой, т.е. является ли клиент хорошим или плохим. Чаще всего плохим считается клиент, не выплативший по кредиту 3 месяца подряд. Всегда оказывается некоторое число клиентов, которых нельзя отнести ни к хорошим, ни к плохим, поскольку они либо недостаточно давно получили кредит (прошло слишком мало времени), либо их кредитная история неясна (например, были задержки по 3 месяца, но не подряд).
Как правило, такие промежуточные клиенты исключаются из выборки.
Эмпирические требования к базе данных, используемых для построения скоринговой модели:
размер выборки - не менее 1500 всего, не менее 500 плохих;
четкое определение критерия плохой/хороший. Далеко не всегда ясно, на каком этапе кредитной истории, по какому признаку и на каком уровне разделять плохих и хороших;
четкое определение временного отрезка - периода жизни продукта (зависит от самого продукта и может меняться от месяца - мобильный телефон до десятилетий - ипотека);
стабильность состава клиентской группы - демография, миграции, сохранение привычек потребления;
неявное, но обязательное требование: стабильность экономических, политических, социальных и прочих условий.
При построении кредитных моделей существенным является выбор временного горизонта - отрезка времени между подачей заявления (выдачей кредита) и классификацией плохой/хороший. Анализ показывает, что процент дефолта как функция длительности нахождения клиента с организацией поначалу растет и только через 12 месяцев (кредитные карты) и даже более (разовые займы) начинает стабилизироваться. Таким образом, меньший временной горизонт приводит к недооценке и не учитывает полностью всех характеристик, предсказывающих дефолт. С другой стороны, временной горизонт более двух лет оставляет модель подверженной к сдвигам в составе клиентской группы в течение этого времени, т.к. как состав клиентов в выборке в начале временного горизонта может оказаться существенно отличным от состава клиентов, приходящих в настоящее время. Фактически используются два единовременных среза (в начале и в конце временного горизонта) для создания модели, которая стабильна по времени (за пределами начального временного отрезка).
Это и диктует выбор длины временного отрезка - временного горизонта при моделировании.
Другим чрезвычайно важным и дискутируемым вопросом остается соотношение хороших и плохих в выборке. Должно ли оно отражать реальное соотношение их в составе населения или их должно быть равное число (такое соотношение резко облегчает построение модели с математической точки зрения)?
Далее построение скоринговой модели превращается в классификационную проблему, где входными характеристиками (или параметрами) являются ответы на вопросы анкеты-заявления и параметры (или данные), получаемые в результате проверок из различных организаций (например, полиции, судов, местных советов, кредитных бюро и т.д.), а выходными характеристиками (ответом) - искомым результатом - является разделение клиентов на хороших и плохих согласно имеющимся кредитным историям, сопоставленным по этим входным характеристикам.
Собственно рейтинговая таблица (scorecard) - это система придания численных баллов (счета) характеристикам (или параметрам) заемщика для получения искомого числового значения, которое отражает, с какой вероятностью у заемщика по отношению к другим заемщикам произойдет некое событие или он совершит определенное действие (аспект по отношению в определении очень важен).
Кредитная рейтинговая таблица, например, не показывает, какой уровень риска следует ожидать (скажем, какой процент кредитов данного типа, вероятно, не будет возвращен); вместо этого она показывает, как данный заем, скорее всего, будет вести себя по отношению к другим займам. Например, ожидается ли, что процент невозвратов или дефолтов для кредитов с данным набором атрибутов будет больше или меньше, чем у кредитов с другим набором.
Большинство рейтинговых таблиц построены с помощью расчета регрессионной модели - статистической модели, которая проверяет, как отдельный параметр (характеристика) влияет на другой параметр или (чаще всего) на целый набор других параметров.