Ускоренный скоринг
Как часто меняются модели кредитного скоринга в кризис
Графовая аналитика, коэффициент Джини, геоаналитика, большие данные, нейронные сети и многое другое — из таких важных элементов складывается современный кредитный скоринг. Многое из этого не было актуально еще лет пять назад, но тренды дают о себе знать. Специально для “Ъ” портал Zaim.com выяснил у экспертов, как часто меняются модели кредитного скоринга в кризис.
Кредитный скоринг (от англ. «score» — «оценка») — система оценки кредитоспособности (кредитных рисков) лица, основанная на численных статистических методах. Как правило, это компьютерная программа, куда вводятся данные потенциального заемщика. Кредитный скоринг широко используется банками, микрофинансовыми организациями и в потребительском (магазинном) экспресс-кредитовании на небольшие суммы. Скоринг заключается в присвоении потенциальному заемщику баллов по заполнении анкеты, разработанной оценщиками кредитных рисков — андеррайтерами. По результатам набранных баллов система автоматически принимает решение об одобрении или отказе в выдаче кредита.
От года или до месяца?!
Использование классических интерпретируемых алгоритмов, таких как линейная регрессия, логистическая регрессия и дерево решений, в свое время позволило получить прозрачные модели кредитного скоринга и значительно повысить эффективность принятия решений. Но мир не стоит на месте: объем доступных данных увеличивается экспоненциально, а алгоритмы предиктивной аналитики стремительно развиваются. Однако в последние два года в фокусе актуальных вопросов скоринга возник кризис, а любой кризис заставляет сомневаться в качестве и стабильности прогностических моделей.
Кризис и многие другие не менее актуальные темы эксперты активно обсуждали на 6-м ежегодном профессиональном форуме скоринговых технологий Scoring Case Forum 2021. Среди самых актуальных, по наблюдению организатора форума генерального директора ООО «Конгломерат» Алексея Тонкова,— графовая аналитика, машинное обучение, большие данные и другие, не менее важные инструменты современного риск-менеджера. Специалисты предупреждают: наблюдается масштабный поведенческий сдвиг, влияющий на устойчивые алгоритмы поведения заемщиков.
Как отмечает Алексей Волков, директор по маркетингу НБКИ, прежде скоринговые модели поведения заемщика пересматривались раз в год, сейчас — раз в месяц. Встает вопрос о том, можно ли и как анализировать и контролировать эти изменения, чтобы они не были фатальными для финансовой организации.
Сергей Афанасьев, вице-президент, начальник управления статистического анализа банка «Ренессанс Кредит», заметил, что для работы в кризисный период важно придерживаться стабильных переменных, а также строить модели на глубоких выборках, охватывающих как минимум два экономических кризиса. По его словам, на такие консервативные модели можно успешно переходить в сложившейся ситуации. Господин Афанасьев не считает, что следует часто пересматривать модели скоринга: «Например, в подходах, которые продвигает ЦБ, полное перестроение моделей необходимо проводить примерно раз в три года — на этом горизонте модель должна показывать стабильное качество. Скоринговые модели строятся на исторических данных, выборка формируется из кредитов, выданных на горизонте минимум одного года. Мы также видим, что кредитное поведение заемщиков довольно инертно и резко не меняется, за исключением кризисных периодов. Поэтому перестроение моделей раз в месяц не имеет никакого практического и технического смысла». По словам эксперта, вопрос стабильности скоринговых моделей следует обсуждать в другом ключе — важно, чтобы они были устойчивы к кризисам.
С этой точкой зрения согласен генеральный директор Webbankir Андрей Пономарев, который считает, что в глобальном плане скоринговые модели не стоит менять слишком часто, и придерживается мнения, что важны именно стабильные модели от года и дольше: «Это связано с тем, что модели построены не на постоянной, а на смещенной выборке. Иными словами, мы можем оценить работу скоринга не на 100% входящих клиентов, а только на тех, кто получил кредит или заем. Назовем их «хорошими клиентами». Между тем, как только скоринговая модель перестраивается, в выборку попадают новые классы клиентов, о которых мало что известно и которые могут вести себя совершенно иначе. Поэтому значительное изменение скоринговой модели — это всегда стресс для бизнеса. Не стоит этим злоупотреблять».
Стабильная модель скоринга позволяет накопить значимый массив данных, отследить поведение клиентов на протяжении длительного периода, а не только дефолтность или своевременную оплату по первому займу.
Но достичь полной стабильности скоринга нереально, считает управляющая санкт-петербургским филиалом АКБ «Фора-банк» (АО) Алина Бажулина. Модель скоринга может быть ультраумной и адаптивной, но случаются разного рода события: политические, экономические или социальные, на которые мир реагирует атипично, и это надо учитывать: «Стоит вспомнить, как общественность и государство приняли пандемию, какая реакция была у коммерческих структур. Многие банки на время приостановили кредитование, так как не понимали, к чему могут привести ограничения, чем чревата сложившаяся ситуация. И выходили банки из этого «мертвого» периода тоже степенно и аккуратно. В момент начала пандемии, вероятнее всего, ни одна скоринговая система не была готова к сложившимся обстоятельствам».
Евгений Чернышов, генеральный директор «Колибри Деньги», отмечает, что ситуация, включая уровень безработицы, доходы населения, долговую нагрузку, меняется очень быстро — фактически каждый месяц: «Из-за пандемии апрель 2020 года принципиально отличался от марта. Если бы изменения в скоринг не вносились оперативно, уровень просрочки стал бы катастрофическим. Например, речь идет о таком аспекте, как сфера занятости заемщика. Большое значение имеет и региональный фактор, поскольку в разных областях вводились разные ограничения, и действовали они также неодинаковое время. Локдауны сменяются QR-кодами, потом их отменой, рисками отстранения сотрудников из-за отказа от вакцинации — все это происходит очень быстро и отражается и на занятости, и на уровне доходов».
Действительно, в быстро меняющихся условиях говорить о стабильности скоринговой модели спорно.
Скоринг во многом представляет собой отчасти творческий процесс, считает вице-президент банка «Юнистрим» Григорий Волис: «Вероятно, что скорость жизни диктует необходимость более частых пересмотров скоринговых систем. Вероятно, что ежегодных пересмотров в сегодняшних реалиях уже недостаточно — нужно это делать значительно чаще».
Скоринговая модель постоянно самосовершенствуется с учетом микроизменений и дополнительных вводных. Сергей Шуминский, начальник отдела андеррайтинга и верификации ООО «МФК "Мир капитала"», считает, что обновление информации должно проводиться раз в 7–14 дней. При сохранении фундаментальных основ модели.
К одному из наиболее важных трендов современного скоринга Сергей Афанасьев относит применение нейронных сетей для извлечения информации из собственных источников данных.
К примеру, некоторые банки обучают нейронные сети на данных карточных транcакций и встраивают эти подходы в классический скоринг. Сюда относится извлечение новых знаний из коммуникаций с клиентами (звонки, чат-боты, письменные обращения), где применяется целый ряд нейросетевых технологий: от распознавания речи и текстов отсканированных писем до разнообразных задач текстовой аналитики (выделение тематик, определение тональности, понимание контекста и т. д.).
Обучение без остановки
Банки обычно применяют несколько видов скоринга: аппликационный скоринг, когда оценка клиента осуществляется во время подачи заявки на кредит, поведенческий скоринг, используемый для контроля поведения действующего клиента, а также фрауд-скоринг, который направлен на выявление мошенников.
Стоит учитывать, что люди со временем меняются. Меняются и социально-экономические условия, и все скоринговые модели необходимо корректировать с учетом выборки, состоящей из новых клиентов. Даже оптимальная скоринговая модель со временем будет терять эффективность, если ее не корректировать.
По этим причинам на рынке появляются и завоевывают свои ниши новые скоринговые инструменты.
Сергей Голицын, вице-президент, заместитель руководителя департамента анализа данных и моделирования банка ВТБ, отмечает важность учета геоаналитических данных и геоплатформ. Хотя еще три-четыре года назад данные геоаналитики в принципе не учитывались на рынке. Но «сегодня без геоаналитических решений невозможно глобальное построение сети, невозможна оценка потребительской активности клиентов. Именно на геоданных сегодня основаны большие решения в части построения, например, ритейловых и банковских сетей».
Еще один перспективный скоринговый метод — графовая аналитика (она позволяет выявить закономерности, обнаружить сообщества или группу лиц, предсказать их поведение и проч.). Банки разрабатывают использование этого инструмента около пяти лет. В последние два года публикуется много научных исследований в области графовых нейронных сетей.
Григорий Волис, вице-президент банка «Юнистрим», отмечает, что графы используются для поиска необычных шаблонов, что помогает своевременно выявлять, например, мошеннические действия. «Есть пример того, как при анализе денежных потоков между банками были выявлены неочевидные странности, изучение которых вывело на преступную группу. То есть графы отлично подходят для анализа даже абстрактных понятий, например таких, как отношения и взаимодействия. Поэтому такие решения будут все чаще применяться разными организациями, особенно теми, которые стремятся сохранить свое конкурентное преимущество на рынке».
Пока успешными историями применения графов могут похвастаться в основном крупные банки, но все идет к тому, что скоро это станет отраслевым банковским стандартом.
Объединить, но не раскрыть
Еще одно направление при формировании скоринговой модели — глобальный тренд data fusion, технология объединения разнородных сведений из разных источников, позволяющая значительно расширить знания о клиенте.
Если банки хотят завоевывать рынок дальше и улучшать обслуживание клиентов, им необходимо научиться объединять и использовать разнородные данные.
Технологически и алгоритмически это самые сложные вещи, потому что раскрытие персональных данных, коммерческой и банковской тайны, нарушение закона о связи — это те вещи, которые крупные корпорации совершенно не могут допустить. Сергей Голицын утверждает, что такого рода задачи прорабатываются совместно с командами платформ больших данных ВТБ, «Ростелекома», объединяя данные через достаточно сложные алгоритмы, такие как multy-party computation (secure multi-party computation — криптографический протокол, позволяющий нескольким участникам произвести вычисление, зависящее от тайных входных данных каждого из них, таким образом, чтобы ни один участник не смог получить никакой информации о чужих тайных входных данных) или Intel SGX (Intel Software Guard Extensions — возможность на программном уровне создания областей в виртуальном адресном пространстве, защищенных от чтения и записи извне другими процессами, включая ядро операционной системы, с целью построения мощной платформы обмена данными и моделями.
Крупные банки используют комбинированный скоринг — свои модели плюс покупные данные. Для разработки сильных скор-карт нужна не только математическая экспертиза, но и глубокое понимание бизнеса и внутренних процессов банка, поэтому у крупных игроков есть свои команды разработчиков скоринга.
Банки вынуждены закупать внешние скоринги, чтобы не проигрывать банкам-конкурентам, подтверждает Сергей Афанасьев: «Для обогащения своих скоринговых моделей мы используем нескольких внешних поставщиков — процесс использования внешних данных абсолютно легален и безопасен. Мы берем у клиента согласие на запрос данных из внешних источников. Кроме того, многие поставщики (операторы сотовой связи, социальные сети, платежные системы и др.) продают только скоринговые баллы для оценки кредитоспособности клиентов и не передают банкам личные данные клиента». Такой подход позволяет также объективно оценить вклад каждого поставщика и оптимально настроить скоринг.
Николай Меркулов, заместитель директора по анализу данных и моделированию платформы больших данных совместного предприятия ВТБ и «Ростелекома» «Платформа больших данных», утверждает, что данные, которые приходят из внутренних или внешних источников, проходят, с одной стороны, процедуру шифрования, а с другой стороны — агрегации. То есть персональные данные «в сыром виде» не передаются. Более того, они не используются в таком формате даже для внутренних целей: все данные проходят процедуру обязательного шифрования и хеширования. Таким образом выполняется задача по защите информации.
По словам Андрея Пономарева, закон «О защите персональных данных» в России соблюдается строго и серьезные участники финансового рынка никогда не будут рисковать безопасностью данных своих клиентов.
Все типы передаваемых данных контролируются. Если они передаются третьим лицам, банк или МФО обязательно получат от клиента согласие на соответствующую операцию. В свою очередь, задача анонимизации эффективно решается с помощью хеширования данных, когда информация о конкретном человеке предоставляется в виде уникального кода. Это позволяет идентифицировать пользователя, не раскрывая его личности.
Цель неизменна
Сейчас в развитии скоринга можно выделить два больших направления: технологическое и регуляторное. К технологическому направлению относятся обогащение скоринга новыми источниками данных и применение новых алгоритмов. К регуляторному — повышение стабильности моделей и снижение модельного риска.
Очень выросли рынок внешних данных, количество поставщиков, большинство из которых продают готовые скоринги. Несколько лет назад таких поставщиков было мало, и банки могли покупать все, что предлагалось на рынке, сейчас их становится кратно больше, и у банков возникла необходимость в оценке их эффективности.
Ольга Торлина, старший консультант отдела рисков SAS, отмечает, что начали развиваться и новые подходы к обработке данных. «Совершенствуется аналитическое программное обеспечение, которое позволяет использовать дополнительные инструменты в части анализа данных, моделирования, принятия решения, исследования результатов. Банки начинают применять более сложные производные прогнозные модели, построенные на базе big data и machine learning».
В последние пять лет скоринг сделал колоссальный рывок, используя цифровые технологии. Это позволяет экономить время персональных менеджеров за счет встроенных скоринговых решений и автоматизации персонализированных рекомендаций. А цель неизменна: сделать скоринг еще более совершенным и точным.