Modélisation d’un paramètre bâlois de crédit : la probabilité de défaut des Large Corporates
Les exercices TRIM (Targeted Review of Internal Models) menés par le régulateur européen (Banque Centrale Européenne) ont mis en évidence des faiblesses au sein des modèles estimant les paramètres bâlois de risque de crédit. Les principales lacunes remontées visent la définition non homogène du défaut ainsi que la variabilité du calcul des fonds propres réglementaires entre les acteurs bancaires.
Ce faisant, Square Management a accompagné l’un des acteurs bancaires majeurs ayant pour contrainte de faire évoluer ses modèles en production et ainsi répondre aux nouvelles exigences réglementaires définies au sein du programme IRB Repair.
CONTEXTE
Afin de généraliser l’étude scientifique des parcours clients au regard de la satisfaction client, plusieurs socles analytiques ont été mis en place :
-
Le premier consistait en la création d’un outil de data visualisation permettant de mesurer les impacts des parcours clients sur le niveau de satisfaction, sur la base de l’analyse des informations sinistres, contrats, clients, mais également les interactions clients / assureur. L’objectif était ainsi de disposer d’un outil analytique de référence sur la satisfaction client, son évolution, sa corrélation avec les accords de niveaux de service (délai de traitement, nombre de communications échangées) mais aussi de comprendre les drivers de l’insatisfaction.
-
En complément de cet outil de data visualisation, l’analyse des parcours au regard de la satisfaction a été renforcée par l’utilisation d’un outil de Process Mining, connecté en temps réel aux données. En exposant l’exhaustivité des flux opérationnels (communications, opérations comptables, logs de navigation web…), il est alors possible de visualiser l’ensemble des parcours et de mesurer les impacts de l’ensemble des déviations de parcours sur un ensemble de KPIs opérationnels, dont la satisfaction client. Ce projet d’ampleur allie des enjeux techniques via l’innovation technologique que représente la connexion temps réel (à la fois pour l’assureur et l’éditeur logiciel sur la mise en place et l’ingestion d’un flux Kafka, technologie de référence pour le traitement de flux de données en temps réel) ainsi que des enjeux opérationnels dans sa capacité à restituer les KPIs de gestion (alignés au pilotage déjà en vigueur) et démontrer leur exactitude.
-
Enfin, dans le but de mieux comprendre l’origine de l’insatisfaction du point de vue des clients, un projet de Natural Language Processing a été mis en place afin de classifier l’ensemble des verbatims clients. Sur ce projet, un des objectifs majeurs était la détection d’irritants actionnables pour l’établissement, à travers l’identification :
-
D’étapes bloquantes sur les parcours,
-
De mécontentements liés aux prestataires,
-
Du risque d’attrition du client en cas de forte menace.
- Etc.
-
À vocation avant tout analytique, ces projets ont été le point de départ de cas d’usage data science ayant pour objectif d’optimiser les parcours et d’améliorer la satisfaction client. Les cas d’usage présentés ci-après détaillent la manière dont Square Management a accompagné cet établissement dans l’atteinte de ces objectifs, synthétisant pour chaque projet les enjeux méthodologiques, techniques et leurs impacts opérationnels.
SOLUTIONS
Plus qu’un simple exercice de modélisation, la refonte de modèles couvre un éventail souvent ignoré de thématiques : définition des périmètres, création du Reference Data Set, échanges métier et équipe validation de modèles, analyse statistique, chiffrage RWA et implémentation IT. Chaque étape étant suivie de près par l’utilisateur final : l’analyste crédit.
Face au nombre conséquent de modèles en production et des contraintes de temps liées aux obligations réglementaires, Square Management a accompagné son client pour renforcer ses équipes et a apporté son expertise pour couvrir un périmètre stratégique, celui des Large Corporates (LC).
Square Management est intervenu dans toutes les étapes du projet de refonte du modèle de Probabilité de Défaut des LC. Plus précisément, de la construction de la base de données aux différentes validations du modèle (en interne et par les organes réglementaires), en passant par l’étape primordiale de calibration des modèles statistiques.
1. Création d’un reference data set (RDS)
Pouvoir modéliser nécessite d’avoir à disposition des données en quantité et qualité suffisante, mais nécessite également que la définition de certains indicateurs soit en phase avec la réglementation. C’est pourquoi la construction d’un Reference Data Set est un enjeu majeur, car il répond à une obligation réglementaire et constitue une base robuste à la modélisation.
L’élaboration du RDS s’effectue en plusieurs étapes majeures :
- L’identification des sources contenant les donnéesnbrutes détermine la première étape et se fait en lien avec les équipes IT. Cette problématique se complexifie avec l’utilisation de données internes et externes ou provenant de systèmes de notation variés.
- La multiplication des données et de leur provenance entraîne la seconde étape : nettoyage et uniformisation de la donnée.
- Une fois la donnée consolidée et de qualité, des discussions avec les experts métier/business permettent la constitution d’une panoplie de risk drivers à tester dans la modélisation.
En parallèle de la construction du RDS, un nouvel enjeu est la nouvelle définition du défaut (NDoD) qui se caractérise, entre autres, par la contagion plus rapide du défaut et l’inclusion d’une période probatoire avant le retour en sain.
Sa mise en place ayant seulement pu être effective sur les dernières années en raison de la non-disponibilité des informations dans les systèmes d’information du client. Il a ainsi été décidé de modéliser sur l’ancienne définition du défaut tout en s’assurant de la performance du modèle sur les données NDoD disponibles.
2. Modélisation de la probabilité de défaut
Le périmètre Large Corporates a de nombreuses spécificités, notamment en termes de volumétrie (faible quantité de données à la disposition des analystes) et de taux de défaut, caractéristique d’un portefeuille appelé LDP (Low Default Portfolio).
En effet, ces entreprises génèrent d’importants chiffres d’affaires et, par conséquent, représentent une exposition majeure pour l’établissement bancaire. Ainsi, leur solidité financière réduit la survenance d’un événement de défaut contrairement à un périmètre avec des entreprises moins solvables.
De par toutes ces problématiques identifiées, développer un modèle performant en vue, par exemple, de dégager une Probabilité de Défaut pour l’ensemble du portefeuille défini devient une tâche complexe.
Diverses méthodes statistiques ont été envisagées et testées pour considérer le maximum de données possibles, qu’il s’agisse du traitement des données manquantes ou des données considérées comme aberrantes :
- Missforest : algorithme basé sur l’Intelligence Artificielle qui permet de prédire des valeurs manquantes en entraînant un modèle basé sur les observations non manquantes disponibles.
- Méthode IQR Normale/Skewness Adjusted : cette méthode se base sur l’écart interquartile (Inter Quartile Range). Le but est de définir les 1ers et 3e quartiles d’une distribution sur des variables continues pour dégager un intervalle en dehors duquel la valeur observée sera considérée comme une valeur aberrante. Une version alternative de cette méthode prenant en compte l’asymétrie des distributions a été envisagée, mais a finalement été jugée non concluante.
Grâce à ces deux procédés, l’ensemble des données est désormais utilisable pour le processus de modélisation. Néanmoins, deux de ces étapes ont nécessité une attention particulière.
-
Le taux de défaut du portefeuille LC étant faible, le découpage du RDS en deux échantillons (base d’apprentissage et base de test) avec la méthode classique d’échantillonnage stratifié est inefficace. Par conséquent, une méthode alternative a été mise en place, il s’agit du systematic sampling. Cette méthode permet d’utiliser les variables de représentativité, comme exigé dans le cadre réglementaire, en tant que variables de contrôle et non plus comme axes de stratification.
-
Les bases d’apprentissage étant naturellement déséquilibrées en termes de présence du défaut, une méthode statistique appelée sur‑échantillonnage ou over-sampling est utilisée afin de redresser les échantillons et d’avoir autant de contreparties saines qu’en défaut.
Les modèles ont pu par la suite être calibrés via une régression logistique, dont l’intérêt réside dans le fait que la variable cible est une variable binaire (défaut ou sain dans l’année à venir).
Chacune des étapes du processus a fait l’objet d’une validation statistique et business afin de s’assurer de la robustesse du modèle sur ces deux pendants.
RÉSULTAT
L’intervention de Square Management a permis la validation en interne des travaux de modélisation et, par la suite, constituer le dossier de soumission à la Banque Centrale Européenne (BCE).
Lors de ces exercices d’audit, l’équipe Square Management a pu répondre au questionnement de deux organes internes de validation ne dépendant pas des mêmes exigences réglementaires. Par la suite, l’équipe a échangé avec la BCE sur des demandes précises justifiant des choix méthodologiques employés.
À l’issue de l’audit de la BCE, l’acceptation des modèles permettra une simplification et une uniformisation de la différenciation du risque au sein de la banque.
LE
SQUARE MANAGEMENT
-
Amélioration de l’existant et automatisation de nombreuses tâches dans le processus de modélisation, permettant un gain de temps important et de robustesse dans le cadre de la mise en place des modèles.
-
Accompagnement d’un ancien directeur des risques de l’ensemble des consultants sur les différentes problématiques de la mission.
-
Compétences techniques (programmation sous SAS et R) et statistiques de l’équipe.
-
Réponse aux différentes contraintes de timing dans un contexte soumis à de fortes pressions de par l’enjeu stratégique du projet.