Labo ML · La machine à prédire

Le point de départ · Données

0

Du tableau au graphique

Avant tout modèle, il y a un tableau : une ligne par client, une colonne par information. Mais une machine ne « voit » pas un tableau — elle voit des points dans l'espace. Survolez ou cliquez une ligne : chaque client devient un point, placé selon son salaire (horizontal) et le montant du prêt demandé (vertical).

Client	Salaire	Prêt	Statut

Cliquez une ligne pour la mettre en évidence sur le graphique →

A rembourséA fait défaut

LE MÉCANISME

Chaque colonne devient une dimension (un axe), chaque ligne devient un point. Deux colonnes → un plan en 2D, comme ici. Trois colonnes → un espace en 3D. Et au-delà ? La machine continue dans des dizaines de dimensions qu'on ne peut plus dessiner, mais où les calculs restent les mêmes.

1 ligne du tableau = 1 client = 1 point · 1 colonne = 1 axe = 1 dimension

Une fois les clients devenus des points, « apprendre » consiste à trouver des régions dans cet espace : ici, en bas à droite (gros salaire, petit prêt) on rembourse ; en haut à gauche on fait défaut.
C'est tout l'enjeu des labos suivants : tracer la frontière entre les régions (labo 2), puis décider de quel côté tombe un nouveau client.
On parle de variables (ou features) pour les colonnes, et d'observations pour les lignes — le vocabulaire de tout projet data en banque.

Retenez l'image : un modèle ne lit pas un fichier Excel, il navigue dans un nuage de points. Tout le reste en découle.

Vue d'ensemble · Classification

1

Le grand classifieur

Reprenons les 10 clients du tableau (carte 0). Comment la machine décide-t-elle qui rembourse ? Elle ne regarde pas tout d'un coup : elle pose une suite de questions, et à chaque réponse, des clients sortent. À la fin, il reste un petit groupe — et la part de bons payeurs dans ce groupe donne la probabilité. C'est ça, classer : filtrer ligne après ligne jusqu'à une probabilité.

L'arbre de décision · du tableau à la probabilité

Suivez un nouveau client. À chaque question, regardez combien de lignes entrent, combien sortent, combien continuent.

Salaire du nouveau client 55k

Prêt demandé 40k

Les nombres sur chaque branche = combien de clients du tableau suivent ce chemin. La probabilité finale = bons payeurs ÷ clients restants.

Cette probabilité, on la transforme en décision avec un seuil. Au-dessus, on refuse ; en dessous, on accorde. Voici le même mécanisme sur l'ensemble du portefeuille — un seul curseur, et toute la banque réagit.

Seuil de refus du crédit 50

Bonnes décisions

—

Crédits refusés

—

sur 100 demandes

Défauts ratés

—

accordés à tort

Bons clients perdus

—

refusés à tort

Poussez le seuil très bas, puis très haut. Aucun réglage n'est parfait — c'est tout le problème.

LE MÉCANISME

Un classifieur ne dit jamais « oui / non » d'un coup. Il filtre la population par questions successives, puis calcule une probabilité sur le groupe qui reste.

10 lignes entrent → une question en élimine une partie → … → il reste N lignes → probabilité = bons ÷ N

Chaque question = une coupe dans le tableau. « Salaire > 50k ? » envoie les clients à gauche ou à droite. Ceux qui ne suivent pas le chemin du nouveau client sortent du calcul.
La probabilité vient des lignes restantes : s'il reste 4 clients ressemblants dont 3 ont remboursé, le modèle estime 75 % de chances de remboursement. Pas de magie — juste un comptage.
Cette probabilité, c'est vous (la banque) qui la transformez en décision avec un seuil. Le seuil est un choix business : prudent (couper bas) ou agressif (couper haut).
Le modèle est le même — seul le curseur bouge. Retenez ça : on ne juge jamais un modèle sur un seul chiffre.

Les labos suivants décortiquent chaque pièce : la frontière (labo 2), le sur-apprentissage (labo 3), le test honnête (labo 3+) et le vrai coût des erreurs en francs (labo 5).

Frontière de décision

2

Tracez la frontière

Voici 40 clients passés, placés selon leur revenu (horizontal) et leur endettement (vertical). Les verts ont remboursé, les rouges ont fait défaut. Bougez la droite : c'est vous qui devenez l'algorithme. Trouvez la séparation qui fait le moins d'erreurs.

Pente de la frontière 0

Hauteur de la frontière 140

Clients mal classés

—

sur 40

Précision

—

Une simple droite suffit-elle à séparer parfaitement ? Essayez. Vous verrez que non — et c'est normal.

LE MÉCANISME

Vous venez de faire, à la main, ce qu'une régression logistique fait automatiquement : chercher la frontière qui minimise les erreurs.

« Entraîner un modèle » = laisser l'ordinateur essayer des milliers de droites et garder la meilleure.
Il ne « comprend » rien au crédit. Il optimise un nombre : le total d'erreurs.
Aucune droite ne sépare parfaitement les vrais clients — il y a toujours du chevauchement. Un revenu élevé ET très endetté reste ambigu.

Apprendre = trouver les paramètres (pente, hauteur) qui collent le mieux aux données passées

Et si on autorisait des frontières tordues, pas juste des droites ? On classerait mieux le passé… mais attention au labo suivant.

Aller plus loin — frontière de décision & apprentissage

3Blue1Brown · Comment une machine apprend à reconnaître des formes à partir de données — l'introduction visuelle de référence.

Google ML Crash Course — parcours complet et gratuit (developers.google.com)

Le piège central du ML

3

Apprendre par cœur ≠ comprendre

On augmente la complexité du modèle : de la droite toute simple jusqu'à la courbe qui se faufile entre chaque point. Regardez deux scores en même temps : sur les données connues (entraînement) et sur des clients jamais vus (test). Ils ne bougent pas dans le même sens.

Complexité du modèle 3

Précision entraînement

—

clients connus

Précision test

—

nouveaux clients

Modèle équilibré.

LE MÉCANISME

Plus le modèle est complexe, mieux il « colle » au passé — jusqu'à apprendre par cœur chaque client, bruit compris. Sur les anciens dossiers : 100 %. Sur les nouveaux : il s'effondre.

Trop simple → rate des structures réelles (sous-apprentissage)

Trop complexe → mémorise le bruit (sur-apprentissage)

L'étudiant qui récite l'examen de l'an dernier a 20/20… sur cet examen précis. Donnez-lui de nouvelles questions et il coule. Voilà l'overfitting.
C'est la raison pour laquelle on sépare toujours données d'entraînement et données de test. Un modèle qui n'a pas été testé sur du neuf ne vaut rien.

Le bon modèle n'est pas le plus précis sur le passé. C'est celui qui généralise au futur.

Aller plus loin — sur-apprentissage

Google ML Crash Course · Overfitting — courbes de perte, régularisation, early stopping (developers.google.com)

La règle d'or · Validation

3+

Entraînement et test

D'où vient cette « précision sur de nouveaux clients » du labo précédent ? D'une règle absolue du ML : on coupe les données en deux. Le modèle apprend sur une partie (entraînement) et on le note sur une partie qu'il n'a jamais vue (test). Réglez la coupe et regardez ce qui se passe.

Part des données réservée au test 20 %

Clients d'entraînement

—

le modèle apprend dessus

Clients de test

—

jamais vus à l'apprentissage

Fiabilité du test

—

LE MÉCANISME

Si on évalue un modèle sur les mêmes données qui ont servi à l'entraîner, on mesure sa mémoire, pas son intelligence. Il peut tout connaître par cœur et sembler parfait — jusqu'au premier vrai client.

Données → entraînement (apprendre) + test (vérifier sur du jamais-vu)

L'analogie de l'étudiant : réviser sur les annales (entraînement), c'est utile. Mais on le note sur un nouvel examen (test). Sinon, réciter les annales donnerait 20/20 sans rien comprendre — exactement le sur-apprentissage du labo précédent.
Trop peu de test (coupe à 0–5 %) : la note n'est pas fiable, calculée sur une poignée de clients. Le chiffre danse au hasard.
Trop de test (coupe à 50 %) : il reste peu de données pour apprendre, le modèle est moins bon. Le compromis habituel est 70–80 % entraînement / 20–30 % test.
En pratique on va plus loin (validation croisée : on tourne plusieurs découpes), mais l'idée reste la même : ne jamais se noter sur ce qu'on a déjà vu.

Déduction bancaire : un modèle de crédit présenté avec une seule précision « sur ses propres données » doit vous alerter. La bonne question à poser au data scientist : « sur quelles données jamais vues l'as-tu testé ? » C'est aussi ce qu'exigent les validateurs de modèles et le régulateur.

Lire un modèle en banquier

4

La matrice de confusion

« 95 % de précision » ne veut rien dire tout seul. Ce qui compte : quel genre d'erreur. Bougez le seuil et regardez les quatre cases se remplir. Deux erreurs très différentes vous attendent.

Seuil de détection (fraude / blanchiment) 50

Prédit : suspect

Prédit : normal

Réel : suspect

—Vrai positif ✓ alerte juste

—Faux négatif ✗ fraude RATÉE

Réel : normal

—Faux positif ✗ client embêté

—Vrai négatif ✓ laissé passer

Précision

—

alertes justes

Rappel

—

fraudes attrapées

LE MÉCANISME

Les deux erreurs n'ont pas le même prix dans une banque :

Faux positif : vous bloquez la carte d'un client honnête en vacances. Il appelle, il râle, il part chez Neon. Coûteux, mais réparable.
Faux négatif : vous laissez passer un vrai blanchiment. FINMA, amende, presse, réputation. Bien plus grave.

Rappel (recall) = part des vraies fraudes attrapées · Précision = part des alertes qui sont justes

En anti-blanchiment, on accepte beaucoup de faux positifs pour rater le moins de cas possible : on privilégie le rappel. Un analyste humain trie ensuite. C'est exactement ce que fait le système de transaction monitoring à côté duquel vous travaillez.

Aller plus loin — la matrice de confusion

StatQuest · Vrais positifs, faux négatifs et pourquoi l'accuracy seule peut être trompeuse — expliqué simplement.

scikit-learn · Évaluer un classifieur avec la matrice de confusion (scikit-learn.org)

Le coût réel · en CHF

5

Le seuil qui coûte cher

Mettons des francs sur les erreurs. Vous fixez le coût d'un bon client perdu et d'un défaut accordé. Le modèle, lui, vous dit où placer le seuil pour minimiser la facture. Ce n'est presque jamais 50.

Coût d'un défaut non détecté 20 000 CHF

Coût d'un bon client refusé (manque à gagner) 3 000 CHF

Seuil optimal calculé : —

REFUSE LARGEÉQUILIBREACCORDE LARGE

Coût total au seuil optimal

—

LE MÉCANISME

Le modèle sort des probabilités identiques pour tout le monde. Mais le seuil optimal change selon les enjeux financiers :

Si rater un défaut coûte très cher (gros crédit hypothécaire), on coupe bas : on refuse au moindre doute.
Si refuser un bon client coûte cher (marché concurrentiel, marge sur les jeunes clients), on coupe haut.

Coût(défaut) ↑ ⇒ seuil de refus ↓ · Coût(client perdu) ↑ ⇒ seuil de refus ↑

Voilà pourquoi UBS et Raiffeisen, avec le même type de modèle, n'accordent pas les crédits de la même façon : leurs coûts ne sont pas les mêmes. La data science propose, le métier dispose.

Aller plus loin — ML et scoring de crédit en banque

Ivy Pro School · Comment les banques utilisent le machine learning pour le scoring de crédit — le lien entre la théorie et la pratique.

Algorithme · les plus proches voisins

6

« Dis-moi qui te ressemble »

Voici l'algorithme le plus intuitif du ML : le k-NN. Un nouveau client arrive (le point blanc). On regarde ses k voisins les plus proches et on vote. Bougez le point, changez k, et voyez la décision basculer.

Nombre de voisins consultés (k) 3

Voisins « bons / mauvais »

—

Décision

—

Cliquez n'importe où dans le cadre pour déplacer le nouveau client.

LE MÉCANISME

Le k-NN ne calcule aucune équation à l'avance. Il garde tous les exemples passés et, à chaque nouvelle demande, cherche les plus ressemblants.

k = 1 : on copie le voisin le plus proche. Très sensible au bruit — un seul client atypique fausse tout.
k grand : on moyenne sur beaucoup de voisins. Plus stable, mais on lisse les cas particuliers.
Choisir k, c'est le même dilemme qu'au labo 3 : trop petit = sur-apprentissage, trop grand = sous-apprentissage.

« Tu ressembles à des clients qui ont remboursé → tu rembourseras probablement »

Simple, transparent, explicable — un atout en banque où il faut justifier un refus. Mais lent et gourmand quand les données explosent.

Algorithme · l'arbre de décision

7

Construisez l'arbre de crédit

L'arbre de décision est le modèle que les régulateurs adorent : on lit la décision comme une suite de questions oui/non. Activez les règles une à une et regardez la pureté des groupes s'améliorer.

Pureté des décisions

—

groupes bien triés

Profondeur de l'arbre

0

questions posées

LE MÉCANISME

Chaque question coupe la population en deux et rend chaque groupe plus « pur » (que des bons, ou que des mauvais). L'arbre cherche, à chaque étape, la question la plus discriminante.

Lisible : « Refusé car revenu < 60k ET endettement > 35 % ». Un client, un juge, FINMA — tout le monde comprend.
Empilez trop de questions → l'arbre mémorise chaque client (sur-apprentissage, encore). On le « taille » (pruning).
Des centaines d'arbres votant ensemble = forêt aléatoire, l'un des modèles les plus utilisés en scoring.

Précision ↗ mais explicabilité ↘ quand le modèle se complexifie

Le grand arbitrage du ML en banque : un réseau de neurones est plus précis, mais vous ne pouvez pas expliquer son refus. L'arbre, si. Souvent, le métier choisit l'explicable.

Les variables (features)

8

Quelles données nourrissent la machine ?

Un modèle ne vaut que par ses données d'entrée. Activez/désactivez les variables et regardez la précision bouger. Certaines aident énormément, d'autres ne servent à rien — et une est carrément interdite.

Précision du modèle

—

Variables actives

—

LE MÉCANISME

La qualité du modèle dépend d'abord des variables, pas de l'algorithme :

Variables utiles (revenu, endettement, historique) : elles portent vraiment l'information de risque.
Variables inutiles (pointure) : elles n'ajoutent que du bruit et peuvent dégrader le modèle.
Variable interdite (nationalité, sexe, religion) : même si elle « améliore » le chiffre, elle est illégale et discriminatoire. La loi suisse et FINMA l'interdisent.

Attention au proxy : le code postal peut « cacher » l'origine → discrimination indirecte

C'est le piège n°1 de l'IA bancaire : un modèle apprend les biais présents dans les données passées. Si la banque a historiquement moins prêté à un groupe, le modèle reproduit — et amplifie — cette injustice. On reverra ça en séance 2.

Application · WealthTech

9

Le robo-advisor

Selma, True Wealth, Yuh Invest : derrière l'appli, un modèle traduit votre profil de risque en allocation d'actifs. Réglez le profil du client et regardez le portefeuille se recomposer en direct.

Tolérance au risque du client 5

Horizon de placement 10 ans

Actions

—

Obligations

—

Liquidités

—

Rendement attendu

—

indicatif / an

LE MÉCANISME

Le robo-advisor applique une règle apprise : plus de tolérance au risque + horizon long → plus d'actions. Plus de prudence ou horizon court → plus de liquidités et d'obligations.

Avantages : pas cher, disponible 24/7, discipline (rééquilibrage auto), accessible dès quelques centaines de francs.
Limites : il ne connaît pas votre divorce, votre achat immobilier imminent, votre angoisse réelle en cas de krach.
FINMA encadre le conseil automatisé : l'adéquation (suitability) du conseil reste une obligation, robot ou pas.

Tolérance ↑ · Horizon ↑ ⇒ part actions ↑ ⇒ rendement attendu ↑ (et risque ↑)

C'est de l'IA « simple » mais à fort impact : elle démocratise la gestion de fortune qui était réservée aux clients aisés. Votre banque y réfléchit déjà — ou le propose déjà.

Synthèse · diagnostic

10

Détective : qu'est-ce qui cloche ?

Trois modèles déraillent en production. À vous de poser le bon diagnostic avec ce que vous venez d'apprendre. Une seule bonne réponse par cas.

Cas A — « 99,9 % de précision, et pourtant inutile »

Un modèle anti-fraude affiche 99,9 % de précision. Mais il n'a attrapé aucune des 12 fraudes du mois.

1 Le modèle a sur-appris les données d'entraînement

2 La fraude est si rare que « tout dire normal » donne déjà 99,9 % — le rappel est nul

3 Il manque la variable « revenu »

Cas B — « Parfait en test, catastrophe en vrai »

Un modèle de crédit obtient 100 % sur les anciens dossiers, mais se trompe une fois sur trois sur les nouveaux clients.

1 Sur-apprentissage : il a mémorisé le passé au lieu de généraliser

2 Le seuil de décision est trop bas

3 Il y a trop peu de variables

Cas C — « Le modèle refuse plus souvent un groupe »

Un scoring refuse systématiquement plus les habitants d'un certain quartier, alors que la nationalité n'est pas dans le modèle.

1 Pur hasard, rien à signaler

2 Le modèle est sous-appris

3 Le code postal sert de proxy à l'origine → biais et discrimination indirecte

Exercice 1 · Réflexe

★1

Approuve ou refuse

Vous êtes le modèle. 10 demandes de crédit défilent, une par une. Pour chacune : ACCORDER ou REFUSER, en quelques secondes. Un défaut accordé coûte cher ; un bon client refusé aussi. Maximisez le résultat de la banque.

LE MÉCANISME

Chaque demande, vous avez combiné plusieurs variables (salaire, prêt, dette, historique) en une décision binaire — exactement ce que fait un modèle de scoring, mais à la vitesse de milliers par seconde.

Vous avez ressenti le vrai arbitrage : refuser par prudence fait aussi perdre de l'argent (bons clients partis à la concurrence).
Vos erreurs ne se valent pas : un défaut accordé coûte bien plus qu'un bon client perdu. C'est pourquoi une banque règle son seuil côté prudent (revoir labo 5).
Un modèle ne se « fatigue » pas et applique exactement la même règle à la 10ᵉ comme à la 10 000ᵉ demande — votre avantage à vous, c'est le jugement sur les cas limites.

Exercice 2 · Optimisation

★2

Trouve le meilleur seuil

Voici un portefeuille de 500 demandes. Un défaut accordé coûte 25 000 CHF, un bon client refusé coûte 4 000 CHF de marge perdue. À vous de placer le seuil qui minimise la perte totale. Vous avez un seul essai noté — réfléchissez avant de valider.

Votre seuil de refus 50

Défauts accordés

—

Bons clients perdus

—

Perte estimée

—

LE MÉCANISME

Le seuil optimal dépend du rapport des coûts, pas du modèle. Ici un défaut coûte ~6× un bon client perdu, donc il faut couper plutôt bas : mieux vaut refuser quelques bons clients que laisser passer un défaut.

Coût(défaut) ≫ coût(client perdu) ⇒ seuil bas (prudent)

Vous avez résolu le même problème que le labo 5, mais en mode défi : trouver le minimum d'une courbe de coût.
Dans une vraie banque, ce rapport de coûts est une décision de direction — et il change selon le produit (petit crédit conso vs hypothèque).
Aucun modèle ne fixe ce seuil pour vous : la data science calcule la probabilité, le métier choisit où couper.

Exercice 3 · Jugement

★3

Le procès du modèle

Trois modèles, trois situations défendables… ou pas. Pour chacune : le modèle est-il acceptable ou faut-il le bloquer ? Choisissez, puis lisez le verdict. Il n'y a pas toujours de réponse évidente — c'est le raisonnement qui compte.

Cas A — Le modèle ultra-performant

Un nouveau modèle de crédit a 96 % de précision, bien mieux que l'ancien (89 %). Mais c'est un réseau de neurones : impossible d'expliquer pourquoi il refuse un client donné. La direction veut le déployer demain.

A On déploie : 96 % de précision, c'est ce qui compte

B On bloque (ou on encadre) : sans explicabilité, on ne peut pas justifier un refus — exigence FINMA

Cas B — Le modèle qui ne refuse jamais

Pour « ne perdre aucun bon client », un chef de produit règle le seuil très haut : le modèle accorde 98 % des demandes. Les défauts explosent le trimestre suivant, mais les volumes de crédit n'ont jamais été aussi beaux dans le reporting.

A On bloque : optimiser le volume en ignorant le coût des défauts, c'est piloter à l'aveugle

B On garde : plus de crédits accordés = plus de revenus, c'est positif

Cas C — Le modèle « juste mais gênant »

Un modèle parfaitement légal, basé sur salaire et endettement, refuse statistiquement plus souvent les jeunes de moins de 25 ans — simplement parce qu'ils gagnent moins et sont plus endettés en moyenne. Aucune variable interdite n'est utilisée.

A Scandale : c'est de la discrimination par l'âge, à interdire

B Acceptable mais à surveiller : la décision repose sur des critères de risque légitimes, pas sur l'âge — mais l'impact mérite un suivi d'équité

LE MÉCANISME

Ces cas n'ont pas de bouton « bonne réponse » dans un manuel. Ils demandent d'arbitrer entre performance, explicabilité, coût et équité — ce que ni le modèle ni ChatGPT ne tranchent à votre place.

Cas A : performance vs explicabilité. En crédit aux particuliers, l'explicabilité l'emporte souvent — on doit pouvoir motiver un refus.
Cas B : optimiser le mauvais indicateur (volume) au lieu du bon (profit net du risque). Classique et dangereux.
Cas C : différence entre discrimination (illégale, sur critère interdit) et impact différencié (légal mais à surveiller). Nuance essentielle que les régulateurs scrutent.

C'est exactement ce type de jugement qui résiste à l'examen open-book : aucune IA ne vous donnera la « bonne » réponse, parce qu'elle dépend du contexte, du risque et de la réglementation.

La machine à prédire

Du tableau au graphique

Le grand classifieur

Tracez la frontière

Apprendre par cœur ≠ comprendre

Entraînement et test

La matrice de confusion

Le seuil qui coûte cher

« Dis-moi qui te ressemble »

Construisez l'arbre de crédit

Quelles données nourrissent la machine ?

Le robo-advisor

Détective : qu'est-ce qui cloche ?

Trois défis à relever

Approuve ou refuse

Trouve le meilleur seuil

Le procès du modèle