LABO ML · SÉANCE 3 · 🎯 SUPERVISÉ
FAMILLE 1 · ON CONNAÎT LES RÉPONSES

Apprentissage supervisé

On donne au modèle des exemples étiquetés et il apprend à reproduire la réponse. Trois méthodes, de la plus simple à la plus puissante : prévoir un montant, prédire un oui/non, puis trancher des cas complexes avec une forêt.

Méthode 1 · Régression linéaire
1

Prévoir un montant

Exemple réel · Banque de détail
Une banque veut estimer le revenu annuel d'un client à partir de son âge, pour pré-dimensionner une offre de crédit. Elle dispose de milliers de clients dont elle connaît déjà le revenu. La régression linéaire trace la tendance.

Vous ajustez vous-même la droite de prédiction. Le but : qu'elle passe au plus près de tous les points. La machine fait pareil, mais en calculant la meilleure droite d'un coup.

Erreur totale
somme des écarts²
Qualité (R²)
Ajustez la droite pour minimiser l'erreur.
Les traits verticaux gris sont les erreurs. La meilleure droite les rend les plus courts possibles.
LE MÉCANISME

La régression linéaire cherche la droite y = a·x + b qui minimise la somme des erreurs au carré (la distance verticale entre chaque point et la droite).

revenu ≈ pente × âge + base
  • On élève les écarts au carré pour que les grosses erreurs comptent beaucoup plus, et pour que positif/négatif ne s'annulent pas.
  • Le R² mesure la part de la variation expliquée par le modèle : 1 = parfait, 0 = inutile.
  • Il existe une solution mathématique exacte : pas besoin de tâtonner comme vous le faites — l'ordinateur la calcule directement.
LA DÉDUCTION BANCAIRE

La régression linéaire est le point de départ de toute analyse quantitative en finance :

  • Prévision de revenus, de chiffre d'affaires, de pertes attendues, sensibilité d'un actif à un facteur (le fameux bêta d'une action, c'est une régression).
  • Atout : totalement transparente. Chaque coefficient se lit (« +2 000 CHF de revenu par année d'âge »). Le régulateur adore.
  • Limite : elle ne capte que des relations droites. Le revenu ne croît pas linéairement toute la vie (il plafonne, puis baisse à la retraite). Pour ça, il faut des modèles plus riches.

Règle d'or : commencez toujours simple. Si une régression linéaire suffit, inutile de sortir l'artillerie lourde.

Méthode 2 · Régression logistique
2

Prédire un oui / non

Exemple réel · Scoring de crédit
C'est LE modèle historique du scoring bancaire. À partir du score de risque d'un client, on ne veut pas un montant, mais une probabilité de défaut entre 0 et 100 %. La régression logistique transforme n'importe quelle valeur en probabilité.

Réglez la pente de la courbe en S (la sigmoïde) et son point de bascule. Observez comment elle écrase tout entre 0 et 1 — une probabilité, jamais en dessous de 0 ni au-dessus de 100 %.

P(défaut) si score 40
P(défaut) si score 70
Pente forte = décision tranchée (presque oui/non). Pente douce = beaucoup de zone grise.
LE MÉCANISME

On part d'une combinaison linéaire (comme en méthode 1), puis on la fait passer dans une fonction sigmoïde qui comprime le résultat entre 0 et 1.

P(défaut) = 1 / (1 + e^−(pente·(score − pivot)))
  • En dessous du pivot → probabilité basse ; au-dessus → probabilité haute ; au pivot → exactement 50 %.
  • La sortie est une vraie probabilité, pas un score arbitraire. On peut dire « 73 % de chances de défaut ».
  • C'est ensuite la banque qui fixe le seuil de refus (revoir séance 1) — le modèle ne fait que donner la probabilité.
LA DÉDUCTION BANCAIRE

La régression logistique domine le scoring de crédit depuis des décennies, et ce n'est pas un hasard :

  • Interprétable : chaque variable a un poids lisible. On peut expliquer à un client pourquoi il est refusé — exigence légale et FINMA.
  • Robuste et stable : elle ne sur-apprend pas facilement, elle se valide bien, elle se documente pour l'audit.
  • C'est le socle des modèles de probabilité de défaut (PD) sous Bâle III, utilisés pour calculer les fonds propres réglementaires.

Même à l'ère du deep learning, beaucoup de banques gardent la logistique en production pour le crédit : l'explicabilité prime souvent sur le dernier pour-cent de performance.

Méthode 3 · Forêt aléatoire
3

La sagesse de la foule d'arbres

Exemple réel · Détection de fraude par carte
Une transaction arrive : montant, heure, pays, type de marchand, écart au comportement habituel. Trop de combinaisons pour une simple droite. La forêt aléatoire fait voter des centaines d'arbres de décision et tranche : fraude ou non.

Ajoutez des arbres à la forêt et regardez la décision se stabiliser. Un seul arbre se trompe souvent ; des centaines qui votent se trompent beaucoup moins.

Précision
Instabilité
variance des décisions
Chaque carré = un arbre et son vote (vert = légitime, rouge = fraude). La forêt suit la majorité.
LE MÉCANISME

On entraîne des centaines d'arbres, chacun sur un échantillon différent des données et un sous-ensemble de variables. Puis on agrège leurs votes.

Beaucoup d'arbres imparfaits + indépendants → un vote collectif très fiable
  • Un arbre seul a une forte variance : il change beaucoup selon les données. En moyennant plein d'arbres, cette variance s'effondre.
  • Le « aléatoire » (échantillons et variables tirés au hasard) garantit que les arbres ne se trompent pas tous de la même façon.
  • C'est le principe de la sagesse des foules appliqué aux modèles : des erreurs décorrélées s'annulent.
LA DÉDUCTION BANCAIRE

La forêt aléatoire (et son cousin le gradient boosting) est le cheval de bataille de la fraude et du risque modernes :

  • Atout : capte des interactions complexes et non-linéaires qu'une logistique manque. Excellente performance « clé en main ».
  • Limite : moins explicable. Difficile de dire à un client pourquoi 300 arbres ont voté contre lui. On utilise des outils dédiés (importance des variables, SHAP) pour ouvrir la boîte.
  • D'où le partage des usages : fraude interne (performance prioritaire) → forêt ; refus de crédit client (explicabilité exigée) → souvent logistique.

Le grand arbitrage de la séance, encore : plus c'est puissant, moins c'est transparent. Le métier et le régulateur tranchent au cas par cas.

← Les 3 familles  ·  Non-supervisé →

© 2026 Jan Erik Meidell · Digitalisation bancaire · Séance 3 · Supervisé