On donne au modèle des exemples étiquetés et il apprend à reproduire la réponse. Trois méthodes, de la plus simple à la plus puissante : prévoir un montant, prédire un oui/non, puis trancher des cas complexes avec une forêt.
Méthode 1 · Régression linéaire
1
Prévoir un montant
Exemple réel · Banque de détail
Une banque veut estimer le revenu annuel d'un client à partir de son âge, pour pré-dimensionner une offre de crédit. Elle dispose de milliers de clients dont elle connaît déjà le revenu. La régression linéaire trace la tendance.
Vous ajustez vous-même la droite de prédiction. Le but : qu'elle passe au plus près de tous les points. La machine fait pareil, mais en calculant la meilleure droite d'un coup.
Erreur totale
—
somme des écarts²
Qualité (R²)
—
Ajustez la droite pour minimiser l'erreur.
Les traits verticaux gris sont les erreurs. La meilleure droite les rend les plus courts possibles.
LE MÉCANISME
La régression linéaire cherche la droite y = a·x + b qui minimise la somme des erreurs au carré (la distance verticale entre chaque point et la droite).
revenu ≈ pente × âge + base
On élève les écarts au carré pour que les grosses erreurs comptent beaucoup plus, et pour que positif/négatif ne s'annulent pas.
Le R² mesure la part de la variation expliquée par le modèle : 1 = parfait, 0 = inutile.
Il existe une solution mathématique exacte : pas besoin de tâtonner comme vous le faites — l'ordinateur la calcule directement.
LA DÉDUCTION BANCAIRE
La régression linéaire est le point de départ de toute analyse quantitative en finance :
Prévision de revenus, de chiffre d'affaires, de pertes attendues, sensibilité d'un actif à un facteur (le fameux bêta d'une action, c'est une régression).
Atout : totalement transparente. Chaque coefficient se lit (« +2 000 CHF de revenu par année d'âge »). Le régulateur adore.
Limite : elle ne capte que des relations droites. Le revenu ne croît pas linéairement toute la vie (il plafonne, puis baisse à la retraite). Pour ça, il faut des modèles plus riches.
Règle d'or : commencez toujours simple. Si une régression linéaire suffit, inutile de sortir l'artillerie lourde.
Méthode 2 · Régression logistique
2
Prédire un oui / non
Exemple réel · Scoring de crédit
C'est LE modèle historique du scoring bancaire. À partir du score de risque d'un client, on ne veut pas un montant, mais une probabilité de défaut entre 0 et 100 %. La régression logistique transforme n'importe quelle valeur en probabilité.
Réglez la pente de la courbe en S (la sigmoïde) et son point de bascule. Observez comment elle écrase tout entre 0 et 1 — une probabilité, jamais en dessous de 0 ni au-dessus de 100 %.
P(défaut) si score 40
—
P(défaut) si score 70
—
Pente forte = décision tranchée (presque oui/non). Pente douce = beaucoup de zone grise.
LE MÉCANISME
On part d'une combinaison linéaire (comme en méthode 1), puis on la fait passer dans une fonction sigmoïde qui comprime le résultat entre 0 et 1.
P(défaut) = 1 / (1 + e^−(pente·(score − pivot)))
En dessous du pivot → probabilité basse ; au-dessus → probabilité haute ; au pivot → exactement 50 %.
La sortie est une vraie probabilité, pas un score arbitraire. On peut dire « 73 % de chances de défaut ».
C'est ensuite la banque qui fixe le seuil de refus (revoir séance 1) — le modèle ne fait que donner la probabilité.
LA DÉDUCTION BANCAIRE
La régression logistique domine le scoring de crédit depuis des décennies, et ce n'est pas un hasard :
Interprétable : chaque variable a un poids lisible. On peut expliquer à un client pourquoi il est refusé — exigence légale et FINMA.
Robuste et stable : elle ne sur-apprend pas facilement, elle se valide bien, elle se documente pour l'audit.
C'est le socle des modèles de probabilité de défaut (PD) sous Bâle III, utilisés pour calculer les fonds propres réglementaires.
Même à l'ère du deep learning, beaucoup de banques gardent la logistique en production pour le crédit : l'explicabilité prime souvent sur le dernier pour-cent de performance.
Méthode 3 · Forêt aléatoire
3
La sagesse de la foule d'arbres
Exemple réel · Détection de fraude par carte
Une transaction arrive : montant, heure, pays, type de marchand, écart au comportement habituel. Trop de combinaisons pour une simple droite. La forêt aléatoire fait voter des centaines d'arbres de décision et tranche : fraude ou non.
Ajoutez des arbres à la forêt et regardez la décision se stabiliser. Un seul arbre se trompe souvent ; des centaines qui votent se trompent beaucoup moins.
Précision
—
Instabilité
—
variance des décisions
—
Chaque carré = un arbre et son vote (vert = légitime, rouge = fraude). La forêt suit la majorité.
LE MÉCANISME
On entraîne des centaines d'arbres, chacun sur un échantillon différent des données et un sous-ensemble de variables. Puis on agrège leurs votes.
Beaucoup d'arbres imparfaits + indépendants → un vote collectif très fiable
Un arbre seul a une forte variance : il change beaucoup selon les données. En moyennant plein d'arbres, cette variance s'effondre.
Le « aléatoire » (échantillons et variables tirés au hasard) garantit que les arbres ne se trompent pas tous de la même façon.
C'est le principe de la sagesse des foules appliqué aux modèles : des erreurs décorrélées s'annulent.
LA DÉDUCTION BANCAIRE
La forêt aléatoire (et son cousin le gradient boosting) est le cheval de bataille de la fraude et du risque modernes :
Atout : capte des interactions complexes et non-linéaires qu'une logistique manque. Excellente performance « clé en main ».
Limite : moins explicable. Difficile de dire à un client pourquoi 300 arbres ont voté contre lui. On utilise des outils dédiés (importance des variables, SHAP) pour ouvrir la boîte.
D'où le partage des usages : fraude interne (performance prioritaire) → forêt ; refus de crédit client (explicabilité exigée) → souvent logistique.
Le grand arbitrage de la séance, encore : plus c'est puissant, moins c'est transparent. Le métier et le régulateur tranchent au cas par cas.