LABO ML · SÉANCE 3 · 🎲 RENFORCEMENT
FAMILLE 3 · ON APPREND PAR ESSAI-ERREUR

Apprentissage par renforcement

Pas de bonnes réponses fournies. Un agent agit dans un environnement, récolte des récompenses ou des pertes, et ajuste sa stratégie pour maximiser son gain à long terme. C'est ainsi qu'on entraîne un algorithme de trading — ou qu'on a battu les champions du jeu de Go.

La méthode phare · Q-learning
1

L'agent de trading qui apprend seul

Exemple réel · Trading algorithmique
Un agent doit décider, à chaque instant, d'acheter, vendre ou attendre une action. Personne ne lui dit la bonne action. Il l'apprend en tradant des milliers de fois sur des données passées, en gardant ce qui rapporte et en abandonnant ce qui fait perdre.

Lancez l'entraînement et regardez l'agent passer de débutant qui perd à stratège rentable, uniquement par essai-erreur. Réglez son goût du risque (exploration) et voyez l'effet.

État (prix) Action Récompense
Épisodes joués
0
Gain moyen récent
par épisode
Niveau de l'agent
débutant
Stratégie apprise dans l'état « prix en baisse » :
Acheter
0
Vendre
0
Attendre
0
Lancez l'entraînement pour voir l'agent apprendre.
La courbe = gain cumulé de l'agent au fil des épisodes. Elle doit monter à mesure qu'il apprend.
LE MÉCANISME

L'agent tient une « table de valeurs » (Q) : pour chaque état (situation du marché) et chaque action possible, combien ça a rapporté en moyenne. Il la met à jour à chaque essai.

Q(état, action) ← ancienne valeur + α × (récompense + gain futur − ancienne valeur)
  • Récompense différée : acheter aujourd'hui ne paie que si on revend plus haut demain. L'agent doit relier action présente et gain futur — le cœur de la difficulté.
  • Exploration vs exploitation : s'il ne fait que répéter ce qui marche (exploiter), il rate de meilleures stratégies. S'il explore trop, il perd de l'argent en tâtonnant. Tout l'art est dans l'équilibre.
  • Au fil des essais, la table Q converge vers la meilleure action dans chaque situation : c'est la stratégie apprise (la « politique »).
LA DÉDUCTION BANCAIRE

Le renforcement brille là où il faut une suite de décisions dans le temps, pas une prédiction isolée :

  • Exécution d'ordres : découper un gros ordre pour minimiser l'impact sur le marché — un problème séquentiel idéal pour le RL.
  • Trading & market-making, allocation dynamique, tarification : optimiser un gain cumulé sous contraintes.
  • Les dangers, eux, sont réels : un agent entraîné sur le passé peut apprendre des stratégies qui explosent en conditions inédites (krach). Il peut aussi « tricher » en exploitant des failles non prévues.
  • D'où un encadrement strict : limites de risque codées en dur, supervision humaine, tests en simulation avant tout argent réel. FINMA et la gestion des risques ne laissent aucun agent trader sans garde-fous.
Le RL optimise une récompense — encore faut-il que la récompense reflète VRAIMENT ce que veut la banque

C'est la famille la plus spectaculaire (AlphaGo, robots) mais la moins répandue en banque de détail : complexe, gourmande en données, et risquée si la récompense est mal définie.

← Non-supervisé  ·  Les 3 familles

© 2026 Jan Erik Meidell · Digitalisation bancaire · Séance 3 · Renforcement