Labo ML · Renforcement

La méthode phare · Q-learning

L'agent de trading qui apprend seul

Exemple réel · Trading algorithmique

Un agent doit décider, à chaque instant, d'acheter, vendre ou attendre une action. Personne ne lui dit la bonne action. Il l'apprend en tradant des milliers de fois sur des données passées, en gardant ce qui rapporte et en abandonnant ce qui fait perdre.

Lancez l'entraînement et regardez l'agent passer de débutant qui perd à stratège rentable, uniquement par essai-erreur. Réglez son goût du risque (exploration) et voyez l'effet.

État (prix)→ Action→ Récompense↺

Exploration (tenter du nouveau vs exploiter le connu) moyenne

Épisodes joués

Gain moyen récent

—

par épisode

Niveau de l'agent

débutant

Stratégie apprise dans l'état « prix en baisse » :

Acheter

Vendre

Attendre

Lancez l'entraînement pour voir l'agent apprendre.

La courbe = gain cumulé de l'agent au fil des épisodes. Elle doit monter à mesure qu'il apprend.

LE MÉCANISME

L'agent tient une « table de valeurs » (Q) : pour chaque état (situation du marché) et chaque action possible, combien ça a rapporté en moyenne. Il la met à jour à chaque essai.

Q(état, action) ← ancienne valeur + α × (récompense + gain futur − ancienne valeur)

Récompense différée : acheter aujourd'hui ne paie que si on revend plus haut demain. L'agent doit relier action présente et gain futur — le cœur de la difficulté.
Exploration vs exploitation : s'il ne fait que répéter ce qui marche (exploiter), il rate de meilleures stratégies. S'il explore trop, il perd de l'argent en tâtonnant. Tout l'art est dans l'équilibre.
Au fil des essais, la table Q converge vers la meilleure action dans chaque situation : c'est la stratégie apprise (la « politique »).

LA DÉDUCTION BANCAIRE

Le renforcement brille là où il faut une suite de décisions dans le temps, pas une prédiction isolée :

Exécution d'ordres : découper un gros ordre pour minimiser l'impact sur le marché — un problème séquentiel idéal pour le RL.
Trading & market-making, allocation dynamique, tarification : optimiser un gain cumulé sous contraintes.
Les dangers, eux, sont réels : un agent entraîné sur le passé peut apprendre des stratégies qui explosent en conditions inédites (krach). Il peut aussi « tricher » en exploitant des failles non prévues.
D'où un encadrement strict : limites de risque codées en dur, supervision humaine, tests en simulation avant tout argent réel. FINMA et la gestion des risques ne laissent aucun agent trader sans garde-fous.

Le RL optimise une récompense — encore faut-il que la récompense reflète VRAIMENT ce que veut la banque

C'est la famille la plus spectaculaire (AlphaGo, robots) mais la moins répandue en banque de détail : complexe, gourmande en données, et risquée si la récompense est mal définie.

Apprentissage par renforcement

L'agent de trading qui apprend seul