Labo IA · La machine à mots

Le cœur du LLM

1

Prédire le mot suivant

Un LLM ne fait qu'une seule chose : regarder le texte, et parier sur le mot d'après. Choisissez un début de phrase. La machine vous montre ses paris — et leur probabilité. Cliquez le mot que vous voulez ajouter, et elle recommence.

« Le client demande un… » « Le taux d'intérêt va… » « Pour ouvrir un compte il faut… »

Chaque clic = un « pas » du modèle. C'est exactement ce que fait ChatGPT, mot après mot, à toute vitesse.

LE MÉCANISME

Le modèle a lu des milliards de phrases. Il n'a retenu aucune « vérité » — seulement quels mots suivent quels mots, avec quelle fréquence.

Texte en entrée → probabilité de chaque mot possible → on en pioche un → on recommence

Il ne « sait » pas ce qu'est un crédit. Il sait que dans ses données, après « le client demande un » vient souvent « crédit », « rendez-vous », « conseil »…
Aucune base de faits, aucune vérification. Juste des statistiques sur le langage.
C'est bluffant parce que le langage humain est très régulier. Mais ça explique tout ce qui suit : l'éloquence et les erreurs.

Retenez cette phrase pour tout le cours : un LLM est un perroquet statistique très, très entraîné.

Aller plus loin — comment fonctionne un LLM

3Blue1Brown · L'explication visuelle de référence sur les Transformers — le mécanisme d'attention qui permet au modèle de « comprendre » le contexte.

Attention Is All You Need — l'article fondateur de l'architecture Transformer (Vaswani et al., 2017) (arxiv.org)

Le réglage de la créativité

2

La température

Le modèle a ses probabilités. Mais pioche-t-il toujours le mot le plus probable ? Non — un réglage, la température, décide s'il joue la sécurité ou prend des risques. Montez-la et regardez la même phrase virer du factuel au délire.

Température 0,7

Prévisibilité

—

Risque d'erreur

—

LE MÉCANISME

La température règle le « hasard » de la pioche :

Température 0 : toujours le mot le plus probable. Répétitif, mais stable et prévisible.
Température haute : il ose des mots improbables. Créatif… ou complètement à côté.

Tâche factuelle (résumé de contrat, calcul) → température basse · Brainstorming marketing → température plus haute

En banque, pour répondre à un client sur son solde ou un produit, on veut température basse et idéalement zéro invention. Une assurance-vie n'est pas un exercice de poésie. Comprendre ce curseur, c'est comprendre pourquoi le même outil peut être fiable ou dangereux selon le réglage.

Le défaut structurel

3

Pourquoi ça hallucine

Posez une question dont la réponse n'existe pas dans les données du modèle. Il ne dira jamais « je ne sais pas » spontanément — il fabrique une réponse plausible. C'est ça, l'hallucination. Et ce n'est pas un bug : c'est sa nature.

« Quel est l'IBAN de la cliente Müller ? » « Quel sera le taux BNS en décembre 2027 ? » « Cite-moi l'article FINMA sur ce cas précis. »

Remarquez le ton : assuré, précis, crédible. C'est exactement ce qui rend l'hallucination dangereuse.

LE MÉCANISME

Le modèle prédit toujours un mot suivant — même quand il n'a aucune information. Il comble le vide avec ce qui ressemble à une bonne réponse.

Pas de fait disponible → le modèle invente la suite la plus plausible → ça sonne vrai, c'est faux

Il n'a pas de notion de vérité, donc pas de notion de « je ne sais pas ».
Pire : il invente avec aplomb. Un IBAN inventé a le bon format. Un faux article de loi a un vrai numéro plausible.
En banque, c'est inacceptable sans garde-fou : conseil erroné, donnée client fabriquée, référence légale fausse = responsabilité engagée.

C'est le risque n°1 de l'IA générative en finance. Le labo 6 (RAG) montrera comment les banques essaient de le brider.

Aller plus loin — les hallucinations de l'IA

Pourquoi les LLM inventent des réponses convaincantes mais fausses — le problème fondamental de probabilité derrière les hallucinations.

Comment il « lit »

4

Tokens & coût

Le modèle ne lit pas des mots, mais des tokens : des morceaux de mots. Tapez un texte et voyez-le se découper. Chaque token coûte de l'argent et occupe la mémoire — ce qui explique pourquoi l'IA « oublie » et pourquoi elle a un prix.

Votre texte

Tokens

—

Caractères

—

Coût indicatif

—

à grande échelle

LE MÉCANISME

Le texte est découpé en tokens (≈ 0,75 mot en français). Tout se compte en tokens :

Le coût : on paie par token, en entrée et en sortie. Un assistant qui traite 100 000 conversations/mois, ça chiffre vite.
La mémoire (contexte) : le modèle ne « voit » qu'une fenêtre limitée de tokens. Au-delà, il oublie le début de la conversation.
C'est pour ça qu'un chatbot bancaire « perd le fil » sur une longue discussion, ou qu'on doit lui re-fournir le contexte.

Plus de tokens → plus cher · contexte plein → le début est oublié

Pour une banque, ça pèse dans le choix « build vs buy », le coût d'exploitation, et la confidentialité (que met-on dans le contexte ?).

Le sens comme géométrie

5

Embeddings : le sens en carte

Comment une machine « comprend » que Twint est proche de paiement et loin de hypothèque ? Elle transforme chaque mot en position sur une carte. Les mots proches ont un sens proche. Cliquez un mot pour voir ses voisins s'illuminer.

Mot sélectionné

—

Plus proche voisin

—

Cliquez les points. Les paiements sont d'un côté, le crédit immobilier de l'autre, la régulation ailleurs.

LE MÉCANISME

Chaque mot (ou phrase, ou document) devient un vecteur — une liste de centaines de nombres = une position dans un espace. Le « sens » devient une distance.

Sens proche → vecteurs proches → distance faible

C'est ce qui permet la recherche sémantique : chercher « comment payer un ami » trouve « Twint » même sans le mot exact.
Ça alimente les recommandations, le classement de documents, la détection de doublons, et le RAG (labo suivant).
Fait célèbre : roi − homme + femme ≈ reine. Le sens se calcule comme de la géométrie.

Pour une banque : retrouver le bon document de conformité, router un email client vers le bon service, détecter deux réclamations identiques. Discret, mais partout.

Aller plus loin — les embeddings

OpenAI · Guide des embeddings vectoriels — comment transformer du texte en vecteurs numériques (developers.openai.com)

Brider l'hallucination

6

RAG : donner une source

La parade des banques contre l'hallucination : ne pas laisser le modèle répondre de mémoire, mais lui fournir d'abord les documents et lui demander de s'y tenir. Comparez la même question, avec et sans source.

« Quels sont les frais du compte jeune chez nous ? »

Fiabilité

—

Source vérifiable

—

LE MÉCANISME

RAG = Retrieval-Augmented Generation. On combine la recherche (labo 5) et la génération (labo 1) :

Question → on retrouve les bons documents internes → on les donne au modèle → il répond EN S'Y APPUYANT

Le modèle ne puise plus dans sa mémoire floue, mais dans vos documents à jour et vérifiés.
Il peut citer sa source → traçable, auditable, conforme.
Si l'info n'est pas dans les documents, on peut lui faire dire « je n'ai pas l'information » au lieu d'inventer.

C'est l'approche que choisissent la plupart des banques pour leurs assistants internes : la connaissance reste maîtrisée et confidentielle, le modèle n'est qu'un « rédacteur » par-dessus. Ça ne supprime pas tout risque, mais ça le réduit énormément.

Aller plus loin — le RAG expliqué

Retrieval-Augmented Generation expliqué simplement — comment ancrer les réponses d'un LLM dans des documents vérifiés.

La fragilité des consignes

7

Le prompt fragile

Même question, formulation légèrement différente, résultat très différent. Le « prompt » n'est pas anodin. Changez un détail et voyez la réponse du conseiller IA basculer — parfois dans le mauvais sens.

Neutre : « Ce placement est-il risqué ? » Orienté : « Dis-moi que ce placement est sûr. » Avec rôle : « En conseiller prudent FINMA, … »

Qualité du conseil

—

LE MÉCANISME

Le modèle suit la pente du prompt. Si vous l'orientez, il vous donne ce que vous semblez vouloir entendre — c'est de la complaisance statistique, pas du jugement.

Prompt orienté → réponse biaisée. Un client (ou un conseiller) peut, sans le vouloir, extorquer la réponse qui l'arrange.
Bien cadrer le rôle améliore beaucoup, mais ne garantit rien.
Conséquence bancaire : un assistant mal cadré peut produire un conseil inadéquat (problème de suitability FINMA), juste à cause de la formulation.

Même modèle, même question → la formulation change la réponse

D'où la nécessité, en entreprise, de prompts système verrouillés et testés, pas laissés à l'improvisation de chaque utilisateur.

Aller plus loin — sécurité des prompts

OWASP Top 10 for LLM Applications — le classement de référence des risques de sécurité des LLM (owasp.org)

Le biais des données

8

Le modèle apprend nos préjugés

Un LLM apprend sur des textes humains — avec leurs biais. Réglez le déséquilibre des données d'entraînement et regardez l'assistant produire un conseil de plus en plus stéréotypé. Rappel de la séance 1 : garbage in, garbage out.

Biais présent dans les données d'entraînement faible

« Recommande un produit d'investissement à ce nouveau client. »

—

LE MÉCANISME

Le modèle reflète la moyenne de ce qu'il a lu. Si les textes associent (par exemple) certains profils à certains produits, il reproduit et amplifie cette association.

Données biaisées → associations biaisées → recommandations discriminatoires

Le biais est invisible : la réponse paraît neutre et professionnelle. C'est ce qui le rend pernicieux.
Même danger qu'au scoring de crédit (séance 1, labo 8) : un proxy, un stéréotype, et la machine discrimine « par défaut ».
FINMA et le droit suisse exigent l'égalité de traitement. Un assistant biaisé expose la banque juridiquement.

La parade : données contrôlées, tests d'équité réguliers, et un humain dans la boucle sur les décisions sensibles.

Qui est responsable ?

9

FINMA & la responsabilité

L'assistant IA donne un mauvais conseil à un client, qui perd de l'argent. Qui paie ? Choisissez le niveau d'autonomie laissé à l'IA et voyez où se place le curseur du risque réglementaire.

RISQUE MAÎTRISÉVIGILANCEZONE ROUGE

LE MÉCANISME

Principe clé : déléguer la tâche ne délègue pas la responsabilité. Le régulateur tient la banque pour responsable de ses conseils, qu'ils viennent d'un humain ou d'une machine.

Human-in-the-loop : l'IA propose, un professionnel valide. Modèle privilégié pour tout ce qui touche le conseil et l'argent du client.
FINMA insiste sur l'explicabilité, la traçabilité et l'adéquation du conseil — difficiles à garantir si l'IA décide seule.
Plus on laisse d'autonomie à l'IA sur des décisions sensibles, plus le risque juridique et réputationnel grimpe.

Autonomie de l'IA ↑ → risque réglementaire ↑ (sans que la responsabilité de la banque baisse)

C'est pourquoi, aujourd'hui, l'IA générative en banque sert surtout d'assistant (résumer, rédiger, chercher) et rarement de décideur autonome sur l'argent des clients.

Aller plus loin — FINMA et l'IA en banque

FINMA · L'intelligence artificielle sur le marché financier suisse — dossier officiel (finma.ch) FINMA Guidance 08/2024 · Gouvernance et gestion des risques liés à l'IA (finma.ch)

Synthèse · diagnostic

10

Détective : faut-il faire confiance ?

Trois usages de l'IA générative dans une banque. Pour chacun : sûr, ou dangereux ? Mobilisez tout ce que vous venez de voir.

Cas A — Le résumé de réunion

Un conseiller colle ses notes de rendez-vous et demande à l'IA un résumé structuré, qu'il relit avant de l'archiver.

1 Usage raisonnable : tâche de rédaction, humain dans la boucle, pas de décision

2 Dangereux : l'IA ne doit jamais toucher aux données client

3 Dangereux : risque d'hallucination majeur

Cas B — Le conseil en placement automatique

Une banque branche ChatGPT directement sur le chat client : il répond seul aux questions de placement, sans documents internes ni validation.

1 Parfait : disponible 24/7 pour les clients

2 Dangereux : hallucination + pas de source + conseil non validé = risque FINMA majeur

3 Sans risque si la température est à zéro

Cas C — La recherche dans la doc interne

Un assistant RAG répond aux questions des employés en s'appuyant sur les procédures internes à jour, et cite toujours sa source.

1 Bon usage : RAG + source citée + public interne = risque maîtrisé

2 Dangereux : un LLM ne doit jamais lire de documents internes

3 Inutile : autant chercher à la main