FAMILLE 2 · PAS DE RÉPONSES, ON CHERCHE

Apprentissage non-supervisé

Aucune étiquette, aucune « bonne réponse ». Le modèle cherche seul des structures dans les données : des groupes (K-means), des anomalies (fraude/AML), ou une façon de résumer beaucoup de colonnes en quelques-unes (PCA). On découvre, on ne prédit pas.

Méthode 1 · K-means

Segmenter la clientèle

Exemple réel · Marketing bancaire

Une banque possède des milliers de clients mais aucune segmentation. Elle veut découvrir des groupes naturels (selon revenu et activité du compte) pour adapter ses offres — sans préjugé sur qui appartient à quel groupe. K-means les révèle.

Choisissez le nombre de segments (k) puis lancez l'algorithme. Regardez les centres se déplacer pas à pas jusqu'à ce que chaque client rejoigne le groupe le plus proche. C'est l'algorithme qui découvre les segments, pas vous.

Nombre de segments (k) 3

Itération

Compacité

—

+ haut = + serré

Lancez l'algorithme pour voir les segments émerger.

LE MÉCANISME

K-means répète deux étapes très simples jusqu'à stabilisation :

1. Chaque point rejoint le centre le plus proche · 2. Chaque centre se déplace au milieu de ses points · on répète

On choisit k à l'avance — c'est à la fois sa force (rapide) et sa faiblesse (il faut deviner le bon nombre de groupes).
L'algorithme minimise la distance totale entre les points et leur centre : des groupes compacts.
Il converge vite, mais le résultat dépend des positions de départ (d'où plusieurs essais).

LA DÉDUCTION BANCAIRE

Le clustering répond à une question que le supervisé ne peut pas poser : « quels groupes existent dans mes données, que je n'avais pas imaginés ? »

Segmentation client : cibler les offres (jeunes actifs digitaux vs retraités prudents) sans plaquer des catégories arbitraires.
Attention : K-means donne des groupes, mais ne les nomme pas. C'est l'expert métier qui interprète « le segment 2 = clients à fort potentiel d'épargne ».
Risque : un mauvais k ou des variables mal choisies produisent des segments sans valeur. L'algorithme trouvera toujours des groupes, même là où il n'y en a pas.

Le non-supervisé est un outil d'exploration : il génère des hypothèses que le métier valide ensuite.

Méthode 2 · Détection d'anomalies

Repérer ce qui sort du lot

Exemple réel · Lutte anti-blanchiment (AML)

Impossible d'étiqueter toutes les transactions « blanchiment / normal » : la fraude évolue sans cesse. À la place, on apprend ce qu'est un comportement normal, et on alerte sur tout ce qui s'en écarte trop. C'est le cœur du transaction monitoring.

Réglez le seuil de sensibilité. Les points loin de la masse normale sont signalés comme suspects. Trop sensible = trop d'alertes ; pas assez = on rate les vrais cas.

Sensibilité de détection moyenne

Transactions signalées

—

Vraies fraudes attrapées

—

sur 4

Fausses alertes

—

normales signalées

—

Les croix rouges sont les vraies fraudes. Le cercle est la zone « normale » apprise.

LE MÉCANISME

Le modèle apprend la distribution normale des transactions (montant, fréquence, géographie…), puis mesure à quel point chaque nouvelle transaction s'en éloigne.

Distance à la normale > seuil → alerte

Pas besoin d'exemples de fraude : on n'apprend que le « normal ». Tout le reste est, par définition, anormal.
Idéal quand les cas positifs sont rares et changeants — exactement le profil du blanchiment.
Le seuil arbitre entre rappel (attraper les fraudes) et fausses alertes (revoir séance 1, matrice de confusion).

LA DÉDUCTION BANCAIRE

La détection d'anomalies est obligatoire en banque (surveillance AML imposée par la loi), mais elle a un coût opérationnel énorme :

Réglée trop sensible, elle noie les analystes sous les faux positifs — la grande plaie du compliance (souvent 90 %+ des alertes sont des fausses alertes).
Réglée trop lâche, elle laisse passer un vrai cas → amende FINMA, scandale.
D'où une chaîne : l'algorithme filtre, un humain enquête. L'IA ne décide jamais seule de bloquer un compte.

C'est le cas d'usage non-supervisé le plus répandu en banque — et celui qui mobilise le plus de personnel derrière.

Méthode 3 · PCA · résumer les données

Résumer plusieurs colonnes en une seule

L'idée en une phrase

Quand deux informations disent presque la même chose, on peut les remplacer par une seule sans perdre grand-chose. Exemple : le revenu et le patrimoine d'un client vont souvent ensemble (qui gagne beaucoup possède souvent beaucoup). Plutôt que de garder deux colonnes, on peut les résumer en une : la « richesse ». C'est ça, la PCA.

Chaque point ci-dessous est un client, placé selon son revenu (horizontal) et son patrimoine (vertical). Comme les deux vont ensemble, les points forment une diagonale. Faites tourner la flèche jaune pour l'aligner sur cette diagonale : vous trouvez alors l'axe « richesse » qui résume les deux colonnes à lui seul.

Orientation de la flèche résumé 0°

Information conservée

—

par cette seule flèche

Alignez la flèche sur la diagonale des points.

Les petits traits gris montrent ce qu'on « perd » en projetant chaque client sur la flèche. Bien orientée, on perd presque rien.

LE MÉCANISME

La PCA cherche la direction le long de laquelle les points sont le plus étalés. C'est cette direction qui contient le plus d'information — donc celle qui résume le mieux.

2 colonnes qui vont ensemble → 1 seule flèche les remplace presque parfaitement

Une fois la flèche bien placée, on note simplement où tombe chaque client le long de la flèche : un seul chiffre au lieu de deux. C'est le résumé.
Plus les deux colonnes se ressemblent (revenu / patrimoine), mieux une seule flèche les résume. Si elles n'avaient rien à voir, aucune flèche ne marcherait — il faudrait les garder toutes les deux.
Avec beaucoup de colonnes, on garde 2 ou 3 flèches au lieu de 50. On appelle ça « réduire les dimensions » : moins de colonnes, presque autant d'information.

En clair : on compresse les données comme on résume un texte — on garde l'essentiel, on jette les répétitions.

LA DÉDUCTION BANCAIRE

Réduire les colonnes est utile partout où les données sont nombreuses et se recoupent :

Voir ce qu'on ne pouvait pas voir : une base client a 40 colonnes ? Impossible à dessiner. La PCA la ramène à 2 axes qu'on peut regarder à l'œil nu pour repérer des groupes.
Risque de portefeuille : des dizaines d'actifs bougent souvent ensemble (« quand le marché monte, presque tout monte »). La PCA isole ces quelques mouvements de fond communs.
Préparer un autre modèle : moins de colonnes = calculs plus rapides et moins de risque de sur-apprentissage.
La limite : la flèche-résumé est un mélange de plusieurs colonnes. « Richesse » est facile à nommer ; d'autres résumés sont plus abstraits et plus durs à expliquer à un client ou au régulateur.

Très utile pour explorer et visualiser, mais on garde toujours les colonnes d'origine pour les décisions qu'il faut pouvoir justifier.