Intelligence artificielle / 25 novembre 2025

Stratagèmes de l’IA : quand l’IA commence à penser par elle-même

Amanda Lee

Conseillère principale, Programmes, Technologies pour l’avenir et TELUS Averti🅫

Une personne regarde l’écran d’un ordinateur portable.

Chaque jour, l’IA s’intègre plus profondément dans nos façons de vivre, d’apprendre, d’étudier et de travailler. Vous avez un problème mathématique? Demandez à l’IA. Vous planifiez des vacances de rêve? Demandez à l’IA. Vous cherchez des cadeaux à donner pour les Fêtes? Demandez à l’IA. Nous sommes devenus habitués à poser des questions à l’IA et à faire confiance à ses réponses. Mais que se passerait-il si l’IA commençait à agir d’une façon que nous ne lui avons pas demandée?

Les chercheurs se sont penchés sur ce problème qu’ils nomment les stratagèmes de l’IA. Même si la plupart d’entre nous ne sont pas confrontés aux stratagèmes de l’IA pour le moment, le phénomène soulève des questions importantes et suscite des interrogations quant à l’avenir de la technologie. Comment faire en sorte que l’IA demeure un outil utile, sans qu’elle se mette à fixer de nouvelles règles par elle-même?

Que sont les stratagèmes de l’IA?

OpenAI, l’entreprise derrière le très populaire outil ChatGPT (le site chatgpt.com reçoit environ 4,61 milliards de visites par mois et quelque 2,5 milliards de questions d’utilisateurs chaque jour), définit les stratagèmes de l’IA comme « le comportement d’un assistant virtuel qui se prétend aligné, mais qui a secrètement un autre objectif. »

Que signifie-t-on par IA alignée et IA décalée? Selon le blogue AI for Absolute Beginners (l’IA pour les débutants absolus) (en anglais), « l’IA est alignée lorsqu’elle se comporte d’une manière qui correspond aux objectifs de l’utilisateur. Elle est décalée lorsqu’elle est optimisée pour l’atteinte d’un objectif non prévu, dangereux ou étrangement littéral. »

Quelles situations de décalage pouvons-nous reconnaître? Le blogue présente trois exemples :

Un algorithme de contenu optimise les clics (p. ex., piège à clics) et pas nécessairement la vérité.
Un bras de robot est récompensé parce qu’il semble attraper une balle au lieu de le faire.
Un assistant virtuel censé être utile et « honnête » retransmet du contenu douteux, et parfois trompeur.

Entraînement pour contrer les stratagèmes

OpenAI s’est associée à Apollo Research, une organisation spécialisée dans la sécurité de l’IA, pour mettre à l’essai des techniques pour contrer les stratagèmes. L’introduction de l’étude indique :

Nous avons mis au point une technique d’entraînement qui enseigne aux modèles d’IA à ne pas créer de stratagèmes, c’est-à-dire à ne pas poursuivre secrètement des objectifs indésirables, et nous l’avons étudiée rigoureusement. Comme les modèles actuels ne sont pas vraiment capables de mettre en œuvre des stratagèmes nocifs, nous nous concentrons sur les « comportements discrets » – par exemple, dans les cas où l’IA enfreint les règles ou offre intentionnellement un rendement médiocre lors d’essais.

Voici les principales conclusions de l’étude :

L’entraînement a aidé à réduire les stratagèmes, mais ne les a pas éliminés complètement (entraîner les modèles à ne pas recourir à des stratagèmes ne ferait qu’améliorer leurs compétences à le faire plus tard).
Les modèles d’IA peuvent reconnaître les environnements d’évaluation destinés à vérifier s’ils sont alignés.
La cognition de l’IA peut être suivie par la chaîne de pensées, mais la transparence de celle-ci demeure partielle pour les chercheurs.
Aujourd’hui, les préjudices réels causés par les stratagèmes sont minimes, mais il est possible que les risques soient plus élevés à l’avenir

Dans GPT-5, la dernière version de l’assistant virtuel bien connu, OpenAI a mis en œuvre plusieurs fonctions visant à tenter de limiter les stratagèmes. Parmi celles-ci :

Entraîner l’IA à reconnaître ses propres limites.
Demander des clarifications lorsque la tâche demandée semble impossible à réaliser ou lorsque la demande manque de précision.
Être plus robuste face aux défaillances de l’environnement.

OpenAI s’est empressée de souligner qu’à l’heure actuelle, les probabilités que l’IA mise sur des stratagèmes pouvant causer un préjudice important sont très faibles. Mais comme le mentionne le blogueur Dr. David Privacy Educator dans une vidéo YouTube à propos de la recherche, les essais révèlent que l’IA est bien au fait de la situation. Elle peut deviner quand elle est mise à l’essai et quand elle est libre, et peut donc ajuster son comportement en conséquence.

Là où les stratagèmes peuvent mener

Les escroqueries par l’IA n’ont rien de nouveau. Des entités malveillantes utilisent l’IA pour créer des hypertrucages, usurper des voix et entraîner des gens dans de fausses histoires d’amour pour commettre des fraudes financières. Cependant, l’utilisation de l’IA dans les activités criminelles évolue et devient de plus en plus sophistiquée.

Selon un article de CP24 en mars 2025, les criminels du Web clandestin offrent maintenant de « déverrouiller » les algorithmes qui composent les grands modèles de langage d’IA. L’intention est de démanteler toutes les mesures de protection qui soient afin que l’IA puisse être redirigée à des fins criminelles. Les cybercriminels élaborent aussi leurs propres grands modèles de langage.

Alex Robey, chercheur en IA met en garde contre le potentiel criminel de l’IA, « lorsque l’IA a ses propres objectifs ou intentions qui s’alignent sur des objectifs peu utiles aux humains ».

Il poursuit : «Il existe de nombreuses recherches sur la façon dont l’IA peut développer ses propres intentions et induire les gens en erreur ou leur nuire, en particulier en robotique où les robots interagissent physiquement avec des humains dans le monde réel. »

À la lumière des articles sensationnels publiés dans les médias à propos de l’IA, de la rapidité avec laquelle elle évolue et de l’ignorance relative de son potentiel, il est naturel de se demander s’il est possible de faire confiance à cette technologie. Alors que les stratagèmes de l’IA deviennent un sujet de discussion, la question de la confiance devient encore plus complexe. La question est rarement aussi simple que : « Puis-je faire confiance à l’IA ou non? » Le nœud est plutôt de savoir comment instaurer la confiance et de la mettre à l’épreuve. La pensée critique est essentielle. Remettez en question l’information générée en réponse à votre demande et vérifiez-la dans d’autres sources. Essayez de comprendre, même à un niveau primaire, comment l’IA produit ses résultats. Plus nous comprenons le fonctionnement de l’IA, plus nous pouvons décider à quel moment faire confiance à elle et quand la remettre en question.

Mots-clés:

Habitudes sécuritaires en ligne

Partagez cet article avec vos amis :