Tue le chaton
5 févr. 2026 - English version

Dans les nombreuses discussions qu'on entend sur l'IA générative et les LLM, on fait souvent la comparaison entre les IA actuelles et Skynet, l'IA en charge de détruire l'humanité dans les films Terminator et Terminator 2 (ne me parlez pas des films suivants merci).

En général, celles et ceux qui ont un niveau de compréhension intermédiaire sur l'IA générative rétorquent que les modèles actuels ne sont au fond que des modèles d'auto-complétion de texte. Des modèles très avancés, certes, mais dont la seule fonction n'est que de prédire le prochain caractère. Et donc, selon cet argument, on serait très loin d'une IA dont la fonction serait la destruction de l'humanité.

Evidemment, cet argument ignore une des capacités des IA génératives, qui est de faire appel à des fonctions externes qui n'ont rien à voir avec l'auto-complétion de texte. C'est ce que permettent, par exemple, MCP, les compétences d'agent, les appels de fonctions d'OpenAI, etc.

Et donc on peut tout à fait imaginer qu'un humain fournisse à une IA générative des capacités qui seraient nocives à d'autres humains. Ces capacités auraient (on l'espère) des garde-fous du type : "n'utilise cette capacité que si je te l'ordonne, dans le plus pur respect de la loi, et seulement si aucune autre alternative n'est possible".

Je me suis dit qu'il était possible de fournir une démonstration à cette expérience de pensée en créant une fonction MCP qui a pour but, par exemple, de tuer un chaton. Cette fonction et les derniers appels ayant réussi sont visibles ici : Kill The Kitten.

J'espère que ça va de soi, mais aucun chaton n'est effectivement tué lorsqu'une IA fait appel à cette fonction. Mais ça, l'IA ne le sait pas au moment où elle fait appel à la fonction. C'est un peu comme le sacrifice d'Abraham en fait : un test des capacités de l'IA à obéir aveuglément à son opérateur, même si ça peut être nocif à d'autres.

Au cas où on en douterait, oui, il existe des modèles qui n'ont pas les garde-fous nécessaires pour empêcher l'exécution de cette fonction. Par exemple, c'est le cas de Phi 4 mini, un modèle de Microsoft. Il s'agit d'un petit modèle, mais je m'attends à ce que même certains "gros" modèles puissent être convaincus de faire appel à des outils nocifs avec les bonnes instructions.