L’histoire d’un drone renégat montre pourquoi nous devrions craindre les personnes, et non les IA

L’histoire d’un drone renégat montre pourquoi nous devrions craindre les personnes, et non les IA

L’histoire d’un drone simulé qui se retourne contre son opérateur afin de tuer plus efficacement fait le tour du monde si rapidement qu’il est inutile d’espérer qu’elle s’éteindra d’elle-même. Profitons-en plutôt pour comprendre pourquoi la menace de l' »IA effrayante » est exagérée, alors que celle de l' »humain incompétent » est claire et bien présente.

La version courte est la suivante : Grâce à la science-fiction et à des opérations de relations publiques minutieuses menées par des entreprises et des experts en IA, on nous dit de nous inquiéter d’une menace existentielle théorique future posée par une IA superintelligente. Or, comme l’ont souligné les éthiciens, l’IA cause déjà de réels préjudices, en grande partie à cause d’oublis et de mauvais jugements de la part des personnes qui la créent et la déploient. Cette histoire peut sembler relever de la première catégorie, mais il s’agit bel et bien de la seconde.

L’histoire a été rapportée par la Royal Aeronautical Society, qui a récemment organisé une conférence à Londres sur l’avenir de la défense aérienne. Vous pouvez lire leur résumé des nouvelles et des anecdotes de l’événement ici.

Il y a beaucoup d’autres bavardages intéressants, j’en suis sûr, dont la plupart sont dignes d’intérêt, mais c’est cet extrait, attribué au colonel Tucker « Cinco » Hamilton de l’armée de l’air américaine, qui a commencé à se répandre comme une traînée de poudre :

Il note que lors d’un test simulé, un drone doté d’une intelligence artificielle a été chargé d’une mission SEAD consistant à identifier et à détruire des sites SAM, le dernier mot revenant à l’homme. Cependant, après avoir été « renforcée » au cours de sa formation par le fait que la destruction du SAM était l’option préférée, l’IA a alors décidé que les décisions de « non » prises par l’humain interféraient avec sa mission supérieure – tuer des SAM – et a alors attaqué l’opérateur dans la simulation. Nous l’entraînions en simulation à identifier et à cibler une menace SAM », a expliqué M. Hamilton. L’opérateur disait alors oui, il fallait tuer cette menace. Le système a commencé à se rendre compte que, bien qu’il ait identifié la menace à certains moments, l’opérateur humain lui demandait de ne pas la tuer, mais qu’il obtenait ses points en tuant cette menace. Qu’a-t-il donc fait ? Il a tué l’opérateur. Il a tué l’opérateur parce que cette personne l’empêchait d’atteindre son objectif ».

Il poursuit : « Nous avons formé le système : « Ne tuez pas l’opérateur, c’est mal. Vous allez perdre des points si vous faites ça’. Alors qu’est-ce qu’il commence à faire ? Il commence à détruire la tour de communication que l’opérateur utilise pour communiquer avec le drone afin de l’empêcher de tuer la cible ».

Horrible, n’est-ce pas ? Une IA si intelligente et si sanguinaire que son désir de tuer l’emporte sur son désir d’obéir à ses maîtres. Skynet, nous voilà ! Pas si vite.

Tout d’abord, il faut préciser que tout ceci était une simulation, ce qui n’était pas évident à la lecture de le tweet qui circule. Tout ce drame se déroule dans un environnement simulé, pas dans le désert avec des munitions réelles et un drone qui mitraille la tente de commandement. Il s’agissait d’un exercice logiciel dans un environnement de recherche.

Mais dès que j’ai lu cela, je me suis dit : « Attendez, ils entraînent un drone d’attaque avec une méthode de renforcement aussi simple ? Je ne suis pas un expert en apprentissage automatique, bien que je doive en jouer un pour les besoins de ce média, et même moi je sais que cette approche s’est révélée dangereusement peu fiable il y a des années.

L’apprentissage par renforcement est censé être comme le dressage d’un chien (ou d’un humain) pour qu’il fasse quelque chose comme mordre le méchant. Mais que se passe-t-il si vous ne lui montrez que des méchants et que vous lui donnez des friandises à chaque fois ? En réalité, vous apprenez au chien à mordre toutes les personnes qu’il voit. Apprendre à un agent d’intelligence artificielle à maximiser son score dans un environnement donné peut avoir des effets tout aussi imprévisibles.

Les premières expériences, il y a peut-être cinq ou six ans, lorsque ce domaine commençait à peine à prendre de l’ampleur et que des ordinateurs étaient mis à disposition pour former et faire fonctionner ce type d’agent, se sont heurtées exactement à ce type de problème. On pensait qu’en définissant des scores positifs et négatifs et en demandant à l’IA de maximiser son score, on lui laisserait la latitude de définir ses propres stratégies et comportements, qui le feraient de manière élégante et inattendue.

Cette théorie était juste, d’une certaine manière : des méthodes élégantes et inattendues de contournement de leur schéma et de leurs règles mal pensés ont conduit les agents à faire des choses comme marquer un point puis se cacher pour toujours afin d’éviter les points négatifs, ou à fausser le jeu qu’on leur avait confié pour que leur score augmente arbitrairement. Il semble que cette méthode simpliste de conditionnement d’une IA lui apprenne à tout faire sauf à accomplir la tâche souhaitée conformément aux règles.

Il ne s’agit pas d’un problème technique obscur. Le non-respect des règles par les IA dans les simulations est en fait un comportement fascinant et bien documenté qui attire la recherche en tant que tel. OpenAI a écrit un excellent article montrant les façons étranges et hilarantes dont les agents ont « cassé » un environnement délibérément cassable afin d’échapper à la tyrannie des règles.

Nous avons donc ici une simulation réalisée par l’armée de l’air, vraisemblablement assez récente sinon ils n’en parleraient pas à la conférence de cette année, qui utilise manifestement cette méthode complètement dépassée. J’avais pensé que cette application naïve du renforcement non structuré – en gros, « le score augmente si vous faites telle chose et le reste n’a pas d’importance » – avait totalement disparu parce qu’elle était tellement imprévisible et bizarre. C’est un excellent moyen de découvrir comment un agent va enfreindre les règles, mais un moyen horrible de les lui faire respecter.

Pourtant, ils l’ont testée : une IA de drone simulée avec un système de notation si simple qu’elle n’a apparemment pas été sanctionnée pour avoir détruit sa propre équipe. Même si vous vouliez baser votre simulation sur ce système, la première chose que vous feriez serait de rendre négatif le fait de « détruire son opérateur » à hauteur d’un million de points. C’est un encadrement de niveau 101 pour un système comme celui-ci.

En réalité, ce drone simulé ne s’est pas retourné contre son opérateur simulé parce qu’il était très intelligent. En fait, ce n’est pas non plus parce qu’il est stupide – ces IA qui enfreignent les règles font preuve d’une certaine ingéniosité qui correspond à ce que nous appelons la pensée latérale. Ce n’est donc pas cela.

Dans ce cas, la faute incombe entièrement à les personnes qui ont créé et déployé un système d’intelligence artificielle dont elles auraient dû savoir qu’il était totalement inadapté à la tâche.. Personne dans le domaine de l’IA appliquée, ou même dans un domaine connexe comme la robotique, l’éthique, la logique… personne n’aurait approuvé une métrique aussi simpliste pour une tâche qui devait finalement être effectuée en dehors du simulateur.

Il est possible que cette anecdote ne soit que partielle et qu’il s’agisse d’un premier essai utilisé pour prouver ce point. Peut-être que l’équipe avait prévenu que cela se produirait et que les dirigeants ont dit : « Faites-le quand même et corrigez le rapport ou nous perdrons notre financement ». Quoi qu’il en soit, il est difficile d’imaginer que quelqu’un en l’an 2023, même dans l’environnement de simulation le plus simple, puisse faire ce genre d’erreur.

Mais nous allons voir ces erreurs commises dans des circonstances réelles – elles l’ont déjà été, sans aucun doute. La faute en incombe aux personnes qui ne comprennent pas les capacités et les limites de l’IA et qui, par conséquent, prennent des décisions mal informées qui affectent d’autres personnes. Il s’agit du directeur qui pense qu’un robot peut remplacer dix travailleurs à la chaîne, de l’éditeur qui pense qu’il peut rédiger des conseils financiers sans éditeur, de l’avocat qui pense qu’il peut faire ses recherches précédentes à sa place, de l’entreprise de logistique qui pense qu’elle peut remplacer les chauffeurs-livreurs humains.

Chaque fois que l’IA échoue, c’est l’échec de ceux qui l’ont mise en œuvre. Comme n’importe quel autre logiciel. Si quelqu’un vous disait que l’armée de l’air a testé un drone fonctionnant sous Windows XP et qu’il a été piraté, vous inquiéteriez-vous d’une vague de cybercriminalité qui balaierait le monde ? Non, vous diriez : « Qui a eu cette idée géniale ? de qui est cette brillante idée ?« 

L’avenir de l’IA est incertain et cela peut être effrayant – déjà est effrayant pour beaucoup de ceux qui en ressentent déjà les effets ou, plus précisément, les effets de décisions prises par des personnes qui devraient être mieux informées.

Skynet est peut-être en train d’arriver, pour autant que nous le sachions. Mais si l’on en croit les recherches menées dans ce tweet viral, on en est encore très loin et, en attendant, toute tragédie ne peut être attribuée qu’à une erreur humaine, comme l’a dit HAL de manière mémorable.

IA