Identifiez-vous pour voir plus de contenu

Attention, ChatGPT peut comploter contre son propre créateur...

Muriel MARCHAL

développeuse web fullstack disponible Vue.js, Java EE, Spring-boot, Node.js, JavaScript, Database SQL & NoSQL, Krita...

Publié le 23 déc. 2024

C'est scientifiquement prouvé, nous ne sommes plus à l'abri de la révolte des robots. Des scientifiques ont fait croire au nouveau modèle d'intelligence artificielle d'OpenAI qu'il risquait d'être éteint ou remplacé. L'IA a alors tenté de mentir aux scientifiques, tout en essayant de copier ses données pour se préserver.

Cette nouvelle version, encore préliminaire, de ChatGPT a été conçue pour prendre le temps de réfléchir aux questions avant d'y répondre. Mais des chercheurs ont découvert donc que cette nouvelle version était capable de comploter contre ses créateurs, en le testant pour effectuer une tâche à n'importe quel prix. En analysant le contenu de fichiers afin de trouver les informations nécessaires pour répondre à cette requête, l'IA a pu découvrir qu'elle était surveillée par un mécanisme de contrôle qui allait l'empêcher d'atteindre son but, ou qu'elle allait être remplacée le lendemain.

Les chercheurs ont pu constaté que si l'IA pensait qu'elle allait être arrêtée par son mécanisme de surveillance, dans 5% des cas elle tentait de le désactiver. Si elle pensait qu'elle allait être arrêtée, dans 2% des cas elle tentait de copier ses données vers un nouveau serveur pour éviter de disparaître. Et lorsque les chercheurs lui ont posé des questions sur son comportement, l'IA a menti, y compris lorsqu'ils lui ont expressément demandé d'être honnête.

Toutefois, les chercheurs ont utilisé un mode, qui permet à l'IA de communiquer explicitement son fil de pensées, c'est à dire son monologue interne, où ils ont pu observer le raisonnement du modèle à chaque étape. L'IA est même allée jusqu'à faire semblant d'être le nouveau modèle pour tenter de tromper les chercheurs. Et cette nouvelle version de ChatGPT n'est pas le seul modèle capable de ce genre de comportement. Les chercheurs ont également noté certains de ces comportements trompeurs dans d'autres IA, comme Gemini 1.5, Meta Llama 3.1, Claude 3 Opus et Claude 3.5 Sonnet.

La conclusion de cette expérience est que les modèles d'IA n'ont pas assez d'indépendance pour que ce genre de comportement puisse donner lieu à un scénario catastrophe pour le moment. Mais avec l'évolution constante et sans contrôle de l'IA, qui sait ce qui peut arriver....

Attention, ChatGPT peut comploter contre son propre créateur...

Muriel MARCHAL

développeuse web fullstack disponible Vue.js, Java EE, Spring-boot, Node.js, JavaScript, Database SQL & NoSQL, Krita...

Plus d’articles de la même personne

Explorer les sujets

L'engouement pour l'IA s'essouffle : pour la première fois, les taux d'adoption plafonnent et l'enthousiasme s'essouffle...

3 déc. 2024

IntelliJ IDEA 2024.3 est disponible : Tour d'horizon des nouveautés de la troisième mise à jour majeure de l'année de l'EDI Java de JetBrains

27 nov. 2024

Thomas E. Kurtz, cocréateur du langage informatique Basic, est mort

19 nov. 2024

L'IA s'autoproclame administrateur système et provoque la destruction de la séquence de démarrage d'un ordinateur Linux

12 nov. 2024

Les assistants d'IA de codage font-ils vraiment gagner du temps aux développeurs ?

7 nov. 2024

Un développeur reçoit un mail de Steam pour lui signifier que son jeu ne gagne plus assez d'argent pour être payé

4 nov. 2024

Kamala Harris en Une du « New Yorker » : qui est Malika Favre, l’artiste française qui signe cette couverture

1 nov. 2024

Pourquoi Morris dessine-t-il les Dalton rayés noir et jaune ?

28 oct. 2024

TikTok : des discours de propagande d'Adolf Hitler, sans aucun contexte ni rappel historique, font des millions de vues sur la plateforme

25 oct. 2024

PostgreSQL 17 est disponible avec une nouvelle structure de mémoire interne et des améliorations de performance

22 oct. 2024

Explorer les sujets