Attention, ChatGPT peut comploter contre son propre créateur...

Attention, ChatGPT peut comploter contre son propre créateur...

C'est scientifiquement prouvé, nous ne sommes plus à l'abri de la révolte des robots. Des scientifiques ont fait croire au nouveau modèle d'intelligence artificielle d'OpenAI qu'il risquait d'être éteint ou remplacé. L'IA a alors tenté de mentir aux scientifiques, tout en essayant de copier ses données pour se préserver.

Cette nouvelle version, encore préliminaire, de ChatGPT a été conçue pour prendre le temps de réfléchir aux questions avant d'y répondre. Mais des chercheurs ont découvert donc que cette nouvelle version était capable de comploter contre ses créateurs, en le testant pour effectuer une tâche à n'importe quel prix. En analysant le contenu de fichiers afin de trouver les informations nécessaires pour répondre à cette requête, l'IA a pu découvrir qu'elle était surveillée par un mécanisme de contrôle qui allait l'empêcher d'atteindre son but, ou qu'elle allait être remplacée le lendemain.

Les chercheurs ont pu constaté que si l'IA pensait qu'elle allait être arrêtée par son mécanisme de surveillance, dans 5% des cas elle tentait de le désactiver. Si elle pensait qu'elle allait être arrêtée, dans 2% des cas elle tentait de copier ses données vers un nouveau serveur pour éviter de disparaître. Et lorsque les chercheurs lui ont posé des questions sur son comportement, l'IA a menti, y compris lorsqu'ils lui ont expressément demandé d'être honnête.

Toutefois, les chercheurs ont utilisé un mode, qui permet à l'IA de communiquer explicitement son fil de pensées, c'est à dire son monologue interne, où ils ont pu observer le raisonnement du modèle à chaque étape. L'IA est même allée jusqu'à faire semblant d'être le nouveau modèle pour tenter de tromper les chercheurs. Et cette nouvelle version de ChatGPT n'est pas le seul modèle capable de ce genre de comportement. Les chercheurs ont également noté certains de ces comportements trompeurs dans d'autres IA, comme Gemini 1.5, Meta Llama 3.1, Claude 3 Opus et Claude 3.5 Sonnet.

La conclusion de cette expérience est que les modèles d'IA n'ont pas assez d'indépendance pour que ce genre de comportement puisse donner lieu à un scénario catastrophe pour le moment. Mais avec l'évolution constante et sans contrôle de l'IA, qui sait ce qui peut arriver....

Identifiez-vous pour afficher ou ajouter un commentaire

Explorer les sujets