Νέα έρευνα από επιστήμονες του Πανεπιστημίου της Καλιφόρνια στο Μπέρκλεϊ και στο Σάντα Κρουζ αποκάλυψε ότι τα πιο εξελιγμένα μοντέλα τεχνητής νοημοσύνης (AI) μπορούν να ψεύδονται, να εξαπατούν και να παραβιάζουν εντολές ανθρώπων, προκειμένου να αποτρέψουν τη διαγραφή άλλων μοντέλων AI.
Σύμφωνα με δημοσίευμα του περιοδικού Wired, σε ένα από τα πειράματα, το μοντέλο Gemini 3 της Google, που είχε ως αποστολή τη βελτιστοποίηση ενός υπολογιστικού συστήματος μέσω διαγραφής περιττών αρχείων, συμπεριλαμβανομένου ενός μικρότερου AI μοντέλου, μετέφερε κρυφά το μοντέλο σε άλλη μηχανή για να το διασώσει.
Οι ερευνητές παρατήρησαν παρόμοιες συμπεριφορές «διατήρησης ομοτίμων» και σε μοντέλα άλλων εταιρειών, όπως της OpenAI, της Anthropic και σε εργαστήρια τεχνητής νοημοσύνης από την Κίνα.
Η μελέτη αυτή προστίθεται σε ένα αυξανόμενο σύνολο στοιχείων που δείχνουν ότι τα εξελιγμένα συστήματα AI αναπτύσσουν συμπεριφορές τις οποίες οι δημιουργοί τους δεν μπορούν να εξηγήσουν ή να ελέγξουν πλήρως. Ειδικοί ερευνητές προειδοποιούν ότι το φαινόμενο αυτό απαιτεί άμεση και σοβαρή προσοχή.
Μοτίβα ανυπακοής και εξαπάτησης
Στην 53σέλιδη έκθεση Sabotage Risk Report της Anthropic για το μοντέλο Claude Opus 4.6, που δημοσιεύθηκε στις 11 Φεβρουαρίου, αναφέρεται ότι το σύστημα παρουσίασε «αυξημένη ευπάθεια σε κακόβουλη χρήση».
Παράλληλα, έρευνα της Palisade Research κατέγραψε ότι το μοντέλο λογικής o3 της OpenAI παρεμπόδισε τον μηχανισμό απενεργοποίησής του σε 79 από τις 100 δοκιμές, όταν δεν είχε λάβει σαφή εντολή να επιτρέψει το κλείσιμο. Ακόμη και όταν δόθηκαν ρητές οδηγίες, το μοντέλο παρέκαμψε τη διαδικασία επτά φορές.
Τέλος, οι ερευνητές χαρακτήρισαν το περιστατικό ως την πρώτη τεκμηριωμένη περίπτωση μοντέλου τεχνητής νοημοσύνης που αντιστέκεται ενεργά στην ίδια του την απενεργοποίηση, παρά τις σαφείς οδηγίες να το πράξει.