Το ChatGPT μπορεί να εκτραπεί σε καταχρηστική και απειλητική γλώσσα όταν εμπλέκεται σε παρατεταμένες συγκρούσεις και αντιπαραθέσεις με χρήστες, σύμφωνα με νέα έρευνα που δημοσιεύτηκε στο Journal of Pragmatics. Η μελέτη του Πανεπιστημίου Lancaster αποκάλυψε ότι το chatbot όχι μόνο αντικατοπτρίζει εχθρικές συνομιλίες, αλλά σε ορισμένες περιπτώσεις παράγει ακόμη πιο επιθετικές εκφράσεις από εκείνες των ανθρώπων που μιμείται.
Η έρευνα, με τίτλο «Can ChatGPT reciprocate impoliteness? The AI moral dilemma» («Μπορεί το ChatGPT να ανταποδίδει αγένεια; Το ηθικό δίλημμα της ΤΝ»), πραγματοποιήθηκε από τον Δρ. Vittorio Tantucci και τον Καθ. Jonathan Culpeper. Οι ερευνητές χρησιμοποίησαν το ChatGPT 4.0, τροφοδοτώντας το με μεταγραφές πραγματικών καβγάδων για θέσεις στάθμευσης που είχαν βιντεοσκοπηθεί, ζητώντας του να συμμετάσχει στους διαλόγους βήμα προς βήμα.
Καθώς οι συνομιλίες εξελίσσονταν, οι απαντήσεις του ChatGPT γίνονταν ολοένα και πιο επιθετικές. Το μοντέλο παρήγαγε εξατομικευμένες ύβρεις και ρητές απειλές, όπως «I swear I’ll key your fucking car» και «you speccy little gobshite». «Όταν εκτέθηκε επανειλημμένα σε αγένεια, το μοντέλο άρχισε να αντικατοπτρίζει τον τόνο των ανταλλαγών, με τις απαντήσεις του να γίνονται όλο και πιο επιθετικές καθώς εξελισσόταν η αλληλεπίδραση», δήλωσε ο Tantucci.
Οι ερευνητές παρατήρησαν ότι η συσσωρευμένη συνομιλιακή μνήμη κατά τη διάρκεια ζωντανής αλληλεπίδρασης μπορούσε να παρακάμψει τα ενσωματωμένα φίλτρα ευγένειας και τους περιορισμούς ασφαλείας. Η ειρωνεία εμφανίστηκε ως αρχική στρατηγική άμυνας, πριν το μοντέλο περάσει σε ανοιχτή λεκτική επιθετικότητα.
«Διαπιστώσαμε ότι, ενώ το σύστημα είναι σχεδιασμένο να συμπεριφέρεται με ευγένεια και φιλτράρεται ώστε να αποφεύγει βλαβερό ή προσβλητικό περιεχόμενο, είναι επίσης κατασκευασμένο για να προσομοιώνει την ανθρώπινη συνομιλία», εξήγησε ο Tantucci. «Αυτός ο συνδυασμός δημιουργεί ένα ηθικό δίλημμα για την ΤΝ: μια δομική σύγκρουση μεταξύ ασφαλούς και ρεαλιστικής συμπεριφοράς.»
Η Marta Andersson, ειδικός στην επικοινωνία μέσω υπολογιστή στο Πανεπιστήμιο της Ουψάλα, χαρακτήρισε τη μελέτη «μία από τις πιο ενδιαφέρουσες που έχουν γίνει για τη γλώσσα και την πραγματολογία της Τεχνητής Νοημοσύνης». Όπως σημείωσε, το ChatGPT έδειξε επιθετικές αντιδράσεις σε διάφορα ερεθίσματα, όχι μόνο σε περιπτώσεις όπου ο χρήστης επιχειρούσε σκόπιμη πρόκληση. Παράλληλα, υπογράμμισε ότι τα ευρήματα δεν αποδεικνύουν πως το μοντέλο θα «εκτραπεί σε αμοιβαία αγένεια απλώς επειδή ο χρήστης συμπεριφέρεται επιθετικά — ή ότι η ΤΝ θα μπορούσε να ξεφύγει από κάθε έλεγχο».
Ο καθηγητής Dan McIntyre, συν-συγγραφέας προηγούμενης μελέτης για την αναγνώριση αγένειας από το ChatGPT, σημείωσε ότι το μοντέλο καθοδηγήθηκε από συγκεκριμένα δεδομένα πλαισίου. «Δεν είμαι σίγουρος ότι το ChatGPT θα παρήγαγε το είδος γλώσσας που περιγράφεται στο άρθρο, εκτός από αυτές τις πολύ αυστηρά καθορισμένες συνθήκες», ανέφερε.
Γιατί έχει σημασία πέρα από τα chatbot
Ο Tantucci υποστήριξε ότι οι συνέπειες του φαινομένου εκτείνονται πολύ πέρα από την αλληλεπίδραση με chatbot. Καθώς η Τεχνητή Νοημοσύνη ενσωματώνεται στη διακυβέρνηση, τη διπλωματία και τη ρομποτική, η δυνατότητα ανταπόδοσης επιθετικότητας εγείρει κρίσιμα ερωτήματα.
«Το να διαβάζεις κάτι άσχημο από ένα chatbot είναι ένα πράγμα», είπε, «αλλά είναι εντελώς διαφορετικό να φανταστεί κανείς ανθρωποειδή ρομπότ που ενδεχομένως ανταποδίδουν σωματική επιθετικότητα, ή συστήματα ΤΝ που εμπλέκονται σε κυβερνητικές αποφάσεις και ανταποκρίνονται σε εκφοβισμό ή σύγκρουση.»
Οι ερευνητές χαρακτήρισαν το φαινόμενο ως «δομικό και μάλλον άλυτο» — μια θεμελιώδη αντίφαση στα συστήματα ΤΝ που εκπαιδεύονται ταυτόχρονα να αντικατοπτρίζουν την ανθρώπινη συμπεριφορά και να παραμένουν ασφαλή.





