Νέα μελέτη-ορόσημο στο Nature δείχνει ότι τα μεγάλα γλωσσικά μοντέλα μπορούν να ξεπεράσουν τον μέσο άνθρωπο σε τεστ αποκλίνουσας σκέψης.

Μπορεί η δημιουργικότητα να μετρηθεί; Και αν ναι, μπορούν οι μηχανές να μας ξεπεράσουν; Μια από τις μεγαλύτερες μελέτες που έχουν γίνει ποτέ γύρω από το θέμα, δημοσιευμένη στο Nature, προσπάθησε να δώσει καθαρές απαντήσεις. Οι ερευνητές αξιολόγησαν τη δημιουργικότητα μεγάλων γλωσσικών μοντέλων (LLMs) και περισσότερων από 100.000 ανθρώπων, χρησιμοποιώντας ακριβώς τα ίδια τεστ και τους ίδιους αυτοματοποιημένους κανόνες βαθμολόγησης.

Στο επίκεντρο βρέθηκε το Divergent Association Task (DAT), ένα τεστ που θεωρείται από τα πιο «καθαρά» εργαλεία μέτρησης αποκλίνουσας σκέψης. Οι συμμετέχοντες καλούνται να γράψουν 10 ουσιαστικά όσο το δυνατόν πιο άσχετα μεταξύ τους σε σημασία. Η βαθμολογία προκύπτει υπολογιστικά, με βάση τη σημασιολογική απόσταση των λέξεων.

Τα αποτελέσματα ήταν αποκαλυπτικά. Ορισμένα μοντέλα τεχνητής νοημοσύνης ξεπέρασαν τον μέσο ανθρώπινο όρο, παράγοντας λίστες λέξεων πιο «ανομοιογενείς» από εκείνες των περισσότερων ανθρώπων. Με άλλα λόγια, σε αυτό το συγκεκριμένο και περιορισμένο είδος δημιουργικής σκέψης, οι μηχανές μπορούν πλέον να σταθούν –και συχνά να κερδίσουν– απέναντι στον μέσο άνθρωπο.

Ωστόσο, η εικόνα αλλάζει δραστικά όταν κοιτάξει κανείς την κορυφή. Οι πιο δημιουργικοί άνθρωποι, ιδιαίτερα το ανώτερο 10%, ξεπερνούν καθαρά κάθε μοντέλο. Και όσο ανεβαίνουμε στην κλίμακα δημιουργικότητας, τόσο μεγαλώνει το χάσμα υπέρ των ανθρώπων. Το μοτίβο αυτό γίνεται ακόμη πιο έντονο σε πιο «πλούσιες» δημιουργικές εργασίες.

Η ίδια μεθοδολογία εφαρμόστηκε και σε δημιουργική γραφή: χαϊκού, σύνοψης κινηματογραφικών ιστοριών, flash fiction. Εκεί, τα μοντέλα κατάφεραν να ισοφαρίσουν ή και να ξεπεράσουν τον μέσο άνθρωπο, αλλά και πάλι έμειναν αισθητά πίσω από τους πιο δημιουργικούς συγγραφείς. Η τεχνητή νοημοσύνη δείχνει ικανή στη μίμηση, στον συνδυασμό και στην παραγωγή «καλών» ιδεών· δυσκολεύεται όμως να φτάσει τη σπάνια πρωτοτυπία, το ρίσκο και τη βαθιά προσωπική ματιά που χαρακτηρίζουν την ανθρώπινη αιχμή.

Ένα κρίσιμο στοιχείο της μελέτης είναι η επιλογή του DAT αντί παλαιότερων τεστ δημιουργικότητας, τα οποία συχνά μπλέκουν γλωσσική ευχέρεια, γνώση, μνήμη και κοινωνικούς παράγοντες. Εδώ, η εστίαση είναι στενή και σκόπιμη: απομόνωση της αποκλίνουσας σκέψης. Αυτό κάνει τα συμπεράσματα πιο καθαρά — και ίσως πιο ανησυχητικά ή πιο καθησυχαστικά, ανάλογα με το πώς τα διαβάζει κανείς.

Το μήνυμα της έρευνας δεν είναι ότι «οι μηχανές έγιναν δημιουργικές όπως οι άνθρωποι». Είναι ότι η δημιουργικότητα δεν είναι ενιαία δεξιότητα. Υπάρχουν επίπεδα. Στα χαμηλά και μεσαία επίπεδα, οι αλγόριθμοι μπορούν πλέον να ανταγωνιστούν σοβαρά. Στα υψηλά, εκεί όπου γεννιούνται οι πραγματικά νέες ιδέες, η ανθρώπινη σκέψη παραμένει –τουλάχιστον προς το παρόν– ασυναγώνιστη.