Οι ανθρώπινες γλώσσες είναι γνωστό ότι έχουν αναπτυχθεί και αλλάξει σημαντικά κατά τη διάρκεια της ιστορίας, συχνά αντανακλώντας τεχνολογικές, πολιτισμικές και κοινωνικές μεταβολές. Η μελέτη της εξέλιξης των γλωσσών μπορεί επομένως να προσφέρει πολύτιμες γνώσεις για το πώς έχουν μεταμορφωθεί οι ανθρώπινες κοινωνίες και πολιτισμοί με την πάροδο του χρόνου.

Ερευνητές από τα Πανεπιστήμια Fudan, Harvard και Stony Brook μελέτησαν πρόσφατα την εξέλιξη 22 γλωσσών χρησιμοποιώντας έναν συνδυασμό εργαλείων τεχνητής νοημοσύνης (AI), στατιστικών μεθόδων και ενός τεράστιου αρχείου γλωσσολογικών δεδομένων. Η εργασία τους, που δημοσιεύθηκε στο περιοδικό Proceedings of the Royal Society B: Biological Sciences, εντοπίζει μια κοινή στατιστική δομή για όλες τις γλώσσες που εξέτασαν, καθώς και τα μοτίβα που διέπουν την εξέλιξή τους.

«Νέες λέξεις, έννοιες και ιδέες δημιουργούνται συνεχώς, αλλά υπάρχουν κρυμμένα μοτίβα που καθορίζουν ποιες έννοιες είναι πιο πιθανό να εμφανιστούν; Υπάρχουν απλά μαθηματικά μοντέλα που μπορούν να αναπαραστήσουν αυτή τη διαδικασία;» δήλωσε ο Steven Skiena, επικεφαλής συγγραφέας της μελέτης, στο Phys.org. «Εμπνευστήκαμε από την ιδέα ότι οι τεχνολογίες μηχανικής μάθησης για την αναπαράσταση της σημασιολογίας της γλώσσας (word embeddings) μας δίνουν έναν αυστηρό τρόπο να μελετήσουμε το πολύπλοκο υλικό που παρέχει η ανθρώπινη γλώσσα.»

Μελέτη της εξέλιξης της γλώσσας με παλιές και νέες μεθόδους

Για να μελετήσουν την εξέλιξη των ανθρώπινων γλωσσών και πολιτισμών, ο Skiena και οι συνεργάτες του χρησιμοποίησαν μεθόδους φυσικής γλωσσικής επεξεργασίας (NLP), δηλαδή αλγορίθμους σχεδιασμένους για την ανάλυση κειμένων ή ομιλίας. Αυτά τα μοντέλα αναπαριστούν τις λέξεις μέσω λεγόμενων word embeddings.

Τα word embeddings είναι αριθμητικές αναπαραστάσεις λέξεων που αντιστοιχούν κάθε λέξη ενός λεξιλογίου σε ένα συγκεκριμένο σημείο σε έναν πολυδιάστατο σημασιολογικό χώρο. Σε αυτόν τον χώρο, λέξεις με παρόμοια σημασία βρίσκονται κοντά η μία στην άλλη.

«Στην ουσία, η εργασία μας εξετάζει πώς κατανέμεται το λεξιλόγιο διαφορετικών γλωσσών σε αυτόν τον χώρο χαρακτηριστικών και ποια μαθηματική διαδικασία θα μπορούσε να δημιουργήσει παρόμοια κατανομή», εξήγησε ο Skiena. «Η εργασία αυτή είχε μια εξαιρετικά μακρά περίοδο ωρίμανσης: δουλεύουμε πάνω σε αυτήν για περισσότερα από επτά χρόνια και είναι μεγάλη χαρά να βλέπουμε πού έχουμε φτάσει.»

Οι ερευνητές χρησιμοποίησαν μεγάλα σύνολα δεδομένων που περιλάμβαναν λέξεις στα αγγλικά και σε άλλες 21 γλώσσες, τις οποίες αναπαρέστησαν ως word embeddings. Αυτό τους επέτρεψε να χαρτογραφήσουν μαθηματικά τη σημασία τους και να εντοπίσουν μοτίβα στις μεταξύ τους σχέσεις.

«Συνδυάσαμε γλωσσολογικά δεδομένα που φτάνουν μέχρι τον Μεσαίωνα και καθιερωμένες μεθόδους, όπως τεχνικές από τη χωρική στατιστική που χρησιμοποιούνται στη ποσοτική γεωγραφία και τις περιβαλλοντικές επιστήμες, με σύγχρονες τεχνικές μηχανικής μάθησης και NLP», εξήγησε ο Sergiy Verstyuk, πρώτος συν-συγγραφέας της μελέτης. «Αυτό μας επέτρεψε να αποκαλύψουμε ορισμένα στοιχεία για τον πολιτισμό που ισχύουν για πολλές διαφορετικές ανθρώπινες γλώσσες σήμερα αλλά και στο παρελθόν.»

Κοινά μοτίβα στις γλώσσες

Ενδιαφέρον είναι ότι οι ερευνητές διαπίστωσαν πως οι 22 γλώσσες που ανέλυσαν μοιράζονται συστηματικά ορισμένα καθολικά μοτίβα. Πρώτον, οι πιο συχνές λέξεις τείνουν να συγκεντρώνονται μαζί, δημιουργώντας «περιοχές» υψηλής συχνότητας.

Επίσης, εντόπισαν κοινές μορφές για τον ρυθμό ομαδοποίησης των λέξεων. Με άλλα λόγια, το λεξιλόγιο οργανώνεται ιεραρχικά, και η δομή αυτής της ιεραρχίας είναι σε μεγάλο βαθμό ίδια σε όλες τις γλώσσες.

«Παρατηρήσαμε επίσης ενδιαφέρουσες χρονικές δυναμικές, όπου νέες λέξεις δημιουργούνται συνήθως σε “εκρήξεις” μαζί με άλλες πρόσφατες λέξεις γύρω τους», είπε ο Skiena. Αυτό θυμίζει σε κάποιο βαθμό τον τρόπο με τον οποίο εξελίσσεται η βιολογία, με γρήγορες περιόδους σημαντικών γενετικών ή μορφολογικών αλλαγών.

Επιπλέον, διαπίστωσαν ότι ο λεγόμενος νόμος του Taylor, που αρχικά εντοπίστηκε σε οικολογικές κοινότητες και αργότερα σε βιολογικά, φυσικά και μαθηματικά δεδομένα, ισχύει επίσης για το λεξιλόγιο. Πρόκειται για μια μαθηματική σχέση τύπου νόμου δύναμης που συνδέει τον μέσο όρο και τη διακύμανση της συχνότητας των λέξεων, σύμφωνα με τη σημασία και την ιστορική τους εμφάνιση.

Επόμενα βήματα για την κατανόηση της γλωσσικής εξέλιξης

Η μελέτη αυτή προσφέρει νέες γνώσεις για το πώς εξελίχθηκαν διαφορετικές γλώσσες μέσα στους αιώνες και για τις ομοιότητές τους. Τα στατιστικά μοτίβα που εντοπίστηκαν μπορούν να συμβάλουν σε μια πιο αυστηρή κατανόηση της γλώσσας. Ακόμη πιο σημαντικό είναι ότι υπάρχουν ενδείξεις πως παρόμοια μοτίβα εμφανίζονται και σε άλλους τομείς του ανθρώπινου πολιτισμού.

Οι αναλύσεις της ομάδας επέτρεψαν τον εντοπισμό μιας στοχαστικής μαθηματικής διαδικασίας που παράγει σύνολα λέξεων με παρόμοιες ιδιότητες. Αυτή η διαδικασία μπορεί να εξηγεί εν μέρει τον μηχανισμό με τον οποίο δημιουργήθηκαν και εξελίχθηκαν οι ανθρώπινες γλώσσες.

«Κατασκευάσαμε ένα εκπληκτικά απλό μοντέλο που όχι μόνο αναπαράγει τα προηγούμενα αποτελέσματα σχετικά με την κατανομή συχνοτήτων των λέξεων (δηλαδή σε μία διάσταση), αλλά επίσης εξηγεί νέα εμπειρικά ευρήματα σε πολλές επιπλέον διαστάσεις (συγκεκριμένα στον 300-διάστατο σημασιολογικό χώρο και στον ιστορικό χρόνο)», είπε ο Verstyuk. «Αυτό επιτεύχθηκε συνδυάζοντας μια γνωστή διαδικασία σωρευτικού πλεονεκτήματος με μια σπάνια χρησιμοποιούμενη κατανομή von Mises–Fisher.»

Στο μέλλον, η εργασία αυτή μπορεί να εμπνεύσει περαιτέρω γλωσσολογικές και ανθρωπολογικές μελέτες που αξιοποιούν τεχνικές NLP και εργαλεία τεχνητής νοημοσύνης, καθώς και μαθηματικά μοντέλα. «Παραμένουμε ενθουσιασμένοι με τις δυνατότητες χρήσης των αναπαραστάσεων (embeddings) που δημιουργούνται από την AI ως εργαλείο θεμελιώδους έρευνας για την κατανόηση ιστορικών διαδικασιών πολιτισμικής εξέλιξης — όχι μόνο ως τεχνολογικών εργαλείων», πρόσθεσε ο Skiena.