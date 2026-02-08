«Οι δοκιμές μας δείχνουν ότι — όταν το σύστημα έχει μία μόνο ευκαιρία να παράγει την απάντηση — τα καλύτερα διαθέσιμα στο κοινό συστήματα ΤΝ δυσκολεύονται να απαντήσουν πολλές από τις ερωτήσεις μας», έγραψε η ομάδα, προσθέτοντας ότι η επαναληπτική αλληλεπίδραση ενδέχεται να βελτιώσει τα αποτελέσματα.​

Οι ερωτήσεις καλύπτουν διάφορα μαθηματικά πεδία όπως ο αλγεβρικός συνδυασμός, η φασματική θεωρία γραφημάτων, η αλγεβρική τοπολογία, η στοχαστική ανάλυση, η συμπλεκτική γεωμετρία και η αριθμητική γραμμική άλγεβρα. Κάθε μία έχει απόδειξη περίπου πέντε σελίδων ή λιγότερο.​

Ο Martin Hairer ανακοίνωσε το έργο στο LinkedIn, γράφοντας ότι «στις περισσότερες περιπτώσεις, όταν τους δίνεται μία μόνο προσπάθεια, τα κορυφαία μοντέλα εξακολουθούν να μην μπορούν να τις απαντήσουν σωστά» και προσκαλώντας τους συμμετέχοντες να μοιραστούν τις εμπειρίες τους χρησιμοποιώντας το hashtag #1stProof.

Η ομάδα του First Proof σημείωσε ότι τέτοια benchmarks έχουν γίνει “ευάλωτα σε post-training μέσω ενισχυτικής μάθησης”, ενδεχομένως διογκώνοντας τις αναφερόμενες ικανότητες.

Η ομάδα περιλαμβάνει μαθηματικούς από το Stanford, το Columbia, το Yale, το UC Berkeley, το Harvard, το University of Chicago, το University of Texas at Austin, το Πανεπιστήμιο Aarhus και το EPFL. Οι κρυπτογραφημένες απαντήσεις φιλοξενούνται στο 1stproof.org.

“Αντίθετα με τη δημοφιλή αντίληψη ότι η έρευνα αφορά μόνο την εύρεση λύσεων σε καθορισμένα, αρχαία προβλήματα,” σημειώνει η εργασία, “τα περισσότερα από τα σημαντικά μέρη της σύγχρονης έρευνας περιλαμβάνουν το να καταλάβουμε ποια είναι πραγματικά η ερώτηση και να αναπτύξουμε πλαίσια εντός των οποίων μπορεί να απαντηθεί”.​

Το όνομα του έργου προέρχεται από την ορολογία της αρτοποιίας: το first proof (πρώτο προζύμι) είναι το στάδιο της ζύμωσης σε όγκο πριν το ψωμί διαμορφωθεί σε καρβέλια. Οι μαθηματικοί ελπίζουν ότι η προκαταρκτική τους προσπάθεια θα “ζυμωθεί στην κοινότητα” πριν παράγει ένα πιο δομημένο benchmark τους επόμενους μήνες.