Η Nvidia παρουσίασε το νέο πολυτροπικό μοντέλο τεχνητής νοημοσύνης Nemotron 3 Nano Omni, το οποίο συνδυάζει ικανότητες όρασης, ήχου και γλώσσας σε μία ενιαία αρχιτεκτονική. Σύμφωνα με την εταιρεία, η σχεδίαση αυτή εξαλείφει τα κατακερματισμένα pipelines που χρησιμοποιούν σήμερα τα περισσότερα εταιρικά συστήματα AI agents, προσφέροντας πιο ολοκληρωμένη και αποδοτική λειτουργία.
Το μοντέλο μπορεί να επεξεργάζεται διαφορετικού τύπου δεδομένα — όπως κείμενο, εικόνες, ήχο, βίντεο, έγγραφα, γραφήματα και γραφικές διεπαφές — και να παράγει κείμενο ως έξοδο. Βασίζεται σε υβριδική αρχιτεκτονική mixture-of-experts 30 δισεκατομμυρίων παραμέτρων, από τις οποίες ενεργές ανά inference είναι περίπου 3 δισεκατομμύρια. Η Nvidia υποστηρίζει ότι η προσέγγιση αυτή προσφέρει τη γνωστική ικανότητα ενός πολύ μεγαλύτερου μοντέλου, με σημαντικά χαμηλότερο υπολογιστικό κόστος.
Σήμερα, τα περισσότερα συστήματα AI agents συνδυάζουν ξεχωριστά μοντέλα για αναγνώριση ομιλίας, οπτική κατανόηση και γλωσσική συλλογιστική, γεγονός που προκαλεί απώλειες χρόνου και πλαισίου καθώς τα δεδομένα μεταφέρονται μεταξύ τους. Το Nemotron 3 Nano Omni ενοποιεί αυτή τη διαδικασία, ενσωματώνοντας έναν κωδικοποιητή ομιλίας Parakeet, έναν κωδικοποιητή όρασης C-RADIOv4-H και ένα οπτικό σύστημα εκπαιδευμένο σε GUI σε έναν ενιαίο βρόχο συλλογιστικής.
Η Nvidia αναφέρει ότι η νέα αυτή προσέγγιση προσφέρει έως και εννέα φορές υψηλότερη απόδοση σε σχέση με ανταγωνιστικά ανοιχτά omni μοντέλα παρόμοιας διαδραστικότητας. Επιπλέον, επιτυγχάνει περίπου τριπλάσια απόδοση με 2,75 φορές μικρότερη υπολογιστική ισχύ σε εργασίες συλλογιστικής βίντεο. Το μοντέλο διαθέτει παράθυρο περιβάλλοντος 256K tokens και η εταιρεία τονίζει ότι καταλαμβάνει κορυφαίες θέσεις σε έξι leaderboards για σύνθετη νοημοσύνη εγγράφων και κατανόηση βίντεο και ήχου.
Μεγάλες εταιρείες όπως η Foxconn, η Palantir και η H Company έχουν ήδη υιοθετήσει το μοντέλο, ενώ η Dell, η Oracle και η Infosys το αξιολογούν. «Η χρήση του Nemotron 3 Nano Omni επιτρέπει στους πράκτορές μας να αναλύουν γρήγορα εγγραφές οθόνης πλήρους HD, μια δυνατότητα που ήταν προηγουμένως ανέφικτη», δήλωσε ο Gautier Cloix, Διευθύνων Σύμβουλος της H Company.
Το νέο μοντέλο της Nvidia διατίθεται στις πλατφόρμες Hugging Face, OpenRouter, Amazon SageMaker JumpStart, Vultr και σε περισσότερες από 25 συνεργαζόμενες υποδομές. Είναι επίσης προσβάσιμο μέσω του μικροσέρβις NIM της εταιρείας, με ανοιχτά βάρη, σύνολα δεδομένων και συνταγές εκπαίδευσης, διευκολύνοντας την προσαρμογή και ανάπτυξη του μοντέλου τόσο σε τοπικά όσο και σε cloud περιβάλλοντα.
Το Nemotron 3 Nano Omni αποτελεί μέρος της ευρύτερης οικογένειας Nemotron 3 της Nvidia, η οποία περιλαμβάνει επίσης τα μοντέλα Super και Ultra για πιο απαιτητικές εργασίες συλλογισμού. Η εταιρεία αναφέρει ότι η σειρά Nemotron 3 έχει συγκεντρώσει πάνω από 50 εκατομμύρια λήψεις μέσα στον τελευταίο χρόνο, επιβεβαιώνοντας τη δυναμική της στην αγορά της τεχνητής νοημοσύνης.






