Μια νέα έρευνα που δημοσιεύθηκε τη Δευτέρα στο περιοδικό JAMA Network Open αποκάλυψε ότι 21 εμπορικά διαθέσιμα chatbots Τεχνητής Νοημοσύνης  μεταξύ των οποίων οι τελευταίες εκδόσεις των ChatGPT, DeepSeek, Claude, Gemini και Grok  απέτυχαν να δώσουν κατάλληλη διαφορική διάγνωση σε ποσοστό άνω του 80%, όταν είχαν στη διάθεσή τους μόνο βασικές πληροφορίες όπως ηλικία, φύλο και συμπτώματα του ασθενούς.

Η έρευνα, υπό την καθοδήγηση του Marc Succi, εκτελεστικού διευθυντή του MESH Incubator στο Mass General Brigham, αξιολόγησε τα μοντέλα σε 29 τυποποιημένα κλινικά σενάρια. Για να προσομοιώσουν την εξέλιξη πραγματικών περιστατικών, οι ερευνητές παρείχαν σταδιακά περισσότερα δεδομένα, ξεκινώντας από ελάχιστες πληροφορίες και προσθέτοντας αποτελέσματα φυσικής εξέτασης, εργαστηριακών ελέγχων και απεικονιστικών εξετάσεων.

Παρότι όλα τα μοντέλα κατάφεραν να καταλήξουν στη σωστή τελική διάγνωση σε ποσοστό άνω του 90% όταν είχαν πλήρη κλινικά δεδομένα, παρουσίασαν σημαντικές αδυναμίες στα αρχικά στάδια συλλογισμού — εκεί όπου οι γιατροί καλούνται καθημερινά να κάνουν κρίσιμες εκτιμήσεις.

Νέο εργαλείο αξιολόγησης αποκαλύπτει τις αδυναμίες

Οι ερευνητές παρουσίασαν ένα νέο εργαλείο αξιολόγησης, το PrIME-LLM (Proportional Index of Medical Evaluation for LLMs), το οποίο μετρά την απόδοση των μοντέλων σε ολόκληρη τη ροή της κλινικής διαδικασίας και όχι μόνο στην τελική ακρίβεια διάγνωσης. Στο πλαίσιο αυτό, οι βαθμολογίες κυμάνθηκαν από 64% για το Gemini 1.5 Flash έως 78% για τα Grok 4 και GPT-5, με τα μοντέλα που είναι βελτιστοποιημένα για συλλογιστική να αποδίδουν καλύτερα.

Οι παραδοσιακές μετρήσεις ακρίβειας, που κυμαίνονταν μεταξύ 81% και 90%, έκρυβαν τις μεγάλες διαφορές στις ικανότητες συλλογισμού που ανέδειξε το PrIME-LLM. Όπως δήλωσε ο Succi, “Τα μοντέλα αυτά είναι εξαιρετικά στο να κατονομάζουν μια τελική διάγνωση όταν έχουν πλήρη δεδομένα, αλλά δυσκολεύονται στην αρχή μιας υπόθεσης, όταν οι πληροφορίες είναι περιορισμένες.”

Τα νεότερα μοντέλα παρουσίασαν σταδιακή βελτίωση σε σχέση με τα παλαιότερα, ενώ η απόδοση αυξανόταν γενικά όταν προστίθεντο εργαστηριακά και απεικονιστικά αποτελέσματα.

Κίνδυνοι για τους ασθενείς στην πράξη

Το χάσμα μεταξύ της πρώιμης συλλογιστικής και της τελικής ακρίβειας διάγνωσης έχει άμεσες επιπτώσεις για τους ασθενείς που στρέφονται όλο και περισσότερο στα chatbots για ιατρικές συμβουλές. Οι ερευνητές προειδοποίησαν ότι όσοι βασίζονται σε λανθασμένες εκτιμήσεις της Tεχνητής Nοημοσύνης ενδέχεται να υποβληθούν σε περιττές διαδικασίες ή να καθυστερήσουν κρίσιμες θεραπείες.

Στην έρευνα, τα μοντέλα μπορούσαν να προχωρήσουν στα επόμενα στάδια της κλινικής διερεύνησης ακόμη και μετά από αποτυχία στη διαφορική διάγνωση  κάτι που δεν θα ίσχυε για έναν ασθενή που χρησιμοποιεί ένα chatbot στο σπίτι.

Όπως τόνισε ο Succi, «Παρά τις συνεχιζόμενες βελτιώσεις, τα έτοιμα προς χρήση μεγάλα γλωσσικά μοντέλα δεν είναι έτοιμα για ανεξάρτητη, κλινικού επιπέδου εφαρμογή.» Και πρόσθεσε: «Τα αποτελέσματά μας επιβεβαιώνουν ότι τα μεγάλα γλωσσικά μοντέλα στην υγεία εξακολουθούν να χρειάζονται την παρουσία ‘ανθρώπου στον βρόχο’ και πολύ στενή εποπτεία.»

Αξίζει να σημειωθεί ότι, τα ευρήματα δημοσιοποιούνται την ώρα που ο ανεξάρτητος οργανισμός ασφάλειας ECRI κατέταξε την κακή χρήση των AI chatbots στην υγειονομική περίθαλψη ως τον κορυφαίο τεχνολογικό κίνδυνο για το 2026.

Σχόλια
Γράψτε το σχόλιό σας
50 /50
2000 /2000
Όροι Χρήσης. Το site προστατεύεται από reCAPTCHA, ισχύουν Πολιτική Απορρήτου & Όροι Χρήσης της Google.
Στα Σχοινιά: Ουγγαρία, Όρμπαν, AfD και Τραμπ - Τι αλλάζει στην Ευρώπη