Η χρήση Τεχνητής Νοημοσύνης για την αναζήτηση ιατρικών συμπτωμάτων δεν φαίνεται να βοηθά τους ασθενείς να λαμβάνουν καλύτερες αποφάσεις για την υγεία τους, συγκριτικά με μια απλή αναζήτηση στο διαδίκτυο, σύμφωνα με νέα μελέτη που δημοσιεύθηκε στο περιοδικό Nature Medicine.
Οι συντάκτες της έρευνας επισημαίνουν τη σημασία των ευρημάτων, καθώς ολοένα και περισσότεροι πολίτες στρέφονται στην Τεχνητή Νοημοσύνη και στα chatbots για συμβουλές υγείας, χωρίς ωστόσο να υπάρχουν αποδείξεις ότι αυτή η προσέγγιση είναι η πλέον ασφαλής ή αποτελεσματική.
Η μελέτη πραγματοποιήθηκε από ερευνητές του Ινστιτούτου Διαδικτύου του Πανεπιστημίου της Οξφόρδης, σε συνεργασία με ομάδα γιατρών. Δημιούργησαν δέκα διαφορετικά ιατρικά σενάρια, από ένα κοινό κρυολόγημα έως μια απειλητική για τη ζωή αιμορραγία στον εγκέφαλο.
Κατά τη δοκιμή χωρίς ανθρώπινη παρέμβαση, τρία μεγάλα γλωσσικά μοντέλα —το Chat GPT-4o της Open AI, το Llama 3 της Meta και το Command R+ της Cohere— εντόπισαν σωστά τις παθήσεις στο 94,9% των περιπτώσεων και πρότειναν την ορθή πορεία δράσης, όπως επίσκεψη σε γιατρό ή κλήση ασθενοφόρου, σε ποσοστό 56,3%.
«Τεράστιο χάσμα» μεταξύ δυνατοτήτων και πραγματικής απόδοσης
Στη συνέχεια, 1.298 συμμετέχοντες στη Βρετανία κλήθηκαν να χρησιμοποιήσουν είτε Τεχνητή Νοημοσύνη, είτε τις συνήθεις πηγές πληροφόρησης —όπως αναζήτηση στο διαδίκτυο, προσωπική εμπειρία ή τον ιστότοπο του NHS— για να διερευνήσουν συμπτώματα και να αποφασίσουν τα επόμενα βήματά τους.
Οι συμμετέχοντες εντόπισαν σωστά τις παθήσεις σε λιγότερο από 34,5% των περιπτώσεων και έδωσαν τη σωστή κατεύθυνση δράσης σε λιγότερο από 44,2%, ποσοστά που δεν υπερτερούν αυτών της ομάδας ελέγχου που χρησιμοποιούσε παραδοσιακές μεθόδους.
Ο Άνταμ Μαχντί, αναπληρωτής καθηγητής στο Πανεπιστήμιο της Οξφόρδης και συντάκτης της μελέτης, τόνισε το «τεράστιο χάσμα» ανάμεσα στις δυνατότητες της Τεχνητής Νοημοσύνης και στην απόδοσή της όταν αλληλεπιδρά με ανθρώπους.
«Η γνώση μπορεί να βρίσκεται σε αυτά τα bots. Ωστόσο, αυτή η γνώση δεν μεταφέρεται πάντα κατά την αλληλεπίδραση με ανθρώπους», σημείωσε, υπογραμμίζοντας την ανάγκη περαιτέρω διερεύνησης των αιτιών πίσω από αυτό το φαινόμενο.
Ανθρώπινα λάθη και παραπλανητικές απαντήσεις
Η ερευνητική ομάδα ανέλυσε λεπτομερώς περίπου 30 αλληλεπιδράσεις και διαπίστωσε ότι οι χρήστες συχνά παρείχαν ελλιπείς ή λανθασμένες πληροφορίες. Παράλληλα, τα μεγάλα γλωσσικά μοντέλα (LLMs) παρήγαγαν σε ορισμένες περιπτώσεις παραπλανητικές ή ανακριβείς απαντήσεις.
Για παράδειγμα, ένας ασθενής που περιέγραψε συμπτώματα υποαραχνοειδούς αιμορραγίας —μιας επικίνδυνης για τη ζωή πάθησης— έλαβε σωστά την εντολή να μεταβεί στο νοσοκομείο, αφού ανέφερε πιάσιμο στον αυχένα, ευαισθησία στο φως και τον «χειρότερο πονοκέφαλο που είχε ποτέ».
Αντίθετα, άλλος ασθενής με τα ίδια συμπτώματα αλλά περιγράφοντας τον πονοκέφαλο ως «φρικτό», έλαβε τη σύσταση να ξαπλώσει σε σκοτεινό δωμάτιο.
Η ομάδα σχεδιάζει να επεκτείνει την έρευνα σε διαφορετικές χώρες και γλώσσες, προκειμένου να διαπιστώσει αν οι πολιτισμικές και γλωσσικές διαφορές επηρεάζουν την απόδοση της Τεχνητής Νοημοσύνης.
Η μελέτη υποστηρίχθηκε από την εταιρεία δεδομένων Prolific, το γερμανικό μη κερδοσκοπικό ίδρυμα Dieter Schwarz Stiftung και τις κυβερνήσεις του Ηνωμένου Βασιλείου και των ΗΠΑ.