Απότομο φρενάρισμα σε ένα χρηματιστηριακό ράλι που έχει φέρει κέρδη 14 τρισ. δολ. από τις αρχές του 2023 προκάλεσε η αποκάλυψη της κινεζικής πλατφόρμας Τεχνητής Νοημοσύνης DeepSeek, που φαίνεται ότι μπορεί να κάνει σχεδόν ό,τι και οι κορυφαίες αμερικανικές, αλλά με ένα κλάσμα επενδύσεων σε επεξεργαστική ισχύ και σε κατανάλωση ενέργειας.
Οι επενδυτές καλούνται να επαναπροσδιορίσουν τις αποτιμήσεις των εταιρειών υψηλής τεχνολογίας και, ειδικότερα, όσων εμπλέκονται στην Τεχνητή Νοημοσύνη, μια νέα τεχνολογία που είχε ηγηθεί της παγκόσμιας χρηματιστηριακής ανόδου. Ο Nasdaq είχε κερδίσει από τις αρχές του 2023, μέχρι τα τέλη της περασμένης εβδομάδας, 92% προσθέτοντας αξία 14 τρισ. δολ. στους μετόχους και τα στελέχη των εταιρειών, ενώ μόλις την περασμένη εβδομάδα ο S&P 500 είχε φτάσει σε νέο ρεκόρ, χάρη στις τεχνολογικές μετοχές, λαμβάνοντας ώθηση και από το σχέδιο "Stargate" του Τραμπ για επενδύσεις 500 δισ. δολ. σε υποδομές Τεχνητής Νοημοσύνης.
Η χτεσινή ημέρα σηματοδότησε την έναρξη ενός έντονου προβληματισμού για την πραγματική αξία των τεχνολογικών μετοχών, μετά το κινεζικό «χτύπημα». Ο Nasdaq «βούτηξε» 3% χαμηλότερα στο κλείσιμο των συναλλαγών, καθώς οι συνολικές απώλειες κεφαλαιοποίησης ξεπέρασαν τα 1 τρισ. δολ. Η nVidia, η εταιρεία - θαύμα που παράγει τα πιο σύγχρονα τσιπ για Τεχνητή Νοημοσύνη «έγραψε» τις μεγαλύτερες ημερήσιες απώλειες που έχουν καταγραφεί στις αμερικανικές αγορές, χάνοντας 600 δισ. δολ., με μια πτώση της τάξεως του -17%. Η Constellation Energy, κορυφαία ενεργειακή εταιρεία για τις ανάγκες της Τεχνητής Νοημοσύνης έχασε -21%. Ο ευρύς δείκτης S&P 500, που επηρεάζεται πλέον κατά 30% από τις μετοχές τεχνολογίας, υποχώρησε κατά 1,46%.
Αντίθετα, ανέβηκαν μετοχές κινεζικών εταιριών που συνδέονται με την DeepSeek, όπως η Iflytek, καθώς μέχρι και χτες η εφαρμογή DeepSeek για κινητά είχε κατεβαστεί 1,6 εκατ. φορές, καταλαμβάνοντας την 1η θέση στο App Store σε Αυστραλία, Καναδά, Κίνα, Σιγκαπούρη, ΗΠΑ και Ηνωμένο Βασίλειο, σύμφωνα με στοιχεία από την εταιρεία παρακολούθησης της αγοράς App Figures.
Η κινεζική ΑΙ που αναστατώνει την τεχνολογική κοινότητα
Η μόλις ενός έτους κινεζική DeepSeek, έχει προκαλέσει δέος και ανησυχία στη Silicon Valley μετά την αποκάλυψη ενός μοντέλου τεχνητής νοημοσύνης που προσφέρει συγκρίσιμες επιδόσεις με τα καλύτερα chatbots του κόσμου. Την ίδια στιγμή, το κόστος φαίνεται πολύ χαμηλότερο με την κινεζική εταιρία τεχνολογίας να αποτελεί τον αντίλογο στην άποψη ότι το μέλλον της τεχνητής νοημοσύνης απαιτεί ολοένα και μεγαλύτερες ποσότητες ισχύος και ενέργειας για την ανάπτυξή της.
Ταυτόχρονα μοιάζει να αμφισβητεί την άποψη ότι η τεχνολογία τεχνητής νοημοσύνης της Κίνας είναι χρόνια πίσω από τις αντίστοιχες των ΗΠΑ. Οι εμπορικοί περιορισμοί της Ουάσινγκτον είχαν κρατήσει τα πιο πρωτοποριακά τσιπ μακριά από την Κίνα, αλλά το μοντέλο της DeepSeek χτίστηκε χωρίς μεγάλες απαιτήσεις επεξεργαστικής ισχύος και χρησιμοποιώντας τεχνολογία ανοιχτού κώδικα που είναι εύκολα προσβάσιμη.
Η DeepSeek ιδρύθηκε το 2023 από τον Liang Wenfeng, τον επικεφαλής του hedge fund High-Flyer που επικεντρώνεται στην Τεχνητή Νοημοσύνη. Η εταιρεία αναπτύσσει μοντέλα τεχνητής νοημοσύνης ανοικτού κώδικα, με την εφαρμογή να διακρίνεται από άλλα chatbots, όπως το ChatGPT της OpenAI, καθώς αρθρώνει το σκεπτικό της πριν δώσει απάντηση. Η εταιρεία ισχυρίζεται ότι η έκδοση R1 της προσφέρει επιδόσεις εφάμιλλες με τις τελευταίες του OpenAI και έχει παραχωρήσει δωρεάν άδεια σε όσους ενδιαφέρονται να αναπτύξουν chatbots χρησιμοποιώντας την τεχνολογία της.
Τον Νοέμβριο, η κινεζική εταιρία έδωσε μια πρόγευση από το μοντέλο συλλογισμού DeepSeek R1, που είναι σχεδιασμένο να μιμείται την ανθρώπινη σκέψη. Αυτό το μοντέλο στηρίζει την εφαρμογή chatbot για κινητά, η οποία μαζί με τη σελίδα στο διαδίκτυο τον Ιανουάριο εκτοξεύτηκε σε παγκόσμια φήμη ως μια πολύ φθηνότερη εναλλακτική λύση του OpenAI, με τον επενδυτή Μαρκ Άντρισεν να την αποκαλεί «η στιγμή Σπούτνικ της AI».
Ήδη, προγραμματιστές σε όλο τον κόσμο πειραματίζονται με το λογισμικό της DeepSeek και επιδιώκουν να δημιουργήσουν εργαλεία με αυτό, επιταχύνοντας την υιοθέτηση των προηγμένων μοντέλων συλλογιστικής τεχνητής νοημοσύνης.
Όπως και το OpenAI στην αρχή, το DeepSeek υποσχέθηκε να αναπτύξει την τεχνητή νοημοσύνη για το δημόσιο καλό και η εταιρεία να δημοσιοποιήσει τα περισσότερα από τα αποτελέσματα της εκπαίδευσής των μοντέλων της, όπως έχει δήλωσει ο κ. Liang, για να προσπαθήσει να αποτρέψει τη «μονοπώληση» της τεχνολογίας από λίγα μόνο άτομα ή επιχειρήσεις. Σε αντίθεση με την OpenAI, η οποία αναγκάστηκε να αναζητήσει ιδιωτική χρηματοδότηση για να καλύψει το διογκούμενο κόστος εκπαίδευσης του μοντέλου της, η DeepSeek είχε πάντα πρόσβαση στα αποθέματα υπολογιστικής ισχύος της High-Flyer.
Η DeepSeek λέει ότι το R1 είναι κοντά ή καλύτερο από τα ανταγωνιστικά μοντέλα σε διάφορα κορυφαία benchmarks, όπως το AIME 2024 για μαθηματικές εργασίες, το MMLU για γενικές γνώσεις και το AlpacaEval 2.0 για την απόδοση ερωτήσεων και απαντήσεων. Κατατάσσεται επίσης μεταξύ των κορυφαίων επιδόσεων σε έναν πίνακα κατάταξης που συνδέεται με το Πανεπιστήμιο Μπέρκλεϊ και ονομάζεται Chatbot Arena.
Ωστόσο, όπως όλα τα κινεζικά μοντέλα ΑΙ, το DeepSeek αυτολογοκρίνεται σε θέματα που θεωρούνται ευαίσθητα στην Κίνα. Αποφεύγει ερωτήματα σχετικά με τις διαδηλώσεις στην πλατεία Τιενανμέν το 1989 ή γεωπολιτικά φορτισμένα ερωτήματα, όπως το ενδεχόμενο εισβολής της Κίνας στην Ταϊβάν. Σε δοκιμές, το DeepSeek είναι ικανό να δίνει λεπτομερείς απαντήσεις για πολιτικές προσωπικότητες όπως ο Ινδός πρωθυπουργός Ναρέντρα Μόντι, αλλά αρνείται να το κάνει για τον Κινέζο πρόεδρο Σι Τζινπίνγκ.
Παράλληλα και η cloud υποδομή του DeepSeek θα δοκιμαστεί από την ξαφνική δημοτικότητά του, με την κινεζική εταιρεία να αντιμετωπίζει για λίγο μια σημαντική διακοπή χθες, καθώς η κίνηση εκτοξεύεται από νέους και επαναλαμβανόμενους χρήστες.
Ο εμπορικός πόλεμος της ΑΙ
Το μοντέλο όχι μόνο εκπαιδεύτηκε φθηνά, αλλά και η λειτουργία του κοστίζει λιγότερο. Αν και η εταιρεία δεν έχει δώσει πλήρη στοιχεία, το κόστος εκπαίδευσης και ανάπτυξης των μοντέλων της DeepSeek φαίνεται να είναι μόλις το 10% από αυτό που απαιτείται για τα μοντέλα της OpenAI ή τα καλύτερα προϊόντα της Meta.
Ως αποτέλεσμα, τον Φεβρουάριο, όταν η DeepSeek θα αρχίσει να επιτρέπει σε άλλες επιχειρήσεις να δημιουργούν υπηρεσίες που κάνουν χρήση της εφαρμογής, θα χρεώνει λιγότερο από το ένα δέκατο αυτού που χρεώνει η Anthropic, δίνοντας μια δραματική τροπή στον πόλεμο τιμών της Τεχνητής Νοημοσύνης. Η αναζήτηση της DeepSeek για αποδοτικότητα δεν σταματά, καθώς αυτή την εβδομάδα, ακόμη και όταν δημοσίευσε το R1, κυκλοφόρησε επίσης μια σειρά από μικρότερες, φθηνότερες και ταχύτερες παραλλαγές, οι οποίες είναι σχεδόν εξίσου ισχυρές με το μεγαλύτερο μοντέλο.
Το μοντέλο LLM της DeepSeek είναι αξιοσημείωτο όχι μόνο για την κλίμακά του, αλλά και για την αποτελεσματικότητα της εκπαίδευσής του, κατά την οποία το μοντέλο τροφοδοτείται με δεδομένα από τα οποία συμπεραίνει τις παραμέτρους του. Μια καινοτομία που προέρχεται από μια σειρά βελτιώσεων των ήδη υπάρχοντων μοντέλων.
Η διαδικασία εκπαίδευσης, για παράδειγμα, χρησιμοποιούσε συχνά στρογγυλοποιήσεις για να διευκολύνει τους υπολογισμούς, αλλά διατηρούσε τους αριθμούς ακριβείς όταν ήταν απαραίτητο. Το σετ διακομιστών αναδιαμορφώθηκε έτσι ώστε τα μεμονωμένα τσιπ να μιλούν μεταξύ τους πιο αποτελεσματικά. Και μετά την εκπαίδευση του μοντέλου, τελειοποιήθηκε με την έξοδο από το DeepSeek R1, το σύστημα συλλογισμού, μαθαίνοντας πώς να μιμείται την ποιότητά του συστήματος με χαμηλότερο κόστος.
Κάτι που προκαλεί τριγμούς και στις εταιρείες κατασκευής τσιπ όπως η Nvidia καθώς θέτει υπό αμφισβήτηση την ανάγκη για τεράστιες δαπάνες κεφαλαίων για την απόκτηση των τελευταίων και ισχυρότερων τσιπ τεχνητής νοημοσύνης. Είναι χαρακτηριστικό πως η επιτυχία του DeepSeek βασίστηκε σε 16.000 τσιπ που λόγω των αμερικανικών περιορισμών δεν ήταν και τα πιο ισχυρά, ενώ η Meta σχεδιάζεται δημιουργήσει μια ομάδα server (server farm) χρησιμοποιώντας 350.000 αντίστοιχα τσιπ.
Την ίδια στιγμή που οι περιορισμοί που είχαν επιβάλλει οι ΗΠΑ για την εξαγωγή προηγμένων ημιαγωγών προς την Κίνα, είχαν ως στόχο να αποτρέψουν μια εξέλιξη όπως το DeepSeek.
Τα τελευταία χρόνια η Ουάσινγκτον έχει απαγορεύσει την εξαγωγή τεχνολογιών υψηλής τεχνολογίας, όπως οι ημιαγωγοί GPU, στην Κίνα, σε μια προσπάθεια να ανακόψει την πρόοδο της χώρας στην τεχνητή νοημοσύνη. Ωστόσο οι περιορισμοί δεν απέδωσαν καρπούς όπως αποδεικνύεται καθώς αν και παραμένει ασαφές σε πόσο προηγμένο υλικό εκπαίδευσης AI είχε πρόσβαση η DeepSeek, η πρόοδος της εφαρμογής αποδεικνύεται ότι οι Κινέζοι μηχανικοί τεχνητής νοημοσύνης κατάφεραν να παρακάμψουν τους περιορισμούς, εστιάζοντας σε μεγαλύτερη αποτελεσματικότητα με περιορισμένους πόρους.
Από την πλευρά τους, οι τεχνολογικοί ηγέτες της Κίνας, από την Alibaba και την Baidu έως την Tencent, έχουν ρίξει σημαντικά χρήματα και πόρους στον αγώνα για την απόκτηση υλικού και πελατών για τα εγχειρήματά τους στον τομέα της τεχνητής νοημοσύνης. Μαζί με την 01.AI, η DeepSeek ξεχωρίζει με την προσέγγιση ανοιχτού κώδικα, και τα προσιτά μοντέλα της έχουν ήδη συμβάλει στη μείωση του κόστους για την τεχνητή νοημοσύνη στην Κίνα, όπου οι μεγαλύτεροι παίκτες έχουν εμπλακεί σε έναν πόλεμο τιμών τον τελευταίο ενάμιση χρόνο.
Η επιτυχία της DeepSeek μπορεί να ωθήσει την OpenAI και άλλους αμερικανικούς παρόχους να μειώσουν τις τιμές ενώ θέτει υπό αμφισβήτηση τις τεράστιες δαπάνες από εταιρείες όπως η Meta και η Microsoft που έχουν δεσμευτεί για επενδύσεις ύψους 65 δισ. δολαρίων.
Η κινεζική τεχνητή νοημοσύνη φαίνεται να είναι πλέον τόσο κοντά σε ποιότητα με τους αμερικανικούς αντιπάλους της, ωστόσο ο επικεφαλής της OpenAI, Σαμ Αλτμαν σχολίασε στο Χ πως «είναι (σχετικά) εύκολο να αντιγράψεις κάτι που ξέρεις ότι λειτουργεί. Είναι εξαιρετικά δύσκολο να κάνεις κάτι νέο, ριψοκίνδυνο και δύσκολο όταν δεν ξέρεις αν θα λειτουργήσει».