DeepSeek, il rivoluzionario strumento di intelligenza artificiale in otto domande
L'omonimo modello linguistico di grandi dimensioni (LLM) del laboratorio cinese di intelligenza artificiale DeepSeek ha stupito la Silicon Valley diventando uno dei maggiori concorrenti di ChatGPT dell'azienda statunitense OpenAI.
Gli ultimi modelli di DeepSeek, rilasciati questo mese, si dice siano estremamente veloci e a basso costo.
Il DeepSeek-R1, l'ultimo dei modelli sviluppati con meno chip, sfida il dominio di giganti come OpenAI, Google e Meta.
Ecco DeepSeek in otto domande:
1. Da dove viene DeepSeek?
L'azienda, con sede a Hangzhou, in Cina, è stata fondata nel luglio 2023 da Liang Wenfeng, ingegnere informatico ed elettronico, laureato alla Zhejiang University. Faceva parte del programma di incubazione di High-Flyer, un fondo nato grazie a Liang nel 2015. Liang, come altri nomi di spicco del settore, mira a un livello di "intelligenza artificiale generale" in grado di raggiungere o superare gli esseri umani in vari compiti.
Operando in modo indipendente, il modello di finanziamento di DeepSeek le consente di perseguire progetti di intelligenza artificiale ambiziosi senza la pressione di investitori esterni e di dare priorità alla ricerca e allo sviluppo a lungo termine. Il team di DeepSeek è composto da giovani e talentuosi laureati delle migliori università cinesi e promuove una cultura dell'innovazione. Il processo di assunzione dell'azienda privilegia le competenze tecniche rispetto all'esperienza lavorativa. In breve, si ritiene che abbia una nuova prospettiva nel processo di sviluppo di modelli di intelligenza artificiale.
Il viaggio di DeepSeek è iniziato nel novembre 2023 con il lancio di DeepSeek Coder, un modello open source progettato per attività di codifica. A questo è seguito DeepSeek LLM, che mirava a competere con gli altri principali modelli linguistici. DeepSeek-V2, rilasciato nel maggio 2024, ha guadagnato terreno grazie alle sue ottime prestazioni e al suo basso costo. Ha inoltre costretto altri grandi colossi tecnologici cinesi come ByteDance, Tencent, Baidu e Alibaba ad abbassare i prezzi dei loro modelli di intelligenza artificiale.
2. Qual è la capacità dei modelli DeepSeek?
DeepSeek-V2 è stato poi sostituito da DeepSeek-Coder-V2, un modello più avanzato con 236 miliardi di parametri. Progettato per richieste di codifica complesse, il modello ha una finestra di contesto elevata, fino a 128.000 token. Una finestra di contesto di 128.000 tokens è la lunghezza massima di testo in ingresso che il modello può elaborare simultaneamente.
Una finestra di contesto più ampia consente al modello di comprendere, riassumere o analizzare testi più lunghi. Questo è un grande vantaggio, ad esempio, quando si lavora su documenti lunghi, libri o dialoghi complessi.
Un token è un'unità in un testo. Spesso questa unità può essere una parola, una particella (come "artificiale" e "intelligenza") o anche un carattere. Ad esempio: "L'intelligenza artificiale è fantastica!" può essere composto da quattro token: "artificiale", "intelligenza", "grande", "!".
Gli ultimi modelli DeepSeek-V3 e DeepSeek-R1 hanno consolidato ulteriormente la posizione dell'azienda. Con un modello da 671.000 parametri, DeepSeek-V3 richiede un numero di risorse significativamente inferiore rispetto ai suoi colleghi, pur ottenendo risultati impressionanti in vari test di benchmark con altri marchi. Il DeepSeek-R1, lanciato nel gennaio 2025, si concentra su compiti complessi come il ragionamento, la codifica e la matematica. Grazie alle sue capacità in questo campo, sfida l'o1, uno dei modelli più recenti di ChatGPT.
Sebbene DeepSeek abbia ottenuto un successo significativo in breve tempo, Forbes ha scritto che l'azienda si concentra principalmente sulla ricerca e non ha piani dettagliati per la commercializzazione nel prossimo futuro.
3. È gratuito per l'utente finale?
Uno dei motivi principali per cui DeepSeek è riuscito ad attirare l'attenzione è che è gratuito per gli utenti finali. Si tratta infatti del primo sistema di intelligenza artificiale così avanzato disponibile gratuitamente per gli utenti. Altri sistemi potenti come OpenAI o1 e Claude Sonnet richiedono un abbonamento a pagamento. Addirittura alcuni abbonamenti impongono quote agli utenti.
Anche Google Gemini è disponibile gratuitamente, ma le versioni gratuite sono limitate ai modelli più vecchi. DeepSeek non ha limitazioni per ora.
4. Come si usa?
Gli utenti possono accedere all'interfaccia di chat di DeepSeek sviluppata per l'utente finale all'indirizzo "chat.deepseek". È sufficiente inserire i comandi nella schermata di chat e premere il pulsante "search" per effettuare una ricerca su Internet.
Esiste un'opzione "deep think" per ottenere informazioni più dettagliate su qualsiasi argomento. Se da un lato questa opzione fornisce risposte più dettagliate alle richieste degli utenti, dall'altro può cercare più siti nel motore di ricerca. Tuttavia, a differenza di ChatGPT, che effettua la ricerca solo affidandosi a determinate fonti, questa funzione può anche rivelare informazioni false su alcuni piccoli siti. Pertanto, gli utenti devono confermare le informazioni ottenute con questo chat bot.
5. È sicuro?
Un'altra domanda importante sull'utilizzo di DeepSeek è se sia sicuro. DeepSeek, come altri servizi, richiede i dati degli utenti, che probabilmente sono conservati su server in Cina.
Come per qualsiasi LLM, è importante che gli utenti non forniscano dati sensibili al chatbot.
Poiché DeepSeek è anche open-source, i ricercatori indipendenti possono esaminare il codice del modello e cercare di determinare se è sicuro. Informazioni più dettagliate sui problemi di sicurezza dovrebbero essere rilasciate nei prossimi giorni.
6. Cosa significa open source?
I modelli, compreso DeepSeek-R1, sono stati rilasciati in gran parte open source. Ciò significa che chiunque può accedere al codice dello strumento e utilizzarlo per personalizzare l'LLM. I dati di addestramento sono proprietari.
OpenAI, invece, aveva rilasciato il modello o1 chiuso e lo sta già vendendo solo agli utenti, anche agli utenti, con pacchetti da 20 a 200 dollari al mese.
7. Come ha fatto a produrre un modello del genere nonostante le restrizioni statunitensi?
L'azienda ha anche stabilito partnership strategiche per migliorare le proprie capacità tecnologiche e la propria portata sul mercato. Una delle collaborazioni più importanti è stata quella con l'azienda statunitense di chip AMD. Secondo Forbes, DeepSeek ha utilizzato le GPU (unità di elaborazione grafica) AMD Instinct e il software ROCM nelle fasi chiave dello sviluppo del modello, in particolare per DeepSeek-V3.
MIT Technology Review ha riferito che Liang ha acquistato scorte significative di chip Nvidia A100, un tipo di chip attualmente vietato all'esportazione in Cina, molto prima delle sanzioni statunitensi contro la Cina. Il media cinese 36Kr stima che l'azienda abbia più di 10.000 unità in magazzino. Alcuni sostengono che la cifra sia di 50.000 unità. Rendendosi conto dell'importanza di queste scorte per l'addestramento dell'intelligenza artificiale, Liang ha fondato DeepSeek e ha iniziato a utilizzarle insieme a chip a basso consumo per migliorare i suoi modelli.
Ma il punto importante è che Liang ha trovato un modo per costruire modelli competenti con poche risorse. Le restrizioni all'esportazione di chip negli Stati Uniti hanno costretto gli sviluppatori di DeepSeek a creare algoritmi più intelligenti ed efficienti dal punto di vista energetico per compensare la mancanza di potenza di calcolo. Si ritiene che ChatGPT abbia bisogno di 10.000 GPU Nvidia per elaborare i dati di addestramento. Gli ingegneri di DeepSeek affermano di aver ottenuto risultati simili con sole 2.000 GPU.
8. Quali sono le tecniche innovative di DeepSeek?
Il successo di DeepSeek può essere attribuito a diverse importanti innovazioni.
Apprendimento per rinforzo: a differenza dei metodi tradizionali, che si basano molto sulla messa a punto supervisionata, DeepSeek utilizza l'RL puro, secondo il tecnologo Janakiram MSV. Nella messa a punto supervisionata, il modello viene solitamente addestrato su un ampio set di dati prima della messa a punto. Usare l'RL puro significa che un sistema di intelligenza artificiale viene addestrato usando solo metodi di apprendimento per rinforzo. Ciò significa che il modello apprende solo attraverso meccanismi di ricompensa e punizione, senza dati estratti dall'uomo o metodi di apprendimento supervisionati. Questo approccio è particolarmente efficace per migliorare le capacità di ragionamento di DeepSeek-R1.
Architettura MoE: l'architettura Mixture of Experts, o Miscela di Esperti, è un sistema innovativo di diversi esperti nei modelli di intelligenza artificiale. Qui, diversi esperti vengono selezionati come i più adatti all'input dell'utente e solo loro lavorano. In questo modo, si aumentano le prestazioni dei modelli di grandi dimensioni e si riducono i costi di elaborazione. Si può pensare a un team di esperti, ognuno specializzato in un'area diversa. Quando si affronta un compito, vengono chiamati solo gli esperti pertinenti, garantendo un uso efficiente delle risorse e delle competenze.
Attenzione latente a più teste: questo metodo consente a un modello di apprendere le relazioni tra rappresentazioni latenti e input utilizzando diverse teste di attenzione. Viene utilizzato per elaborare le informazioni in modo più flessibile, potente e dettagliato. È possibile pensare a questo metodo come a più "teste di attenzione" che possono concentrarsi su parti diverse dei dati in ingresso, consentendo al modello di comprendere le informazioni in modo più completo.
Distillazione: DeepSeek utilizza tecniche di distillazione per trasferire le conoscenze e le capacità di modelli più grandi a modelli più piccoli e più efficienti. Questo è simile a un insegnante che trasferisce le conoscenze a uno studente. In questo modo lo studente può eseguire compiti di simile livello, ma con meno esperienza o risorse. Il processo di distillazione di DeepSeek consente ai modelli più piccoli di ereditare le capacità avanzate di ragionamento e di elaborazione del linguaggio delle loro controparti più grandi, rendendole più versatili e accessibili.
In breve, utilizzando architetture efficienti come RL e MoE, DeepSeek riduce significativamente le risorse computazionali necessarie per l'addestramento e può completarlo a costi inferiori. Ad esempio, DeepSeek-V3 è stato addestrato a una frazione del costo dei modelli di Meta.
Alexandr Wang, amministratore delegato di ScaleAI, che fornisce dati di addestramento ai modelli di IA di importanti operatori come OpenAI e Google, ha descritto il prodotto di DeepSeek come "un modello rivoluzionario " nel suo intervento al World Economic Forum (WEF) di Davos, in Svizzera, giovedì scorso.