Le Basi dell'Intelligenza Artificiale: I Benchmark nell'Intelligenza Artificiale

Le Basi dell'Intelligenza Artificiale: I Benchmark nell'Intelligenza Artificiale

 

Nell'ambito del machine learning e dell'intelligenza artificiale (IA), i benchmark sono fondamentali per valutare le performance dei modelli di linguaggio. Ma cosa significa esattamente? Prendiamo ad esempio l'annuncio del recentissimo sviluppo del modello Grok-1 di xAI, un promettente prototipo che ha dimostrato capacità vicine a quelle di modelli con il doppio dei suoi parametri.

Benché entusiasmante, per comprendere il vero valore di tali progressi, è necessario esaminare i benchmark che li hanno validati.


I Benchmark 

Esattamente come in altri ambiti, dalle performance di rendimento di un fondo di investimenti alle prestazioni di un pc rispetto ai competitor nella stessa fascia di prezzo, i benchmark indicando dei parametri di riferimento per poter confrontare in modo omogeneo l'oggetto dell'indagine.

Quelli utilizzati per confrontare le IA hanno nomi fantasiosi o complessi tra cui GSM8k che, ad esempio, simula problemi di matematica di livello scolastico, e sfida i modelli di linguaggio a comprendere e risolvere quesiti formulati in maniera naturale.

Il successo su questo fronte non è solo una questione di calcoli, ma anche di logica applicata.

 

Il MMLU mette alla prova la comprensione multidisciplinare, con domande a scelta multipla che spaziano dalla scienza alla letteratura.

L'abilità di trarre informazioni da contesti vari è cruciale, e il modello Grok-1 si è dimostrato all'altezza, anche se il cammino verso il perfezionamento è ancora lungo.

Ma i modelli vengono testati anche su altri ambiti: passando alla programmazione, il benchmark HumanEval sfida i modelli a generare codice ossia proprio a scrivere codice di programmazione funzionale e funzionante (al primo tentativo).

Grok-1 ha mostrato ottime capacità anche qui, superando modelli come GPT-3.5, e ciò indica una forte capacità di comprendere e applicare le regole della sintassi del codice Python.

Non dimentichiamo il MATH benchmark, dove l'abilità di risolvere problemi matematici complessi è testata nel linguaggio standardizzato LaTeX (un linguaggio di programmazione). Anche qui Grok-1 ha mostrato potenzialità significative.

Ma i benchmark non si fermano qui. SQuAD, GLUE, SuperGLUE, e il Winograd Schema Challenge (i nomi sono bellissimi :-)) sono solo alcuni degli altri standard di valutazione che coprono dalla comprensione del testo al ragionamento logico e causale.

 

Però, mentre festeggiamo i successi, è essenziale ricordare che ogni modello ha i suoi punti di forza e limitazioni. Ad esempio, un'eccellente prestazione in ambito Commonsense Reasoning* non garantisce la stessa efficienza in compiti che richiedono una comprensione contestualizzata o narrativa differente.

 

Diamo all'IA ciò che è dell'IA

Questi benchmark ci mostrano che l'intelligenza artificiale sta progredendo in maniera esponenziale, ma il progresso non è uniforme. Le sfide persistono e ogni modello, come ogni essere umano, ha le sue peculiarità. Il lavoro svolto da modelli come Grok-1 dimostra che, mentre ci avviciniamo a un'IA sempre più versatile e potente, la complessità dell'intelligenza umana continua a essere un punto di riferimento ineguagliabile, una meta verso cui tendere ma non ancora pienamente raggiunta.

Quello che fa la differenza, alla fine, non sono i risultati ottenuti con un determinato benchmark (anche, ma non solo) ma l'output generato unito ad una serie di altri fattori che ne influenzano le prestazioni generali:

Google ha dalla sua un ecosistema fatto di Gmail, dati di traffico in tempo reale, indicizzazione di contenuti globali, i Google Docs e mille altre risorse che, se integrate e connesse tramite una IA, possono fare la differenza rispetto a Grok e anche rispetto al (per ora) top di gamma ChatGPT.

Insomma, non si può guardare ad una IA dai soli numeri così come un investimento non si può semplicemente confrontare con un altro ma occorre considerare altri fattori come, ad esempio, la capacità del gestore di quell'investimento (per esempio se applica uno stile di gestione attivo o passivo), il contesto del settore, ecc.

Numeri che indicano buone prestazioni "sul teorico" non necessariamente corrispondono ad una piena utilità "sul pratico".

E' sicuramente utile avere una base comune su cui confrontarsi ma la competizione è serrata e le novità all'orizzonte si prospettano sempre più interessanti.


#MachineLearning #AIBenchmarking #InnovazioneIA


*commonsense reasoning is a human-like ability to make presumptions about the type and essence of ordinary situations humans encounter every day.

Per visualizzare o aggiungere un commento, accedi

Altri articoli di Stefano Facchin

Altre pagine consultate