Le Basi dell'Intelligenza Artificiale: I Benchmark nell'Intelligenza Artificiale

Stefano Facchin

“La curiosità è la scintilla di ogni grande scoperta.”

Data pubblicazione: 6 nov 2023

Nell'ambito del machine learning e dell'intelligenza artificiale (IA), i benchmark sono fondamentali per valutare le performance dei modelli di linguaggio. Ma cosa significa esattamente? Prendiamo ad esempio l'annuncio del recentissimo sviluppo del modello Grok-1 di xAI, un promettente prototipo che ha dimostrato capacità vicine a quelle di modelli con il doppio dei suoi parametri.

Benché entusiasmante, per comprendere il vero valore di tali progressi, è necessario esaminare i benchmark che li hanno validati.

I Benchmark

Esattamente come in altri ambiti, dalle performance di rendimento di un fondo di investimenti alle prestazioni di un pc rispetto ai competitor nella stessa fascia di prezzo, i benchmark indicando dei parametri di riferimento per poter confrontare in modo omogeneo l'oggetto dell'indagine.

Quelli utilizzati per confrontare le IA hanno nomi fantasiosi o complessi tra cui GSM8k che, ad esempio, simula problemi di matematica di livello scolastico, e sfida i modelli di linguaggio a comprendere e risolvere quesiti formulati in maniera naturale.

Il successo su questo fronte non è solo una questione di calcoli, ma anche di logica applicata.

Il MMLU mette alla prova la comprensione multidisciplinare, con domande a scelta multipla che spaziano dalla scienza alla letteratura.

L'abilità di trarre informazioni da contesti vari è cruciale, e il modello Grok-1 si è dimostrato all'altezza, anche se il cammino verso il perfezionamento è ancora lungo.

Ma i modelli vengono testati anche su altri ambiti: passando alla programmazione, il benchmark HumanEval sfida i modelli a generare codice ossia proprio a scrivere codice di programmazione funzionale e funzionante (al primo tentativo).

Grok-1 ha mostrato ottime capacità anche qui, superando modelli come GPT-3.5, e ciò indica una forte capacità di comprendere e applicare le regole della sintassi del codice Python.

Non dimentichiamo il MATH benchmark, dove l'abilità di risolvere problemi matematici complessi è testata nel linguaggio standardizzato LaTeX (un linguaggio di programmazione). Anche qui Grok-1 ha mostrato potenzialità significative.

Ma i benchmark non si fermano qui. SQuAD, GLUE, SuperGLUE, e il Winograd Schema Challenge (i nomi sono bellissimi :-)) sono solo alcuni degli altri standard di valutazione che coprono dalla comprensione del testo al ragionamento logico e causale.

Consigliati da LinkedIn

I pesi nel Mondo dell'Intelligenza Artificiale

Luca Andreola 1 settimana fa

La programmazione dichiarativa come sistema di…

Luigi Poderico 5 anni fa

Può un algoritmo di Intelligenza Artificiale essere…

Federico Cussigh 5 anni fa

Però, mentre festeggiamo i successi, è essenziale ricordare che ogni modello ha i suoi punti di forza e limitazioni. Ad esempio, un'eccellente prestazione in ambito Commonsense Reasoning* non garantisce la stessa efficienza in compiti che richiedono una comprensione contestualizzata o narrativa differente.

Diamo all'IA ciò che è dell'IA

Questi benchmark ci mostrano che l'intelligenza artificiale sta progredendo in maniera esponenziale, ma il progresso non è uniforme. Le sfide persistono e ogni modello, come ogni essere umano, ha le sue peculiarità. Il lavoro svolto da modelli come Grok-1 dimostra che, mentre ci avviciniamo a un'IA sempre più versatile e potente, la complessità dell'intelligenza umana continua a essere un punto di riferimento ineguagliabile, una meta verso cui tendere ma non ancora pienamente raggiunta.

Quello che fa la differenza, alla fine, non sono i risultati ottenuti con un determinato benchmark (anche, ma non solo) ma l'output generato unito ad una serie di altri fattori che ne influenzano le prestazioni generali:

Google ha dalla sua un ecosistema fatto di Gmail, dati di traffico in tempo reale, indicizzazione di contenuti globali, i Google Docs e mille altre risorse che, se integrate e connesse tramite una IA, possono fare la differenza rispetto a Grok e anche rispetto al (per ora) top di gamma ChatGPT.

Insomma, non si può guardare ad una IA dai soli numeri così come un investimento non si può semplicemente confrontare con un altro ma occorre considerare altri fattori come, ad esempio, la capacità del gestore di quell'investimento (per esempio se applica uno stile di gestione attivo o passivo), il contesto del settore, ecc.

Numeri che indicano buone prestazioni "sul teorico" non necessariamente corrispondono ad una piena utilità "sul pratico".

E' sicuramente utile avere una base comune su cui confrontarsi ma la competizione è serrata e le novità all'orizzonte si prospettano sempre più interessanti.

#MachineLearning #AIBenchmarking #InnovazioneIA

*commonsense reasoning is a human-like ability to make presumptions about the type and essence of ordinary situations humans encounter every day.

Per visualizzare o aggiungere un commento, accedi

Altri articoli di Stefano Facchin

Tu vendimi l’anima e ti mando alle stelle…(CIT)

18 feb 2025

Tu vendimi l’anima e ti mando alle stelle…(CIT)

Per chi coglierà questa citazione, non tratta dalla Divina Commedia 😉 ma da una canzone (chi la sa può scriverlo nei…
Come difendersi dalle frodi fatte con l’Intelligenza Artificiale

11 feb 2025

Come difendersi dalle frodi fatte con l’Intelligenza Artificiale

Negli ultimi giorni abbiamo assistito a frodi realizzate in modo molto sofisticato grazie alle capacità dell’IA…
AI Recap: Cosa ti sei perso questa settimana (e perché è importante)

8 feb 2025

AI Recap: Cosa ti sei perso questa settimana (e perché è importante)

Rieccoci al consueto appuntamento con il mio recap sul mondo dell'Intelligenza Artificiale per vedere insieme i fatti…

3 commenti
In principio c’era il telaio

5 feb 2025

In principio c’era il telaio

L’innovazione, storicamente, non si è mai accontentata di “migliorare” un processo, ma tende a rivoluzionarlo e a…
OpenAI lancia o3-mini

3 feb 2025

OpenAI lancia o3-mini

OpenAI o3-mini: il nuovo modello economico e veloce per il ragionamento STEM Dopo o1, come era stato annunciato -…
AI Recap: Cosa ti sei perso questa settimana (e perché è importante)

1 feb 2025

AI Recap: Cosa ti sei perso questa settimana (e perché è importante)

Buongiorno 😊 Vediamo insieme il mio recap sul mondo dell'Intelligenza Artificiale dei fatti più rilevanti della…

2 commenti
Chi accusa chi? (E chi copia chi)

31 gen 2025

Chi accusa chi? (E chi copia chi)

In Italia il Garante per la Privacy ha deciso di attenzionare DeepSeek. Il clamore mediatico suscitato in questi giorni…
Cos’è DeepSeek e perché è importante?

29 gen 2025

Cos’è DeepSeek e perché è importante?

C’è chi l’ha paragonata allo #Sputnik sovietico – che scatenò la corsa allo #spazio degli USA e dell’allora URSS ma è…
La Cina addestra i robot… a lavorare

27 gen 2025

La Cina addestra i robot… a lavorare

Si sa che i lavoratori cinesi sono infaticabili e abituati a ritmi di lavoro serrati uniti spesso a scarsi diritti. È…
AI Recap: Cosa ti sei perso questa settimana (e perché è importante)

25 gen 2025

AI Recap: Cosa ti sei perso questa settimana (e perché è importante)

Ciao! Eccoci pronti per un nuovo numero della mia newsletter con il recap sul mondo dell'Intelligenza Artificiale e..

4 commenti

See all articles

Le Basi dell'Intelligenza Artificiale: I Benchmark nell'Intelligenza Artificiale

Stefano Facchin

“La curiosità è la scintilla di ogni grande scoperta.”

I Benchmark

Consigliati da LinkedIn

Diamo all'IA ciò che è dell'IA

Altri articoli di Stefano Facchin

Altre pagine consultate

Può un algoritmo di Intelligenza Artificiale essere razzista?

Quando l’IA sorprende: storie e strategie per controllare le capacità emergenti

Orca: un nuovo modello open source che alza l'asticella nell'IA

IL RUOLO DELLA PROBABILITÀ NELL’IA

Qual è la differenza tra Machine Learning e Intelligenza Artificiale?

Pillole di Cyrius: INTRODUZIONE AL MACHINE LEARNING

Un nuovo paradigma per il Machine Learning

Qualche osservazione su algoritmi e previsioni

La Machine Learning come subdisciplina dell’IA

Qual è la migliore intelligenza artificiale gratuita?