Microsoft Research ha pubblicato un articolo molto promettente sui loro sforzi e successi nell’apprendimento progressivo da tracce di spiegazioni complesse di GPT-4. E la parte più entusiasmante è che lo rilasceranno presto e stanno attualmente lavorando con il loro team legale per rilasciare pubblicamente un diff dei pesi del modello in conformità con la politica di rilascio di LLaMA.
Cos’è Orca LLM e perché è significativo?
La ricerca recente si è concentrata sul rendere i modelli più piccoli più potenti, insegnando loro usando la conoscenza generata da modelli più grandi. Ci sono diverse sfide in questo processo:
- Segnali di imitazione limitati: i modelli più piccoli hanno informazioni limitate da cui imparare perché i modelli più grandi forniscono solo output parziali.
- Dati di addestramento omogenei su piccola scala: i dati di addestramento per i modelli più piccoli sono spesso piccoli e simili, il che limita il loro potenziale di apprendimento.
- Mancanza di una valutazione rigorosa: i modelli più piccoli tendono a imitare lo stile dei modelli più grandi, ma faticano a replicare le loro capacità di ragionamento. Questo perché non c’è stata una valutazione approfondita dei modelli più piccoli, portando a una sovrastima delle loro capacità.
Per superare queste sfide, i ricercatori hanno sviluppato un nuovo modello chiamato Orca.
Orca LLM è un modello con 13 miliardi di parametri, ed è stato progettato per apprendere il processo di ragionamento dei modelli più grandi. Apprende da una vasta gamma di informazioni fornite da GPT-4, tra cui spiegazioni di ogni passaggio, processi di pensiero dettagliati e istruzioni complesse. Inoltre, riceve la guida di ChatGPT per assistere il suo processo di apprendimento.
Per rendere l’apprendimento più efficace, Orca LLM utilizza una gamma diversificata ed estesa di dati di imitazione. Vengono impiegate tecniche di campionamento e selezione accurate per garantire che il modello impari da un’ampia varietà di esempi. I risultati sono stati impressionanti:
- Orca LLM supera altri modelli all’avanguardia che sono specificamente ottimizzati per seguire le istruzioni, come Vicuna-13B, di oltre il 100% in compiti di ragionamento impegnativi come Big-Bench Hard (BBH) e del 42% su AGIEval.
- Inoltre, Orca LLM si comporta a un livello simile a ChatGPT sul benchmark BBH e mostra prestazioni competitive (con solo un divario di 4 punti rispetto a un messaggio di sistema ottimizzato) in esami professionali e accademici come SAT, LSAT, GRE e GMAT. Questo viene ottenuto senza alcuna precedente esposizione a domande o compiti specifici, rendendolo un’impostazione zero-shot.
- Tuttavia, Orca LLM rimane leggermente indietro rispetto a GPT-4 in termini di prestazioni.
Nel complesso, questa ricerca indica che l’apprendimento da spiegazioni passo dopo passo, che provengano da umani o da modelli di intelligenza artificiale più avanzati, è una direzione promettente per migliorare le capacità e le competenze di modelli come Orca.