Orca LLM : le nouveau roi dans l’océan des LLM open source

Catégorisé comme AI/ML, Open Source Étiqueté , , , ,
Save and Share:

Microsoft Research a publié un article très prometteur sur ses efforts et sa réussite dans l’apprentissage progressif à partir d’explications complexes de GPT-4. Le plus intéressant, c’est qu’ils vont le publier prochainement et qu’ils travaillent actuellement avec leur service juridique pour rendre public un diff des poids du modèle, conformément à la politique de publication de LLaMA.

Qu’est-ce qu’Orca LLM et pourquoi est-ce important ?

Des recherches récentes ont porté sur la façon de rendre les modèles plus petits plus puissants en leur enseignant les connaissances générées par des modèles plus grands. Ce processus pose plusieurs défis :

  1. Signaux d’imitation limités : les modèles plus petits disposent d’informations limitées pour apprendre, car les modèles plus grands ne fournissent que des sorties partielles.
  2. Données d’entraînement homogènes à petite échelle : les données d’entraînement pour les modèles plus petits sont souvent peu nombreuses et similaires, ce qui limite leur potentiel d’apprentissage.
  3. Manque d’évaluation rigoureuse : les modèles plus petits ont tendance à imiter le style des modèles plus grands, mais ont du mal à reproduire leurs capacités de raisonnement. Cela s’explique par l’absence d’une évaluation approfondie des modèles plus petits, ce qui conduit à une surestimation de leurs capacités.

Pour surmonter ces défis, des chercheurs ont développé un nouveau modèle appelé Orca.

Orca LLM est un modèle avec 13 milliards de paramètres, et il a été conçu pour apprendre le processus de raisonnement des modèles plus grands. Il apprend d’une multitude d’informations fournies par GPT-4, notamment des explications de chaque étape, des processus de pensée détaillés et des instructions complexes. De plus, il reçoit les conseils de ChatGPT pour faciliter son processus d’apprentissage.

Pour rendre l’apprentissage plus efficace, Orca LLM utilise un éventail vaste et diversifié de données d’imitation. Des techniques d’échantillonnage et de sélection minutieuses sont utilisées pour garantir que le modèle apprend à partir d’une grande variété d’exemples. Les résultats sont impressionnants :

  • Orca LLM surpasse les autres modèles de pointe qui sont spécifiquement adaptés pour suivre les instructions, tels que Vicuna-13B, de plus de 100 % dans les tâches de raisonnement difficiles comme Big-Bench Hard (BBH) et de 42 % sur AGIEval.
  • De plus, Orca LLM fonctionne à un niveau similaire à ChatGPT sur le benchmark BBH et affiche des performances compétitives (avec un écart de seulement 4 points par rapport à un message système optimisé) dans les examens professionnels et académiques comme le SAT, le LSAT, le GRE et le GMAT. Ceci est réalisé sans aucune exposition préalable aux questions ou tâches spécifiques, ce qui en fait un paramètre zéro-shot.
  • Cependant, Orca LLM reste légèrement en retrait par rapport à GPT-4 en termes de performances.

Dans l’ensemble, cette recherche indique que l’apprentissage à partir d’explications étape par étape, qu’elles proviennent d’humains ou de modèles d’IA plus avancés, est une voie prometteuse pour améliorer les capacités et les compétences de modèles comme Orca.

Revues vidéo de l’article de recherche sur Orca LLM

Vidéo Youtube sur Orca LLM par « AI Explained »
Vidéo Youtube sur Orca LLM par Matthew Berman

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *