Microsoft Research hat ein vielversprechendes Paper über seine Bemühungen und Erfolge beim progressiven Lernen aus komplexen Erklärungsspuren von GPT-4 veröffentlicht. Und das Aufregendste daran ist, dass sie es bald veröffentlichen werden und derzeit mit ihrer Rechtsabteilung zusammenarbeiten, um eine Diff der Modellgewichte gemäß der LLaMA-Veröffentlichungsrichtlinie öffentlich zugänglich zu machen.
Was ist Orca LLM und warum ist es so wichtig?
Die jüngste Forschung konzentriert sich darauf, kleinere Modelle leistungsfähiger zu machen, indem sie mit dem Wissen trainiert werden, das von größeren Modellen generiert wird. Dieser Prozess birgt einige Herausforderungen:
- Begrenzte Imitationssignale: Die kleineren Modelle haben nur begrenzte Informationen zum Lernen, da die größeren Modelle nur Teilausgaben liefern.
- Kleinteilige, homogene Trainingsdaten: Die Trainingsdaten für die kleineren Modelle sind oft klein und ähnlich, was ihr Lernpotenzial einschränkt.
- Mangelnde rigorose Evaluierung: Die kleineren Modelle neigen dazu, den Stil der größeren Modelle zu imitieren, haben aber Schwierigkeiten, deren Denkfähigkeiten zu replizieren. Dies liegt daran, dass die kleineren Modelle nicht gründlich evaluiert wurden, was zu einer Überschätzung ihrer Fähigkeiten führt.
Um diese Herausforderungen zu meistern, haben die Forscher ein neues Modell namens Orca entwickelt.
Orca LLM ist ein Modell mit 13 Milliarden Parametern, das entwickelt wurde, um den Denkprozess der größeren Modelle zu erlernen. Es lernt aus einer Fülle von Informationen, die von GPT-4 bereitgestellt werden, darunter Erklärungen zu jedem Schritt, detaillierte Denkprozesse und komplexe Anweisungen. Darüber hinaus erhält es Unterstützung von ChatGPT, um seinen Lernprozess zu unterstützen.
Um das Lernen effektiver zu gestalten, verwendet Orca LLM eine vielfältige und umfangreiche Auswahl an Imitationsdaten. Sorgfältige Stichproben- und Auswahlsverfahren werden eingesetzt, um sicherzustellen, dass das Modell aus einer Vielzahl von Beispielen lernt. Die Ergebnisse sind beeindruckend:
- Orca LLM übertrifft andere hochmoderne Modelle, die speziell für das Befolgen von Anweisungen optimiert wurden, wie z. B. Vicuna-13B, um mehr als 100 % bei anspruchsvollen Denkaufgaben wie Big-Bench Hard (BBH) und um 42 % bei AGIEval.
- Darüber hinaus schneidet Orca LLM bei dem BBH-Benchmark ähnlich gut ab wie ChatGPT und zeigt eine konkurrenzfähige Leistung (mit nur 4 Punkten Unterschied zu einer optimierten Systemmeldung) bei professionellen und akademischen Prüfungen wie SAT, LSAT, GRE und GMAT. Dies wird ohne vorherige Kenntnis der spezifischen Fragen oder Aufgaben erreicht, was es zu einem Zero-Shot-Setting macht.
- Allerdings bleibt Orca LLM in Bezug auf die Leistung noch leicht hinter GPT-4 zurück.
Insgesamt deutet diese Forschung darauf hin, dass das Lernen aus schrittweisen Erklärungen, egal ob sie von Menschen oder fortschrittlicheren KI-Modellen stammen, ein vielversprechender Weg ist, um die Fähigkeiten und Fertigkeiten von Modellen wie Orca zu verbessern.