Microsoft Research опубликовали очень многообещающую статью о своих усилиях и успехах в прогрессивном обучении на основе сложных объяснений, полученных от GPT-4. И самое интересное, что они собираются выпустить модель в скором времени и в настоящее время работают со своим юридическим отделом над публичным выпуском diff модели весов в соответствии с политикой выпуска LLaMA.
Что такое Orca LLM и почему это важно?
В последних исследованиях основное внимание уделяется повышению мощности небольших моделей путем их обучения с использованием знаний, сгенерированных более крупными моделями. В этом процессе есть несколько проблем:
- Ограниченные сигналы имитации: меньшие модели имеют ограниченную информацию для обучения, поскольку большие модели предоставляют только частичные выходные данные.
- Небольшие объемы однородных данных для обучения: данные для обучения небольших моделей часто незначительны и однотипны, что ограничивает их потенциал обучения.
- Отсутствие строгой оценки: небольшие модели, как правило, имитируют стиль больших моделей, но им трудно воспроизвести их способности к рассуждению. Это связано с тем, что не проводилось тщательной оценки небольших моделей, что приводит к переоценке их возможностей.
Чтобы преодолеть эти трудности, исследователи разработали новую модель под названием Orca.
Orca LLM — это модель с 13 миллиардами параметров, разработанная для изучения процесса рассуждения более крупных моделей. Она учится на большом объеме информации, предоставленной GPT-4, включая объяснения каждого шага, подробные мыслительные процессы и сложные инструкции. Кроме того, она получает рекомендации от ChatGPT для содействия процессу обучения.
Чтобы сделать обучение более эффективным, Orca LLM использует разнообразный и обширный набор данных для имитации. Тщательные методы выборки и отбора используются для обеспечения того, чтобы модель училась на самых разных примерах. Результаты впечатляют:
- Orca LLM превосходит другие современные модели, специально настроенные для выполнения инструкций, такие как Vicuna-13B, более чем на 100% в сложных задачах рассуждения, таких как Big-Bench Hard (BBH), и на 42% в AGIEval.
- Более того, Orca LLM демонстрирует уровень производительности, аналогичный ChatGPT, в бенчмарке BBH и показывает конкурентоспособную производительность (с разницей всего в 4 балла по сравнению с оптимизированным системным сообщением) на профессиональных и академических экзаменах, таких как SAT, LSAT, GRE и GMAT. Это достигается без какой-либо предварительной подготовки к конкретным вопросам или задачам, что делает ее системой zero-shot.
- Однако Orca LLM по-прежнему немного отстает от GPT-4 с точки зрения производительности.
В целом, это исследование показывает, что обучение на пошаговых объяснениях, независимо от того, исходят ли они от людей или от более продвинутых моделей ИИ, является многообещающим направлением для улучшения возможностей и навыков таких моделей, как Orca.