Orca LLM: Nowy król w oceanie modeli LLM z otwartym kodem źródłowym

Umieszczono w kategoriach: AI/ML, Open Source Tagi , , , ,
Save and Share:

Microsoft Research opublikował bardzo obiecujący artykuł o swoich wysiłkach i sukcesach w progresywnym uczeniu się na podstawie złożonych śladów wyjaśnień GPT-4. Najbardziej ekscytujące jest to, że wkrótce zamierzają go udostępnić i obecnie współpracują ze swoim działem prawnym, aby publicznie udostępnić różnicę w wagach modelu zgodnie z polityką udostępniania LLaMA.

Czym jest Orca LLM i dlaczego jest to ważne?

Ostatnie badania koncentrują się na zwiększeniu mocy mniejszych modeli poprzez uczenie ich na wiedzy generowanej przez większe modele. W tym procesie istnieje kilka wyzwań:

  1. Ograniczone sygnały naśladowcze: Mniejsze modele mają ograniczone informacje do uczenia się, ponieważ większe modele dostarczają tylko częściowe wyniki.
  2. Niewielkie, homogeniczne dane treningowe: Dane treningowe dla mniejszych modeli są często małe i podobne, co ogranicza ich potencjał uczenia się.
  3. Brak rygorystycznej oceny: Mniejsze modele mają tendencję do naśladowania stylu większych modeli, ale mają trudności z odwzorowaniem ich zdolności rozumowania. Wynika to z braku dokładnej oceny mniejszych modeli, co prowadzi do przeszacowania ich możliwości.

Aby pokonać te wyzwania, naukowcy opracowali nowy model o nazwie Orca.

Orca LLM to model z 13 miliardami parametrów, który został zaprojektowany do uczenia się procesu rozumowania większych modeli. Uczy się z bogactwa informacji dostarczanych przez GPT-4, w tym wyjaśnień każdego kroku, szczegółowych procesów myślowych i złożonych instrukcji. Dodatkowo, otrzymuje wskazówki od ChatGPT, aby wspomóc proces uczenia się.

Aby uczynić uczenie się bardziej efektywnym, Orca LLM wykorzystuje zróżnicowany i obszerny zakres danych imitacyjnych. Stosowane są staranne techniki próbkowania i selekcji, aby zapewnić, że model uczy się z szerokiej gamy przykładów. Wyniki są imponujące:

  • Orca LLM przewyższa inne najnowocześniejsze modele, które są specjalnie dostrojone do wykonywania instrukcji, takie jak Vicuna-13B, o ponad 100% w trudnych zadaniach wymagających rozumowania, takich jak Big-Bench Hard (BBH), i o 42% w AGIEval.
  • Ponadto, Orca LLM osiąga podobny poziom do ChatGPT w benchmarku BBH i wykazuje konkurencyjne wyniki (zaledwie 4 punkty różnicy w porównaniu z zoptymalizowaną wiadomością systemową) w profesjonalnych i akademickich egzaminach, takich jak SAT, LSAT, GRE i GMAT. Osiąga się to bez wcześniejszej styczności z konkretnymi pytaniami lub zadaniami, co czyni go środowiskiem zero-shot.
  • Jednak Orca LLM nadal nieco ustępuje GPT-4 pod względem wydajności.

Ogólnie rzecz biorąc, badania te wskazują, że uczenie się na podstawie szczegółowych wyjaśnień, niezależnie od tego, czy pochodzą one od ludzi, czy od bardziej zaawansowanych modeli AI, jest obiecującym kierunkiem w celu zwiększenia możliwości i umiejętności modeli takich jak Orca.

Recenzje wideo artykułu naukowego na temat Orca LLM

Film na Youtube o Orca LLM autorstwa „AI Explained”
Film na Youtube o Orca LLM autorstwa Matthew Bermana

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *