Save and Share:
Microsoft Research 發表了一篇非常有前景的論文,闡述了他們在從 GPT-4 複雜解釋追蹤中進行漸進式學習的努力和成功。最令人興奮的是,他們即將發布這個模型,並且目前正與法務團隊合作,以符合 LLaMA 的發布政策,公開模型權重的差異。
什麼是 Orca LLM?它為何如此重要?
最近的研究致力於透過使用較大模型產生的知識來訓練較小模型,使其變得更強大。這個過程存在幾個挑戰:
- 有限的模仿訊號:由於較大的模型僅提供部分輸出,因此較小的模型可供學習的資訊有限。
- 小規模的同質訓練資料:較小模型的訓練資料通常規模較小且相似,這限制了它們的學習潛力。
- 缺乏嚴格的評估:較小的模型傾向於模仿較大模型的風格,但在複製其推理能力方面卻步履蹣跚。這是因為對較小模型沒有進行徹底的評估,導致對其能力的過高估計。
為了克服這些挑戰,研究人員開發了一種名為 Orca 的新模型。
Orca LLM 是一個擁有 130 億個參數的模型,旨在學習較大模型的推理過程。它從 GPT-4 提供的豐富資訊中學習,包括每個步驟的解釋、詳細的思考過程和複雜的指令。此外,它還接受 ChatGPT 的指導,以協助其學習過程。
為了使學習更有效,Orca LLM 使用了多樣化且廣泛的模仿資料。採用仔細的抽樣和選擇技術,以確保模型從各種範例中學習。結果令人印象深刻:
- 在具有挑戰性的推理任務(如 Big-Bench Hard (BBH))中,Orca LLM 的表現優於其他專門針對遵循指示進行調整的先進模型(如 Vicuna-13B)100% 以上,在 AGIEval 上則高出 42%。
- 此外,Orca LLM 在 BBH 基準測試中的表現與 ChatGPT 相當,並且在專業和學術考試(如 SAT、LSAT、GRE 和 GMAT)中表現出具有競爭力的性能(與最佳化系統訊息相比僅相差 4 分)。這是透過在沒有事先接觸特定問題或任務的情況下實現的,使其成為零樣本設定。
- 然而,Orca LLM 在性能方面仍然略遜於 GPT-4。
總體而言,這項研究表明,無論是來自人類還是更先進的 AI 模型,從逐步解釋中學習都是提高 Orca 等模型的能力和技能的一個有希望的方向。