Microsoft Research ได้เผยแพร่ งานวิจัยที่น่าสนใจมาก เกี่ยวกับความพยายามและความสำเร็จในการเรียนรู้แบบก้าวหน้าจากร่องรอยคำอธิบายที่ซับซ้อนของ GPT-4 และสิ่งที่น่าตื่นเต้นที่สุดคือ พวกเขากำลังจะเปิดตัวโมเดลนี้ในเร็ว ๆ นี้ และกำลังทำงานร่วมกับทีมกฎหมายเพื่อเผยแพร่น้ำหนักของโมเดลในรูปแบบ diff ตามนโยบายการเปิดตัวของ LLaMA
Orca LLM คืออะไร และทำไมถึงมีความสำคัญ
งานวิจัยล่าสุดมุ่งเน้นไปที่การทำให้โมเดลขนาดเล็กมีประสิทธิภาพมากขึ้น โดยการสอนให้เรียนรู้จากความรู้ที่สร้างโดยโมเดลขนาดใหญ่กว่า ในกระบวนการนี้ มีความท้าทายหลายประการ:
- สัญญาณการเลียนแบบที่จำกัด: โมเดลขนาดเล็กมีข้อมูลจำกัดในการเรียนรู้ เนื่องจากโมเดลขนาดใหญ่ให้ผลลัพธ์เพียงบางส่วนเท่านั้น
- ข้อมูลการฝึกอบรมที่เป็นเนื้อเดียวกันขนาดเล็ก: ข้อมูลการฝึกอบรมสำหรับโมเดลขนาดเล็กมักมีขนาดเล็กและคล้ายคลึงกัน ซึ่งจำกัดศักยภาพในการเรียนรู้
- ขาดการประเมินอย่างเข้มงวด: โมเดลขนาดเล็กมักจะเลียนแบบรูปแบบของโมเดลขนาดใหญ่ แต่พยายามที่จะจำลองความสามารถในการให้เหตุผล นี่เป็นเพราะยังไม่มีการประเมินโมเดลขนาดเล็กอย่างละเอียดถี่ถ้วน ซึ่งนำไปสู่การประเมินความสามารถของโมเดลสูงเกินจริง
เพื่อเอาชนะความท้าทายเหล่านี้ นักวิจัยได้พัฒนาโมเดลใหม่ที่เรียกว่า Orca
Orca LLM เป็นโมเดลที่มีพารามิเตอร์ 13 พันล้านตัว และได้รับการออกแบบมาเพื่อเรียนรู้กระบวนการให้เหตุผลของโมเดลขนาดใหญ่กว่า โดยเรียนรู้จากข้อมูลมากมายที่ได้รับจาก GPT-4 ซึ่งรวมถึงคำอธิบายของแต่ละขั้นตอน กระบวนการคิดโดยละเอียด และคำแนะนำที่ซับซ้อน นอกจากนี้ ยังได้รับการแนะนำจาก ChatGPT เพื่อช่วยในกระบวนการเรียนรู้
เพื่อให้การเรียนรู้มีประสิทธิภาพมากขึ้น Orca LLM ใช้ข้อมูลการเลียนแบบที่หลากหลายและครอบคลุม มีการใช้เทคนิคการสุ่มตัวอย่างและการเลือกอย่างระมัดระวังเพื่อให้แน่ใจว่าโมเดลเรียนรู้จากตัวอย่างที่หลากหลาย ผลลัพธ์ที่ได้น่าประทับใจ:
- Orca LLM มีประสิทธิภาพเหนือกว่าโมเดลที่ทันสมัยอื่น ๆ ที่ปรับแต่งมาโดยเฉพาะสำหรับการปฏิบัติตามคำแนะนำ เช่น Vicuna-13B มากกว่า 100% ในงานให้เหตุผลที่ท้าทาย เช่น Big-Bench Hard (BBH) และ 42% ใน AGIEval
- นอกจากนี้ Orca LLM ยังมีประสิทธิภาพในระดับเดียวกับ ChatGPT ในเกณฑ์มาตรฐาน BBH และแสดงให้เห็นถึงประสิทธิภาพที่ใกล้เคียงกัน (โดยมีช่องว่างเพียง 4 คะแนนเมื่อเทียบกับข้อความระบบที่ปรับให้เหมาะสม) ในการสอบระดับมืออาชีพและวิชาการ เช่น SAT, LSAT, GRE และ GMAT สิ่งนี้ทำได้โดยไม่ต้องเคยสัมผัสกับคำถามหรืองานเฉพาะใด ๆ มาก่อน ทำให้เป็นการตั้งค่าแบบ zero-shot
- อย่างไรก็ตาม Orca LLM ยังคงมีประสิทธิภาพด้อยกว่า GPT-4 เล็กน้อย
โดยรวมแล้ว งานวิจัยนี้บ่งชี้ว่าการเรียนรู้จากคำอธิบายทีละขั้นตอน ไม่ว่าคำอธิบายเหล่านั้นจะมาจากมนุษย์หรือโมเดล AI ที่ล้ำหน้ากว่า เป็นแนวทางที่มีแนวโน้มในการเพิ่มขีดความสามารถและทักษะของโมเดลอย่าง Orca