Orca LLM: ราชันย์องค์ใหม่แห่งวงการ Open Source LLM

Categorized as AI/ML, Open Source Tagged , , , ,
Save and Share:

Microsoft Research ได้เผยแพร่ งานวิจัยที่น่าสนใจมาก เกี่ยวกับความพยายามและความสำเร็จในการเรียนรู้แบบก้าวหน้าจากร่องรอยคำอธิบายที่ซับซ้อนของ GPT-4 และสิ่งที่น่าตื่นเต้นที่สุดคือ พวกเขากำลังจะเปิดตัวโมเดลนี้ในเร็ว ๆ นี้ และกำลังทำงานร่วมกับทีมกฎหมายเพื่อเผยแพร่น้ำหนักของโมเดลในรูปแบบ diff ตามนโยบายการเปิดตัวของ LLaMA

Orca LLM คืออะไร และทำไมถึงมีความสำคัญ

งานวิจัยล่าสุดมุ่งเน้นไปที่การทำให้โมเดลขนาดเล็กมีประสิทธิภาพมากขึ้น โดยการสอนให้เรียนรู้จากความรู้ที่สร้างโดยโมเดลขนาดใหญ่กว่า ในกระบวนการนี้ มีความท้าทายหลายประการ:

  1. สัญญาณการเลียนแบบที่จำกัด: โมเดลขนาดเล็กมีข้อมูลจำกัดในการเรียนรู้ เนื่องจากโมเดลขนาดใหญ่ให้ผลลัพธ์เพียงบางส่วนเท่านั้น
  2. ข้อมูลการฝึกอบรมที่เป็นเนื้อเดียวกันขนาดเล็ก: ข้อมูลการฝึกอบรมสำหรับโมเดลขนาดเล็กมักมีขนาดเล็กและคล้ายคลึงกัน ซึ่งจำกัดศักยภาพในการเรียนรู้
  3. ขาดการประเมินอย่างเข้มงวด: โมเดลขนาดเล็กมักจะเลียนแบบรูปแบบของโมเดลขนาดใหญ่ แต่พยายามที่จะจำลองความสามารถในการให้เหตุผล นี่เป็นเพราะยังไม่มีการประเมินโมเดลขนาดเล็กอย่างละเอียดถี่ถ้วน ซึ่งนำไปสู่การประเมินความสามารถของโมเดลสูงเกินจริง

เพื่อเอาชนะความท้าทายเหล่านี้ นักวิจัยได้พัฒนาโมเดลใหม่ที่เรียกว่า Orca

Orca LLM เป็นโมเดลที่มีพารามิเตอร์ 13 พันล้านตัว และได้รับการออกแบบมาเพื่อเรียนรู้กระบวนการให้เหตุผลของโมเดลขนาดใหญ่กว่า โดยเรียนรู้จากข้อมูลมากมายที่ได้รับจาก GPT-4 ซึ่งรวมถึงคำอธิบายของแต่ละขั้นตอน กระบวนการคิดโดยละเอียด และคำแนะนำที่ซับซ้อน นอกจากนี้ ยังได้รับการแนะนำจาก ChatGPT เพื่อช่วยในกระบวนการเรียนรู้

เพื่อให้การเรียนรู้มีประสิทธิภาพมากขึ้น Orca LLM ใช้ข้อมูลการเลียนแบบที่หลากหลายและครอบคลุม มีการใช้เทคนิคการสุ่มตัวอย่างและการเลือกอย่างระมัดระวังเพื่อให้แน่ใจว่าโมเดลเรียนรู้จากตัวอย่างที่หลากหลาย ผลลัพธ์ที่ได้น่าประทับใจ:

  • Orca LLM มีประสิทธิภาพเหนือกว่าโมเดลที่ทันสมัยอื่น ๆ ที่ปรับแต่งมาโดยเฉพาะสำหรับการปฏิบัติตามคำแนะนำ เช่น Vicuna-13B มากกว่า 100% ในงานให้เหตุผลที่ท้าทาย เช่น Big-Bench Hard (BBH) และ 42% ใน AGIEval
  • นอกจากนี้ Orca LLM ยังมีประสิทธิภาพในระดับเดียวกับ ChatGPT ในเกณฑ์มาตรฐาน BBH และแสดงให้เห็นถึงประสิทธิภาพที่ใกล้เคียงกัน (โดยมีช่องว่างเพียง 4 คะแนนเมื่อเทียบกับข้อความระบบที่ปรับให้เหมาะสม) ในการสอบระดับมืออาชีพและวิชาการ เช่น SAT, LSAT, GRE และ GMAT สิ่งนี้ทำได้โดยไม่ต้องเคยสัมผัสกับคำถามหรืองานเฉพาะใด ๆ มาก่อน ทำให้เป็นการตั้งค่าแบบ zero-shot
  • อย่างไรก็ตาม Orca LLM ยังคงมีประสิทธิภาพด้อยกว่า GPT-4 เล็กน้อย

โดยรวมแล้ว งานวิจัยนี้บ่งชี้ว่าการเรียนรู้จากคำอธิบายทีละขั้นตอน ไม่ว่าคำอธิบายเหล่านั้นจะมาจากมนุษย์หรือโมเดล AI ที่ล้ำหน้ากว่า เป็นแนวทางที่มีแนวโน้มในการเพิ่มขีดความสามารถและทักษะของโมเดลอย่าง Orca

รีวิววิดีโอเกี่ยวกับงานวิจัยเรื่อง Orca LLM

วิดีโอ Youtube เกี่ยวกับ Orca LLM โดย “AI Explained”
วิดีโอ Youtube เกี่ยวกับ Orca LLM โดย Matthew Berman

Leave a comment

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *