بخش تحقیقات مایکروسافت مقاله بسیار امیدوارکنندهای درباره تلاشها و موفقیتهایشان در یادگیری تدریجی از ردپاهای توضیحی پیچیده GPT-4 منتشر کرده است. و هیجانانگیزترین بخش این است که بهزودی آن را منتشر میکنند و در حال حاضر با تیم حقوقی خود همکاری میکنند تا خلاصهای از وزنهای مدل را مطابق با سیاست انتشار LLaMA بهصورت عمومی منتشر کنند.
مدل زبانی اورکا چیست و چرا اهمیت دارد؟
تحقیقات اخیر بر روی قدرتمندتر کردن مدلهای کوچکتر با آموزش آنها با استفاده از دانش تولیدشده توسط مدلهای بزرگتر متمرکز شده است. در این فرآیند چالشهای متعددی وجود دارد:
- سیگنالهای تقلید محدود: مدلهای کوچکتر اطلاعات محدودی برای یادگیری دارند زیرا مدلهای بزرگتر فقط خروجیهای جزئی را ارائه میدهند.
- دادههای آموزشی همگن در مقیاس کوچک: دادههای آموزشی برای مدلهای کوچکتر اغلب کوچک و مشابه هستند، که پتانسیل یادگیری آنها را محدود میکند.
- فقدان ارزیابی دقیق: مدلهای کوچکتر تمایل دارند از سبک مدلهای بزرگتر تقلید کنند، اما در بازتولید تواناییهای استدلال آنها مشکل دارند. این به این دلیل است که ارزیابی کاملی از مدلهای کوچکتر صورت نگرفته است، که منجر به برآورد بیش از حد تواناییهای آنها میشود.
برای غلبه بر این چالشها، محققان یک مدل جدید به نام اورکا توسعه دادهاند.
مدل زبانی اورکا یک مدل با ۱۳ میلیارد پارامتر است و برای یادگیری فرآیند استدلال مدلهای بزرگتر طراحی شده است. این مدل از انبوهی از اطلاعات ارائه شده توسط GPT-4، از جمله توضیحات هر مرحله، فرآیندهای فکری دقیق و دستورالعملهای پیچیده، یاد میگیرد. علاوه بر این، از ChatGPT برای کمک به فرآیند یادگیری خود راهنمایی دریافت میکند.
برای موثرتر کردن یادگیری، مدل زبانی اورکا از طیف متنوع و گستردهای از دادههای تقلیدی استفاده میکند. از تکنیکهای نمونهبرداری و انتخاب دقیق استفاده میشود تا اطمینان حاصل شود که مدل از طیف گستردهای از مثالها یاد میگیرد. نتایج چشمگیر بوده است:
- مدل زبانی اورکا عملکرد بهتری نسبت به سایر مدلهای پیشرفتهای دارد که بهطور خاص برای پیروی از دستورالعملها تنظیم شدهاند، مانند Vicuna-13B، با بیش از ۱۰۰٪ در وظایف استدلالی چالشبرانگیز مانند Big-Bench Hard (BBH) و ۴۲٪ در AGIEval.
- علاوه بر این، مدل زبانی اورکا در معیار BBH در سطح مشابهی با ChatGPT عمل میکند و عملکرد رقابتی (با تنها ۴ امتیاز اختلاف در مقایسه با یک پیام سیستمی بهینهسازیشده) در آزمونهای حرفهای و آکادمیک مانند SAT، LSAT، GRE و GMAT نشان میدهد. این امر بدون هیچگونه مواجهه قبلی با سوالات یا وظایف خاص به دست میآید، و آن را به یک تنظیمات صفر-شات تبدیل میکند.
- با این حال، مدل زبانی اورکا همچنان از نظر عملکرد کمی از GPT-4 عقبتر است.
بهطور کلی، این تحقیق نشان میدهد که یادگیری از توضیحات گامبهگام، چه از طرف انسانها باشد و چه از مدلهای هوش مصنوعی پیشرفتهتر، یک مسیر امیدوارکننده برای افزایش تواناییها و مهارتهای مدلهایی مانند اورکا است.