مدل‌های GPT-4 که از اشتباهات خود درس می‌گیرند: پیشرفتی بزرگ در استدلال هوش مصنوعی

دسته‌بندی شده در AI/ML برچسب خورده با ،،،،،
Save and Share:

دنیای هوش مصنوعی به‌طور مداوم در حال تحول است و به‌تازگی، یک پیشرفت در تحقیقات هوش مصنوعی، سطح این فناوری را ارتقا داده است. در یک مقاله جدید، «بازتاب» معرفی شده است؛ یک عامل خودمختار با حافظه پویا و قابلیت‌های خود-بازتابی که به مدل‌های هوش مصنوعی امکان می‌دهد از اشتباهات خود درس بگیرند و به‌مرورزمان پیشرفت کنند. این توسعه، توانایی‌های استدلالی شبیه انسان را به مدل‌های هوش مصنوعی می‌بخشد و نویدبخش افزایش چشمگیر عملکرد آن‌ها است.

بازتاب چیست و چرا مهم است؟

یکی از بزرگ‌ترین نقاط ضعف مدل‌های هوش مصنوعی فعلی، ناتوانی آن‌ها در یادگیری از اشتباهاتشان است. «بازتاب» این مشکل را با دادن حافظه پویا و قابلیت‌های خود-بازتابی به عامل هوش مصنوعی برطرف می‌کند و توانایی‌های استدلالی، ردیابی و انتخاب عمل خاصِ وظیفه را ارتقا می‌دهد. به زبان ساده، مدل اکنون می‌تواند اقداماتی را که انجام داده است به خاطر بسپارد، آن اقدامات را بررسی کند و اشتباهات خود را تصحیح کند.

نکته عالی در مورد این رویکرد این است که محدود به مدل‌های GPT-4 نیست؛ بلکه می‌تواند با هر مدل زبانی بزرگ و بدون نیاز به تنظیم دقیق کار کند. مدل بازتاب به‌سادگی تابع پاداش را ارزیابی می‌کند و اقدامی را که باید توسط مدل زبانی بزرگ اصلی انجام شود، به‌روز می‌کند و بدین ترتیب، افزایش عملکرد چشمگیری را به همراه می‌آورد.

مقاله اصلی بازتاب

مقاله اصلی بازتاب، نتایج را بر روی دو مجموعه داده مختلف ارائه می‌دهد و توانایی استدلال آن را به نمایش می‌گذارد:

  1. Hotpot QA: یک مجموعه داده برای پرسش و پاسخ چند-مرحله‌ای متنوع و قابل توضیح که نیازمند استدلال مدل زبانی از طریق چندین سند است.
  2. ELF World: هم‌ترازی متن و محیط‌های تجسم‌یافته برای یادگیری تعاملی که ورودی‌ها و خروجی‌های متنی را با دنیای فیزیکی ترکیب می‌کند و به مدل اجازه می‌دهد تا با استفاده از دستورات متنی با دنیای فیزیکی تعامل داشته باشد.

افزودن بازتاب به این مدل‌ها منجر به بهبود عملکرد چشمگیری شد، بدون نیاز به تنظیم دقیق.

رفع تصورات غلط درباره مقاله

بسیاری از مردم به‌اشتباه معتقدند که این مقاله از GPT-4 استفاده می‌کند، اما درواقع از GPT-3 و 3.5 (ChatGPT) استفاده می‌کند. این تمایز مهم است زیرا امکان ترکیب بازتاب با Auto GPT را باز می‌کند و مدل‌های هوش مصنوعی را قادر می‌سازد تا وظایف را به‌صورت پویا تغییر دهند و هوش واقعی ارائه دهند.

بازتاب در عمل: یک مثال

در یک وظیفه Hotpot QA، مدل باید نام بازیگری را پیدا می‌کرد که بیشتر به خاطر ایفای نقش در یک نمایش خاص شناخته می‌شود. پس از یک تلاش ناموفق اولیه، مدل از بازتاب برای شناسایی اشتباه در استراتژی جستجوی خود، اصلاح آن و درنهایت یافتن پاسخ صحیح استفاده کرد. این دقیقاً همان روشی است که یک انسان برای مواجهه با یک مسئله از آن استفاده می‌کند؛ یعنی با بازتاب بر اشتباهات خود و تنظیم استراتژی خود بر اساس آن.

محدودیت‌ها و پرداختن به موقعیت‌های بدون حقیقت مبنای قطعی

یکی از محدودیت‌های اصلی این مقاله این است که برای کارکردن به حقیقت مبنا نیاز دارد. بااین‌حال، در بسیاری از موقعیت‌های دنیای واقعی، حقیقت مبنای قطعی یا راه‌حل بهینه واحدی وجود ندارد. نویسندگان مقاله روشی را پیشنهاد می‌کنند که شبیه به حل مسئله انسانی است؛ ایجاد یک مجموعه آزمون داخلی بر اساس درک خود و سپس تنظیم راه‌حل‌ها تا زمانی که بیشتر آزمون‌ها را برآورده کنند.

با تغییر گلوگاه دقت از تولید کد نحوی و معنایی صحیح به تولید آزمون نحوی و معنایی صحیح، مدل می‌تواند به نرخ دقت بالاتری دست یابد.

آینده هوش مصنوعی و بازتاب

با گسترده‌تر شدن مدل‌های هوش مصنوعی با قابلیت‌های بازتاب، می‌توانیم انتظار شاهد بهبودهای چشمگیری در کد تولیدشده توسط هوش مصنوعی و سایر وظایف پیچیده باشیم. مدل‌های هوش مصنوعی با توانایی بهبود تدریجی کار خود، در حل مسائل و تولید راه‌حل‌ها کارآمدتر و مؤثرتر خواهند شد.

برای ما به‌عنوان انسان بسیار مهم است که در مورد پیشرفت‌هایی که در هوش مصنوعی به دست می‌آوریم بازتاب کنیم و مسیری را که می‌خواهیم در آن قدم بگذاریم در نظر بگیریم. این پیشرفت بزرگ در استدلال هوش مصنوعی تنها آغاز راه است و شکی نیست که پیشرفت‌های هیجان‌انگیزتری در پیش خواهد بود.

ویدیو از Prompt Engineering

منابع:

دیدگاهی بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *