دنیای هوش مصنوعی بهطور مداوم در حال تحول است و بهتازگی، یک پیشرفت در تحقیقات هوش مصنوعی، سطح این فناوری را ارتقا داده است. در یک مقاله جدید، «بازتاب» معرفی شده است؛ یک عامل خودمختار با حافظه پویا و قابلیتهای خود-بازتابی که به مدلهای هوش مصنوعی امکان میدهد از اشتباهات خود درس بگیرند و بهمرورزمان پیشرفت کنند. این توسعه، تواناییهای استدلالی شبیه انسان را به مدلهای هوش مصنوعی میبخشد و نویدبخش افزایش چشمگیر عملکرد آنها است.

بازتاب چیست و چرا مهم است؟
یکی از بزرگترین نقاط ضعف مدلهای هوش مصنوعی فعلی، ناتوانی آنها در یادگیری از اشتباهاتشان است. «بازتاب» این مشکل را با دادن حافظه پویا و قابلیتهای خود-بازتابی به عامل هوش مصنوعی برطرف میکند و تواناییهای استدلالی، ردیابی و انتخاب عمل خاصِ وظیفه را ارتقا میدهد. به زبان ساده، مدل اکنون میتواند اقداماتی را که انجام داده است به خاطر بسپارد، آن اقدامات را بررسی کند و اشتباهات خود را تصحیح کند.
نکته عالی در مورد این رویکرد این است که محدود به مدلهای GPT-4 نیست؛ بلکه میتواند با هر مدل زبانی بزرگ و بدون نیاز به تنظیم دقیق کار کند. مدل بازتاب بهسادگی تابع پاداش را ارزیابی میکند و اقدامی را که باید توسط مدل زبانی بزرگ اصلی انجام شود، بهروز میکند و بدین ترتیب، افزایش عملکرد چشمگیری را به همراه میآورد.
مقاله اصلی بازتاب
مقاله اصلی بازتاب، نتایج را بر روی دو مجموعه داده مختلف ارائه میدهد و توانایی استدلال آن را به نمایش میگذارد:
- Hotpot QA: یک مجموعه داده برای پرسش و پاسخ چند-مرحلهای متنوع و قابل توضیح که نیازمند استدلال مدل زبانی از طریق چندین سند است.
- ELF World: همترازی متن و محیطهای تجسمیافته برای یادگیری تعاملی که ورودیها و خروجیهای متنی را با دنیای فیزیکی ترکیب میکند و به مدل اجازه میدهد تا با استفاده از دستورات متنی با دنیای فیزیکی تعامل داشته باشد.
افزودن بازتاب به این مدلها منجر به بهبود عملکرد چشمگیری شد، بدون نیاز به تنظیم دقیق.
رفع تصورات غلط درباره مقاله
بسیاری از مردم بهاشتباه معتقدند که این مقاله از GPT-4 استفاده میکند، اما درواقع از GPT-3 و 3.5 (ChatGPT) استفاده میکند. این تمایز مهم است زیرا امکان ترکیب بازتاب با Auto GPT را باز میکند و مدلهای هوش مصنوعی را قادر میسازد تا وظایف را بهصورت پویا تغییر دهند و هوش واقعی ارائه دهند.
بازتاب در عمل: یک مثال
در یک وظیفه Hotpot QA، مدل باید نام بازیگری را پیدا میکرد که بیشتر به خاطر ایفای نقش در یک نمایش خاص شناخته میشود. پس از یک تلاش ناموفق اولیه، مدل از بازتاب برای شناسایی اشتباه در استراتژی جستجوی خود، اصلاح آن و درنهایت یافتن پاسخ صحیح استفاده کرد. این دقیقاً همان روشی است که یک انسان برای مواجهه با یک مسئله از آن استفاده میکند؛ یعنی با بازتاب بر اشتباهات خود و تنظیم استراتژی خود بر اساس آن.
محدودیتها و پرداختن به موقعیتهای بدون حقیقت مبنای قطعی
یکی از محدودیتهای اصلی این مقاله این است که برای کارکردن به حقیقت مبنا نیاز دارد. بااینحال، در بسیاری از موقعیتهای دنیای واقعی، حقیقت مبنای قطعی یا راهحل بهینه واحدی وجود ندارد. نویسندگان مقاله روشی را پیشنهاد میکنند که شبیه به حل مسئله انسانی است؛ ایجاد یک مجموعه آزمون داخلی بر اساس درک خود و سپس تنظیم راهحلها تا زمانی که بیشتر آزمونها را برآورده کنند.
با تغییر گلوگاه دقت از تولید کد نحوی و معنایی صحیح به تولید آزمون نحوی و معنایی صحیح، مدل میتواند به نرخ دقت بالاتری دست یابد.
آینده هوش مصنوعی و بازتاب
با گستردهتر شدن مدلهای هوش مصنوعی با قابلیتهای بازتاب، میتوانیم انتظار شاهد بهبودهای چشمگیری در کد تولیدشده توسط هوش مصنوعی و سایر وظایف پیچیده باشیم. مدلهای هوش مصنوعی با توانایی بهبود تدریجی کار خود، در حل مسائل و تولید راهحلها کارآمدتر و مؤثرتر خواهند شد.
برای ما بهعنوان انسان بسیار مهم است که در مورد پیشرفتهایی که در هوش مصنوعی به دست میآوریم بازتاب کنیم و مسیری را که میخواهیم در آن قدم بگذاریم در نظر بگیریم. این پیشرفت بزرگ در استدلال هوش مصنوعی تنها آغاز راه است و شکی نیست که پیشرفتهای هیجانانگیزتری در پیش خواهد بود.
ویدیو از Prompt Engineering
منابع:
- مقاله Reflexion: https://arxiv.org/pdf/2303.11366.pdf
- پست وبلاگ Reflecting on Reflexion: https://nanothoughts.substack.com/p/reflecting-on-reflexion
- مقاله HotpotQA: https://arxiv.org/pdf/1809.09600.pdf
- مقاله Alfworld: https://arxiv.org/pdf/2010.03768.pdf
- AutoGPT: https://github.com/Torantulino/Auto-GPT
- HumanEval: https://arxiv.org/pdf/2107.03374.pdf