ลองจินตนาการถึงโลกที่เอเจนต์ซอฟต์แวร์เชิงคำนวณจำลองพฤติกรรมที่น่าเชื่อถือของมนุษย์ โลกที่ศิลปิน AI วาดภาพและนักเขียน AI เขียนหนังสือ ที่ซึ่งเอเจนต์ AI เหล่านี้สร้างความคิดเห็นและเริ่มต้นการสนทนา และที่ซึ่งความทรงจำถูกสังเคราะห์เป็นการไตร่ตรองในระดับที่สูงขึ้นเพื่อวางแผนพฤติกรรม นี่คือโลกของ generative agents ในบทความนี้ เราจะสำรวจงานวิจัยที่ก้าวล้ำซึ่งนำเสนอ generative agents และผลกระทบต่ออนาคตของวงการเกมและแอปพลิเคชันอื่นๆ
ภาพรวมของงานวิจัย
งานวิจัยใหม่ที่น่าสนใจจาก Stanford และ Google ในชื่อ “Generative Agents: Interactive Simulacra of Human Behavior” แนะนำ generative agents ซึ่งเป็นเอเจนต์ซอฟต์แวร์เชิงคำนวณที่จำลองพฤติกรรมที่น่าเชื่อถือของมนุษย์ นักวิจัยได้สร้างโลกจำลองที่พวกเขาใส่ generative agents จำนวน 25 ตัว โดยแต่ละตัวมีบุคลิกของตัวเอง
เอเจนต์เหล่านี้ตื่นนอน ทำอาหารเช้า ไปทำงาน และสร้างความคิดเห็นเหมือนมนุษย์ สิ่งที่น่าสนใจคือเอเจนต์เหล่านี้จดจำและไตร่ตรองถึงวันเก่าๆ ขณะวางแผนวันต่อไป โดยใช้ความทรงจำเกี่ยวกับการโต้ตอบที่พวกเขาเคยมี เอเจนต์ทั้งหมดนี้ขับเคลื่อนโดย large language model และสถาปัตยกรรมขยาย large language model นั้นเพื่อจัดเก็บบันทึกที่ซับซ้อนเกี่ยวกับประสบการณ์ของเอเจนต์โดยใช้ภาษาธรรมชาติ
เอเจนต์สร้างพฤติกรรมทางสังคมของแต่ละบุคคลและพฤติกรรมทางสังคมที่เกิดขึ้นเองได้อย่างน่าเชื่อถือ เหมือนกับมนุษย์ งานนี้มีนัยสำคัญอย่างยิ่งต่ออุตสาหกรรมเกม เนื่องจากช่วยให้ตัวละครที่ไม่สามารถเล่นได้ (NPC) ในวิดีโอเกมมีลักษณะเฉพาะและบุคลิกของตัวเอง โดยโต้ตอบกับผู้เล่นได้อย่างเป็นธรรมชาติมากขึ้น
สภาพแวดล้อมการจำลอง: Smartville
ผู้เขียนได้จำลองโลก sandbox ขนาดเล็กที่เรียกว่า Smartville ซึ่งได้รับแรงบันดาลใจจากเกมยอดนิยม “The Sims” Smartville ประกอบด้วยพื้นที่อยู่อาศัยร่วมกัน บ้านเรือน คาเฟ่ บาร์ ร้านค้า สวนสาธารณะ วิทยาลัย ร้านขายของชำ และร้านขายยา แนวคิดนี้คือการสำรวจว่าพฤติกรรมทางสังคมสามารถเกิดขึ้นได้อย่างไรในหมู่เอเจนต์ AI
องค์ประกอบหลักสามส่วนรวมอยู่ในสถาปัตยกรรมของเอเจนต์:
- Memory Stream: บันทึกประสบการณ์ของเอเจนต์
- Reflection: สังเคราะห์ความทรงจำเป็นการอนุมานในระดับที่สูงขึ้น
- Planning: แปลข้อสรุปเป็นแผนปฏิบัติการ
การไตร่ตรองและแผนเหล่านี้มีอิทธิพลต่อพฤติกรรมในอนาคตของเอเจนต์ ช่วยให้พวกเขาสามารถดำเนินการได้อย่างอิสระ
การสร้างกิจกรรมและการโต้ตอบในเกม
Generative agents สามารถลดความซับซ้อนของกระบวนการสร้างกิจกรรมและการโต้ตอบในเกมได้ ตัวอย่างเช่น แทนที่จะเขียนสคริปต์พฤติกรรมของตัวละครหลายตัวสำหรับงานปาร์ตี้วันวาเลนไทน์ด้วยตนเอง ก็เพียงพอที่จะบอกเอเจนต์ตัวหนึ่งว่าเธอต้องการจัดงานปาร์ตี้ เอเจนต์เหล่านี้สามารถโต้ตอบกันได้อย่างอิสระ และสภาพแวดล้อมประสบความสำเร็จในการแพร่กระจายข่าวเกี่ยวกับงานปาร์ตี้และปรากฏตัว เอเจนต์คนหนึ่งถึงกับชวนเอเจนต์อีกคนไปเดทในงานปาร์ตี้ ทั้งหมดนี้มาจากคำแนะนำเริ่มต้นที่ผู้ใช้สร้างขึ้นเพียงครั้งเดียว
บุคลิกภาพและการโต้ตอบของเอเจนต์
ผู้เขียนได้สร้างคำอธิบายภาษาธรรมชาติหนึ่งย่อหน้าเกี่ยวกับอัตลักษณ์ของเอเจนต์แต่ละตัว รวมถึงอาชีพและความสัมพันธ์ของพวกเขากับเอเจนต์อื่นๆ คำอธิบายเหล่านี้ทำหน้าที่เป็นความทรงจำเริ่มต้นสำหรับเอเจนต์ ตัวอย่างเช่น John Lin อธิบายว่าเป็นเจ้าของร้านขายยาโดยมีคำอธิบายดังต่อไปนี้:
“John Lin เป็นเจ้าของร้านขายยาที่ The Vito Market and Pharmacy ที่รักการช่วยเหลือผู้คน เขามักจะมองหาวิธีที่จะทำให้กระบวนการรับยาของลูกค้าง่ายขึ้นเสมอ”
การโต้ตอบทั้งหมดของเอเจนต์เหล่านี้กับโลกและระหว่างกันนั้นเป็นไปผ่านภาษาธรรมชาติ ในแต่ละช่วงเวลา เอเจนต์จะส่งออกข้อความภาษาธรรมชาติที่อธิบายการกระทำปัจจุบันของพวกเขา ซึ่งแปลเป็นการเคลื่อนไหวในปัจจุบันและแสดงบนอินเทอร์เฟซ sandbox เป็นชุดอิโมจิ
การควบคุมและจัดการเอเจนต์
แม้ว่าเอเจนต์ AI เหล่านี้จะเป็นอิสระและการโต้ตอบของพวกเขาเกิดขึ้นโดยธรรมชาติ แต่ผู้ใช้ก็มีการควบคุมอยู่บ้าง มีสองวิธีที่ผู้ใช้สามารถโต้ตอบกับเกมได้:
- สื่อสารกับเอเจนต์ผ่านการสนทนา
- ออกคำสั่งให้กับเอเจนต์ในรูปแบบของเสียงภายใน ซึ่งควบคุมพฤติกรรมของเอเจนต์
ตัวอย่างเช่น เมื่อผู้ใช้บอกในฐานะเสียงภายในของ John ว่า “คุณกำลังจะลงสมัครรับเลือกตั้งแข่งกับ Sam ในการเลือกตั้งที่กำลังจะมาถึง” John ตัดสินใจที่จะลงสมัครและแบ่งปันการลงสมัครรับเลือกตั้งของเขากับภรรยาและลูกชายของเขา สิ่งนี้แสดงให้เห็นว่าผู้ใช้สามารถควบคุมและจัดการสภาพแวดล้อมและพฤติกรรมของเอเจนต์เหล่านี้ได้อย่างไร
วันหนึ่งในชีวิตของเอเจนต์
วันของเอเจนต์เริ่มต้นด้วยคำอธิบายหนึ่งย่อหน้า และพฤติกรรมของพวกเขาพัฒนาไปเมื่อพวกเขาโต้ตอบกันและกับโลก ตัวอย่างเช่น Jonathan ตื่นนอนประมาณ 7 โมงเช้า แปรงฟัน อาบน้ำ เตรียมและรับประทานอาหารเช้า และตรวจสอบข่าวสารที่โต๊ะอาหาร ลูกชายของเขา Eddie ตื่นขึ้นมาและพวกเขาสนทนากันสั้นๆ ก่อนจะดำเนินชีวิตประจำวันต่อไป
พฤติกรรมของเอเจนต์เปลี่ยนแปลงไปตามการโต้ตอบกับเอเจนต์อื่นๆ สถาปัตยกรรมของเอเจนต์ควบคุมพฤติกรรมของเอเจนต์แต่ละตัว ช่วยให้พวกเขาสามารถรับรู้สภาพแวดล้อมและจัดเก็บการรับรู้ใน memory stream เมื่อพวกเขาต้องการดำเนินการ พวกเขาจะดึงข้อมูลจาก memory stream และวางแผนการดำเนินการต่อไปตามข้อมูลนั้น ความทรงจำที่จัดเก็บไว้ยังใช้เพื่อเปลี่ยนพฤติกรรมของเอเจนต์ ช่วยให้พวกเขาสามารถไตร่ตรองถึงความทรงจำในอดีตและปรับการโต้ตอบกับสภาพแวดล้อมและเอเจนต์อื่นๆ
แอปพลิเคชันในโลกแห่งความเป็นจริง
นอกเหนือจากเกมและ NPC แล้ว generative agents ยังมีแอปพลิเคชันในโลกแห่งความเป็นจริง ตัวอย่างเช่น หากคุณกำลังเตรียมตัวสำหรับการสัมภาษณ์กับบุคคลหรือบุคลิกที่ยาก คุณสามารถใช้เอเจนต์ AI เพื่อจำลองพฤติกรรมของพวกเขาและโต้ตอบกับพวกเขาได้ สิ่งนี้สามารถช่วยคุณเตรียมตัวสำหรับการสัมภาษณ์หรือสถานการณ์ทางสังคมอื่นๆ
เดโมออนไลน์
แม้ว่าเดโมออนไลน์จะไม่เป็นแบบเรียลไทม์และนำเสนอการเล่นซ้ำที่คำนวณไว้ล่วงหน้าของการจำลองที่เกิดขึ้นก่อนหน้านี้ แต่คุณสามารถเห็นการโต้ตอบและกิจกรรมต่างๆ ของเอเจนต์ คุณสามารถเลือกเอเจนต์ใดเอเจนต์หนึ่งจาก 25 เอเจนต์ที่แตกต่างกันและดูว่าเอเจนต์กำลังทำอะไรในเวลาใดก็ได้ งานที่น่าสนใจนี้มีศักยภาพในการเปลี่ยนแปลงอุตสาหกรรมเกมและวิธีที่เราโต้ตอบกับเอเจนต์ AI ที่แตกต่างกัน เปิดโลกแห่งความเป็นไปได้ใหม่
https://reverie.herokuapp.com/arXiv_Demo/
โดยสรุป generative agents แสดงถึงความก้าวหน้าที่สำคัญในโลกของ AI ซึ่งนำเสนอภาพรวมของอนาคตที่พฤติกรรมของมนุษย์ที่น่าเชื่อถือถูกจำลองและโต้ตอบได้ เทคโนโลยีนี้สัญญาว่าจะปฏิวัติวงการเกมและแอปพลิเคชันอื่นๆ โดยมอบโอกาสที่ไม่มีที่สิ้นสุดสำหรับประสบการณ์และการโต้ตอบที่ขับเคลื่อนด้วย AI
งานวิจัย
https://arxiv.org/pdf/2304.03442.pdf