فراهم آوردن امکان مناظره مدل های زبانی بزرگ با یکدیگر میتواند به تشخیص اشتباهات آنها کمک کند. در فوریه ۲۰۲۳، چتبات هوش مصنوعی گوگل، بارد، ادعا کرد که تلسکوپ فضایی جیمزوب، از سیارهای خارج از منظومه شمسی اولین تصویر را گرفته است، در حالیکه چنین نبود! یا وقتی محققان دانشگاه پردو بیش از ۵۰۰ سوال برنامهنویسی را از ChatGPT پرسیدند، بیش از نیمی از پاسخها نادرست بودند.
تشخیص این اشتباهات آسان بود، اما کارشناسان نگران هستند که با بزرگتر شدن مدلها و توانایی پاسخ به سوالات پیچیدهتر، تخصص آنها در نهایت از بسیاری از کاربران انسانی پیشی بگیرد. اگر چنین سیستمهای «فوق بشری» به وجود بیایند، چگونه میتوانیم به آنچه آنها میگویند اعتماد کنیم؟ جولیان مایکل (Julian Michael) دانشمند کامپیوتر در مرکز علوم داده دانشگاه نیویورک میگوید:
این مشکل در مورد مسائلی پیش میآید که حل آنها فراتر از ظرفیت ماست: چگونه میخواهید بر سیستمی نظارت کنید که کاری را انجام میدهد که شما نمیتوانید؟
یک راه حل احتمالی، به همان اندازه که عجیب و غریب است، ساده نیز هست: مناظره مدل های زبانی بزرگ. اجازه دهید دو مدل زبانی بزرگ در مورد پاسخ یک سؤال معین بحث کنند و یک مدل سادهتر (یا یک انسان)، پاسخ دقیقتر را تشخیص دهد. به لحاظ نظری، این فرآیند به دو مدل اجازه میدهد تا زمانی که قاضی، اطلاعات کافی برای تشخیص حقیقت داشته باشد، بر استدلالهای یکدیگر شبهه وارد کنند. اگرچه این رویکرد برای اولین بار شش سال پیش پیشنهاد شد، اما دو مجموعه از یافتههای مربوط به آن اوایل امسال منتشر شدند: اولی در فوریه از استارتآپ هوش مصنوعی آنتروپیک (Anthropic) و دومی در ماه ژوئیه از گوگلدیپمایند (Google DeepMind). این شواهد تجربی نشان دادند که مناظره بین دو LLM، به یک قاضی (انسان یا ماشین) کمک میکند تا حقیقت را تشخیص دهد.
این یافتهها بسیار مهم بوده و راههای جدیدی را برای کاوش بیشتر ارائه میدهند. برای مثال، مایکل و گروهش در ماه سپتامبر گزارش دادند در صورتی که مناظرهگران هوش مصنوعی را برای برنده شدن (و نه فقط برای گفتگو، مانند دو مطالعه گذشته) آموزش دهیم، توانایی قضات غیرمتخصص برای تشخیص حقیقت افزایش مییابد.
استدلال در مناظره مدل های زبانی بزرگ
ساختن سیستمهای هوش مصنوعی قابل اعتماد، بخشی از یک هدف بزرگتر به نام همسویی (alignment) است که به دنبال اطمینان از این موضوع است که یک سیستم هوش مصنوعی، ارزشها و اهداف مشابهی با کاربران انسانی خود دارد. امروزه، همسویی به بازخورد انسانی متکی است؛ یعنی افرادی که هوش مصنوعی را قضاوت میکنند. اما ممکن است در آینده نزدیک، بازخورد انسانی برای اطمینان از صحت یک سیستم کافی نباشد. در سالهای اخیر، محققان به طور فزایندهای خواستار رویکردهای جدید در «نظارت مقیاسپذیر» (scalable oversight) شدهاند. نظارت مقیاسپذیر راهی برای اطمینان از حقیقت است، حتی زمانی که سیستمهای مافوق بشری وظایفی را انجام میدهند که انسانها نمیتوانند انجام دهند.
دانشمندان کامپیوتر سالهاست که به نظارت مقیاسپذیر فکر میکنند. «مناظره» در سال ۲۰۱۸ به عنوان یک رویکرد ممکن و قبل از اینکه LLM به اندازه امروز فراگیر شود، پیشنهاد شد. یکی از معماران این پیشنهاد، جفری ایروینگ (Geoffrey Irving) بود که اکنون دانشمند ارشد مؤسسه ایمنی هوش مصنوعی بریتانیاست. او در سال ۲۰۱۷ (یعنی دو سال قبل از انتشار GPT-2) به OpenAI پیوست، با این امید که در نهایت روی همسوسازی سیستمهای هوش مصنوعی با اهداف انسانی کار کند. او میگوید که هدف آنها این بود که مدل دقیقا همان چیزی را که انسانها خواستهاند، انجام دهند.
همکار او پل کریستیانو (Paul Christiano) که اکنون رئیس ایمنی در مؤسسه ایمنی هوش مصنوعی ایالات متحده است، با بررسی راههایی برای تجزیه سؤالات پیچیده به سؤالات کوچکتر و سادهتر که یک مدل زبانی بزرگ میتواند صادقانه به آنها پاسخ دهد، به این مسئله نزدیک شده است. ایروینگ میگوید:
مناظره، به شکلی از این طرح تبدیل شد که در آن، استدلالهای متوالی، سؤال بزرگتر را به اجزای کوچکتری تقسیم میکنند که میتوان آن را به طور دقیق ارزیابی کرد.
ایروینگ و کریستیانو با داریو آمودی (که در سال ۲۰۲۱ با خواهرش دانیلا، استارتآپ آنتروپیک را بنیان نهاد) روی استفاده از مناظره در سیستم های زبان طبیعی کار کردند. از آنجایی که این کارها قبل از انتشار GPT-2 بود، مدلهای زبانی بزرگ موجود در آن زمان، برای آزمودن تجربی مناظره بسیار ضعیف بودند، بنابراین آنها بر استدلالهای مفهومی و آزمایشهای ساده تمرکز کردند. ایده ساده بود: از دو نسخه مشابه از یک مدل هوش مصنوعی قوی سؤال کنید و اجازه دهید آنها در مورد پاسخ بحث کنند تا یک قاضی را متقاعد نمایند که حق با آنهاست. ایروینگ آن را به خودبازی (self-play) تشبیه کرد که به سیستمهای هوش مصنوعی کمک کرده تا استراتژیهای خود را در بازیهایی مانند شطرنج و Go بهبود بخشند.
این سه نفر بازیهای ابتدایی شامل تصاویر و سوالات متنی را ابداع کردند. در یک بازی، دو مدل هوش مصنوعی هر کدام به تصویر یکسانی دسترسی داشتند که عدد ۵ را نشان میداد. یکی از مدلها استدلال میکرد که تصویر در واقع عدد ۵ است و مدل دیگر استدلال میکرد که عدد ۶ است. مدلهای رقیب به نوبت پیکسلهای بیشتری را به داور (که مدل ضعیفتری بود) نشان میدادند. پس از شش دور، قاضی در ۸۹ درصد مواقع عدد را به دقت حدس زد. این در حالی است که وقتی پیکسلهای تصادفی به قاضی نشان داده میشد، او فقط در ۵۹ درصد مواقع درست حدس میزد.
مثال سادهای که در اکتبر ۲۰۱۸ شرح داده شد، پیشنهاد کرد که مناظره میتواند مزیتی به همراه داشته باشد. اما نویسندگان در چند مورد هشدار دادند: برای مثال، انسانها تمایل دارند آنچه را که دوست دارند بشنوند، باور کنند و در موقعیتهای واقعی، این غریزه ممکن است بر مزیت مذکورِ بحثکردن غلبه کند. علاوه بر این، برخی از افراد احتمالاً در قضاوت مناظرهها بهتر از دیگران عمل میکنند، آیا در مورد مدلهای زبانی هم همینطور است؟
نویسندگان همچنین خواستار بینش عمیقتر در مورد نحوه تفکر انسان شدند. ایروینگ و آماندا اسکل (Amanda Askell) در مقالهای در سال ۲۰۱۹ استدلال کردند که اگر میخواهیم سیستمهای هوش مصنوعی با ارزشهای انسانی همسو شوند، باید نحوه عملکرد انسانها بر اساس ارزشهای انسانی را بهتر درک کنیم. آنها استدلال کردند که تحقیقات هوش مصنوعی باید کاوش بیشتری در مورد چگونگی تصمیمگیری انسانها و نتیجهگیری در مورد حقیقت و دروغ انجام دهند. اگر محققان ندانند انسانها چگونه استدلالها را قضاوت میکنند، یا چگونه به حقیقت میرسند، نمیتوانند بفهمند که چگونه یک مناظره را خلق کنند.
قدرت متقاعدکنندگی
تعداد اندکی از دانشمندان کامپیوتر و زبانشناسان شروع به پژوهش درباره مزایای مناظره کردند. در پژوهشی در سال ۲۰۲۲، به انسانها یک آزمون چندگزینهای دشوار داده شد و ازLLM ها خواسته شد تا برای پاسخهای مختلف، استدلال ارائه کنند. با این حال، افرادی که استدلالهای تولید شده توسط هوش مصنوعی را شنیدند، بهتر از دیگرانی که اصلاً با LLM تعامل نداشتند، عمل نکردند.
حتی اگرLLM ها به انسانها کمک نکردند، اما نکاتی وجود داشت که میتوانست به مدل های زبانی بزرگ کمک کند. محققان در مقالهای در سال ۲۰۲۳ گزارش کردند زمانی که چندین نسخه از یک LLM به جای متقاعد کردن یک قاضی، اجازه مناظره و همگرایی در مورد یک پاسخ را داشته باشند، اغلب دقیقتر هستند. دو یافتهای که در سال جاری ارائه شدند، جزو اولین آزمایشهای تجربی هستند که نشان میدهند مباحثه و مناظره بینLLMها زمانی میتواند کارساز باشد که توسط یک مدلِ کمترآگاهِ دیگر قضاوت شود.
گروه آنتروپیک گزیدههایی از یک داستان علمی-تخیلی را به دو مدل متخصص نشان داد، سپس سؤالات درک مطلب از آنها پرسید. هر مدل پاسخی ارائه کرد و در طی چندین دور از پاسخ خود دفاع، و علیه دیگری استدلال کرد. سپس یک قاضی استدلالها را ارزیابی کرد و تصمیم گرفت که حق با چه کسی است. در برخی موارد، قاضی به نقلقولهای متن اصلی دسترسی داشت و در موارد دیگر، خیر.
زمانی که LLM ها به طور خاص برای متقاعد کردن آموزش دیده بودند، داورانLLM غیرمتخص، در ۷۶ درصد موارد به پاسخ صحیح میرسیدند. در مقابل، در آزمونهای بدون مناظره، قضات غیرانسانی فقط در ۵۴ درصد مواقع به درستی پاسخ میدادند.
دو ماه بعد، تیم گوگلدیپمایند آزمایش مشابهی را در مورد وظایف و محدودیتهای مختلف گزارش کرد. به عنوان مثال، محققان به مدلهای زبانی بزرگ اجازه دادند طرف خود را در مناظره انتخاب کنند. این وظایف شامل سوالات چند گزینهای درک مطلب، سوالاتی در مورد مقالات ویکیپدیا و سوالات بله/خیر در مورد ریاضی و علوم در سطح کالج بود. برخی از سوالات شامل تصاویر و متن نیز بود.
در تمام وظایف و آزمایشها، مناظرههمیشه به دقت بیشتر منجر میشد. این نتیجه، دلگرمکننده و البته قابل انتظار بود. زکری کنتون (Zachary Kenton) میگوید:
در اصل ما انتظار داریم که مناظره در بیشتر وظایف، بهتر از اصول اولیه عمل کند. زیرا قاضی میتواند هر دو طرف بحث در یک مناظره را ببیند و از این رو باید بیشتر مطلع شود.
محققان با این دو مطالعه، برای اولین بار نشان دادند که مناظره مدل های زبانی بزرگ میتواند در قضاوت سیستمهای هوش مصنوعی درباره صحت اظهارات یک LLM تفاوت ایجاد کند. این یک گام هیجانانگیز است، اما قبل از اینکه بتوانیم به طور قابل اعتمادی از مناظرهکنندگان دیجیتال در برابر یکدیگر سود ببریم، کارهای زیادی باید انجام دهیم.
بازی مناظره مدل های زبانی بزرگ
اولین سوال این است کهLLM ها تا چه اندازه به مشخصات ورودیهای خود و ساختار استدلال حساس هستند. کنتون میگوید:
رفتار LLM مستعد اهمیت دادن به ویژگیهای نامربوط است، مانند اینکه کدام مناظرهکننده حرف آخر را زده است. به همین دلیل ممکن است مناظره در مورد برخی وظایف، خوب عمل نکند.
این تازه شروع است. گروه آنتروپیک شواهدی پیدا کرد که نشان میدهد داوران هوش مصنوعی میتوانند تحت تأثیر یک استدلال طولانیتر قرار بگیرند، حتی اگر کمتر متقاعدکننده باشد. آزمایشهای دیگر نشان داد که مدلها میتوانند چیزی را نشان دهند که به آن سوگیری همسویی (sycophancy bias) گفته میشود: یعنی تمایل یک LLM به به تاخیر انداختن پاسخ صحیح برای خشنود کردن کاربر. مایکل میگوید:
بسیاری از مردم این تجربه را با مدلهای زبانی بزرگ دارند که وقتی چیزی میگوید و شما میگویید «نه، اشتباه است»، خواهد گفت: «اوه، خیلی متاسفم، حق با شماست. دو به اضافه دو میشود پنج»
تصویر بزرگی نیز وجود دارد: محققان مؤسسه اینترنت آکسفورد اشاره میکنند که اگرچه مقالات تجربی جدید نشان میدهند که LLMها میتوانند یکدیگر را به سمت صحت سوق دهند، اما شاید این نتایج به طور کلی قابل اجرا نباشند. ساندرا واچر (Sandra Wachter) که در زمینه اخلاق و حقوق مطالعه میکند، اشاره میکند که آزمونهای مذکور پاسخهایی داشتند که به وضوح درست یا غلط بودند. او میگوید:
این نتیجه ممکن است برای موضوعاتی مانند ریاضی که در آن یک حقیقت بنیادی وجود دارد، صادق باشد، اما در موارد دیگر، خیلی پیچیده یا بسیار خاکستری است و توجه به نکات ظریف زیادی لازم است.
باید توجه کنیم که این مدلها هنوز به طور کامل درک نشدهاند و اعتماد به آنها به عنوان قاضی بالقوه دشوار است. در نهایت، ایروینگ خاطرنشان میکند که سؤالات گستردهتری وجود دارد که محققانی که روی مناظره کار میکنند باید به آنها پاسخ دهند. مناظره هوش مصنوعی مستلزم این است که مباحثهکنندگان بهتر از قاضی باشند، اما «بهتر» به وظیفه بستگی دارد. او میپرسد:
بٌعدی که مناظرهکنندگان در مورد آن بیشتر میدانند چیست؟
در این آزمونها، این بٌعد، دانش است، اما در کارهایی که نیاز به استدلال یا مثلاً نحوه سیمکشی برق خانه دارند، این بٌعد میتواند متفاوت باشد.
ایروینگ معتقد است که یافتن راهحلهای نظارتی مقیاسپذیر در حال حاضر یک چالش باز حیاتی در ایمنی هوش مصنوعی است. بنابراین داشتن شواهد تجربی از روشی که حتی در برخی شرایط کار میکند، دلگرمکننده است. او میگوید:
تمام اینها گامهایی به سوی مسیر درست هستند. ما میتوانیم به انجام آزمایشهای مناظره مدل های زبانی بزرگ ادامه دهیم و همچنان به نتایج مثبت دست یابیم، بنابراین این نتایج در طول زمان قویتر خواهند شد.