مناظره مدل های زبانی بزرگ می‌‌تواند به همگرایی آن‌ها کمک کند

گفتگو و مناظره مدل های زبانی بزرگ

این پست را به اشتراک بگذارید

فراهم آوردن امکان مناظره مدل های زبانی بزرگ با یکدیگر می‌تواند به تشخیص اشتباهات آن‌ها کمک کند. در فوریه ۲۰۲۳، چت‌بات هوش مصنوعی گوگل، بارد، ادعا کرد که تلسکوپ فضایی جیمزوب، از سیاره‌ای خارج از منظومه شمسی اولین تصویر را گرفته است، در حالیکه چنین نبود! یا وقتی محققان دانشگاه پردو بیش از ۵۰۰ سوال برنامه‌نویسی را از ChatGPT پرسیدند، بیش از نیمی از پاسخ‌ها نادرست بودند.

تشخیص این اشتباهات آسان بود، اما کارشناسان نگران هستند که با بزرگ‌تر شدن مدل‌ها و توانایی پاسخ به سوالات پیچیده‌تر، تخصص آنها در نهایت از بسیاری از کاربران انسانی پیشی بگیرد. اگر چنین سیستم‌های «فوق بشری» به وجود بیایند، چگونه می‌توانیم به آنچه آنها می‌گویند اعتماد کنیم؟ جولیان مایکل (Julian Michael) دانشمند کامپیوتر در مرکز علوم داده دانشگاه نیویورک می‌گوید:

این مشکل در مورد مسائلی پیش می‌آید که حل آن‌ها فراتر از ظرفیت ماست: چگونه می‌خواهید بر سیستمی نظارت ‌کنید که کاری را انجام می‌دهد که شما نمی‌توانید؟

یک راه حل احتمالی، به همان اندازه که عجیب و غریب است، ساده نیز هست: مناظره مدل های زبانی بزرگ. اجازه دهید دو مدل زبانی بزرگ در مورد پاسخ یک سؤال معین بحث کنند و یک مدل ساده‌تر (یا یک انسان)، پاسخ دقیق‌تر را تشخیص دهد. به لحاظ نظری، این فرآیند به دو مدل اجازه می‌دهد تا زمانی که قاضی، اطلاعات کافی برای تشخیص حقیقت داشته باشد، بر استدلال‌های یکدیگر شبهه وارد کنند. اگرچه این رویکرد برای اولین بار شش سال پیش پیشنهاد شد، اما دو مجموعه از یافته‌های مربوط به آن اوایل امسال منتشر شدند: اولی در فوریه از استارت‌آپ هوش مصنوعی آنتروپیک (Anthropic) و دومی در ماه ژوئیه از گوگل‌دیپ‌مایند (Google DeepMind). این شواهد تجربی نشان دادند که مناظره بین دو LLM، به یک قاضی (انسان یا ماشین) کمک می‌کند تا حقیقت را تشخیص دهد.

این یافته‌ها بسیار مهم بوده و راه‌های جدیدی را برای کاوش بیشتر ارائه می‌دهند. برای مثال، مایکل و گروهش در ماه سپتامبر گزارش دادند در صورتی که مناظره‌گران هوش مصنوعی را برای برنده شدن (و نه فقط برای گفتگو، مانند دو مطالعه گذشته) آموزش دهیم، توانایی قضات غیرمتخصص برای تشخیص حقیقت افزایش می‌یابد.

استدلال در مناظره مدل های زبانی بزرگ

ساختن سیستم‌های هوش مصنوعی قابل اعتماد، بخشی از یک هدف بزرگ‌تر به نام هم‌سویی (alignment) است که به دنبال اطمینان از این موضوع است که یک سیستم هوش مصنوعی، ارزش‌ها و اهداف مشابهی با کاربران انسانی خود دارد. امروزه، هم‌سویی به بازخورد انسانی متکی است؛ یعنی افرادی که هوش مصنوعی را قضاوت می‌کنند. اما ممکن است در آینده نزدیک، بازخورد انسانی برای اطمینان از صحت یک سیستم کافی نباشد. در سال‌های اخیر، محققان به طور فزاینده‌ای خواستار رویکردهای جدید در «نظارت مقیاس‌پذیر» (scalable oversight) شده‌اند. نظارت مقیاس‌پذیر راهی برای اطمینان از حقیقت است، حتی زمانی که سیستم‌های مافوق بشری وظایفی را انجام می‌دهند که انسان‌ها نمی‌توانند انجام دهند.

جولیان مایکل در مناظره مدل های زبانی بزرگ
جولیان مایکل نشان داده که آموزش مدل‌ های زبانی بزرگ برای برنده شدن در استدلال‌ها می‌تواند آنها را به ابزارهای مفیدی در تشخیص اشتباه یک هوش مصنوعی دیگر تبدیل کند.

دانشمندان کامپیوتر سال‌هاست که به نظارت مقیاس‌پذیر فکر می‌کنند. «مناظره» در سال ۲۰۱۸ به عنوان یک رویکرد ممکن و قبل از اینکه LLM به اندازه امروز فراگیر شود، پیشنهاد شد. یکی از معماران این پیشنهاد، جفری ایروینگ (Geoffrey Irving) بود که اکنون دانشمند ارشد مؤسسه ایمنی هوش مصنوعی بریتانیاست. او در سال ۲۰۱۷ (یعنی دو سال قبل از انتشار GPT-2) به OpenAI پیوست، با این امید که در نهایت روی همسوسازی سیستم‌های هوش مصنوعی با اهداف انسانی کار کند. او می‌گوید که هدف آنها این بود که مدل دقیقا همان چیزی را که انسان‌‌ها خواسته‌اند، انجام دهند.

همکار او پل کریستیانو (Paul Christiano) که اکنون رئیس ایمنی در مؤسسه ایمنی هوش مصنوعی ایالات متحده است، با بررسی راه‌هایی برای تجزیه سؤالات پیچیده به سؤالات کوچک‌تر و ساده‌تر که یک مدل زبانی بزرگ می‌تواند صادقانه به آنها پاسخ دهد، به این مسئله نزدیک شده است. ایروینگ می‌گوید:

مناظره، به شکلی از این طرح تبدیل شد که در آن، استدلال‌های متوالی، سؤال بزرگ‌تر را به اجزای کوچک‌تری تقسیم می‌کنند که می‌توان آن را به طور دقیق ارزیابی کرد.

ایروینگ و کریستیانو با داریو آمودی (که در سال ۲۰۲۱ با خواهرش دانیلا، استارت‌آپ آنتروپیک را بنیان نهاد) روی استفاده از مناظره در سیستم های زبان طبیعی کار کردند. از آنجایی که این کارها قبل از انتشار  GPT-2  بود، مدل‌های زبانی بزرگ موجود در آن زمان، برای آزمودن تجربی مناظره بسیار ضعیف بودند، بنابراین آنها بر استدلال‌های مفهومی و آزمایش‌های ساده تمرکز کردند. ایده ساده بود: از دو نسخه مشابه از یک مدل هوش مصنوعی قوی سؤال کنید و اجازه دهید آنها در مورد پاسخ بحث کنند تا یک قاضی را متقاعد نمایند که حق با آنهاست. ایروینگ آن را به خودبازی (self-play) تشبیه کرد که به سیستم‌های هوش مصنوعی کمک کرده تا استراتژی‌های خود را در بازی‌هایی مانند شطرنج و Go بهبود بخشند.

این سه نفر بازی‌های ابتدایی شامل تصاویر و سوالات متنی را ابداع کردند. در یک بازی، دو مدل هوش مصنوعی هر کدام به تصویر یکسانی دسترسی داشتند که عدد ۵ را نشان می‌داد. یکی از مدل‌ها استدلال می‌کرد که تصویر در واقع عدد ۵ است و مدل دیگر استدلال می‌کرد که عدد ۶ است. مدل‌های رقیب به نوبت پیکسل‌های بیشتری را به داور (که مدل ضعیف‌تری بود) نشان می‌دادند. پس از شش دور، قاضی در ۸۹ درصد مواقع عدد را به دقت حدس زد. این در حالی است که وقتی پیکسل‌های تصادفی به قاضی نشان داده می‌شد، او فقط در ۵۹ درصد مواقع درست حدس می‌زد.

جفری اروینگ در مناظره مدل های زبانی بزرگ
جفری اروینگ یکی از اولین کسانی بود که مناظره را به عنوان ابزاری برای آزمایش صداقت یک سیستم هوش مصنوعی پیشنهاد کرد.

 

مثال ساده‌ای که در اکتبر ۲۰۱۸ شرح داده شد، پیشنهاد کرد که مناظره می‌تواند مزیتی به همراه داشته باشد. اما نویسندگان در چند مورد هشدار دادند: برای مثال، انسان‌ها تمایل دارند آنچه را که دوست دارند بشنوند، باور کنند و در موقعیت‌های واقعی، این غریزه ممکن است بر مزیت مذکورِ بحث‌کردن غلبه کند. علاوه بر این، برخی از افراد احتمالاً در قضاوت مناظره‌ها بهتر از دیگران عمل می‌کنند، آیا در مورد مدل‌های زبانی هم همینطور است؟

نویسندگان همچنین خواستار بینش عمیق‌تر در مورد نحوه تفکر انسان شدند. ایروینگ و آماندا اسکل (Amanda Askell) در مقاله‌ای در سال ۲۰۱۹ استدلال کردند که اگر می‌خواهیم سیستم‌های هوش مصنوعی با ارزش‌های انسانی همسو شوند، باید نحوه عملکرد انسان‌ها بر اساس ارزش‌های انسانی را بهتر درک کنیم. آنها استدلال کردند که تحقیقات هوش مصنوعی باید کاوش بیشتری در مورد چگونگی تصمیم‌گیری انسان‌ها و نتیجه‌گیری در مورد حقیقت و دروغ انجام دهند. اگر محققان ندانند انسان‌ها چگونه استدلال‌ها را قضاوت می‌کنند، یا چگونه به حقیقت می‌رسند، نمی‌توانند بفهمند که چگونه یک مناظره را خلق کنند.

 

قدرت متقاعدکنندگی‌

تعداد اندکی از دانشمندان کامپیوتر و زبان‌شناسان شروع به پژوهش درباره مزایای مناظره کردند. در پژوهشی در سال ۲۰۲۲، به انسان‌ها یک آزمون چندگزینه‌ای دشوار داده شد و ازLLM ها خواسته شد تا برای پاسخ‌های مختلف، استدلال ارائه کنند. با این حال، افرادی که استدلال‌های تولید شده توسط هوش مصنوعی را شنیدند، بهتر از دیگرانی که اصلاً با LLM تعامل نداشتند، عمل نکردند.

حتی اگرLLM ها به انسان‌ها کمک نکردند، اما نکاتی وجود داشت که می‌توانست به مدل های زبانی بزرگ کمک کند. محققان در مقاله‌ای در سال ۲۰۲۳ گزارش کردند زمانی که چندین نسخه از یک LLM به جای متقاعد کردن یک قاضی، اجازه مناظره و همگرایی در مورد یک پاسخ را داشته باشند، اغلب دقیق‌تر هستند. دو یافته‌ای که در سال جاری ارائه شدند، جزو اولین آزمایش‌های تجربی هستند که نشان می‌دهند مباحثه و مناظره بینLLMها زمانی می‌تواند کارساز باشد که توسط یک مدلِ کمترآگاهِ دیگر قضاوت شود.

گروه آنتروپیک گزیده‌هایی از یک داستان علمی-تخیلی را به دو مدل متخصص نشان داد، سپس سؤالات درک مطلب از آن‌ها پرسید. هر مدل پاسخی ارائه کرد و در طی چندین دور از پاسخ خود دفاع، و علیه دیگری استدلال کرد. سپس یک قاضی استدلال‌ها را ارزیابی کرد و تصمیم گرفت که حق با چه کسی است. در برخی موارد، قاضی به نقل‌قول‌های متن اصلی دسترسی داشت و در موارد دیگر، خیر.

زمانی که LLM ها به طور خاص برای متقاعد کردن آموزش دیده بودند، داورانLLM  غیرمتخص، در ۷۶ درصد موارد به پاسخ صحیح می‌رسیدند. در مقابل، در آزمون‌های بدون مناظره، قضات غیرانسانی فقط در ۵۴ درصد مواقع به درستی پاسخ می‌دادند.

دو ماه بعد، تیم  گوگل‌دیپ‌مایند آزمایش مشابهی را در مورد وظایف و محدودیت‌های مختلف گزارش کرد. به عنوان مثال، محققان به مدل‌های زبانی بزرگ اجازه دادند طرف خود را در مناظره انتخاب کنند. این وظایف شامل سوالات چند گزینه‌ای درک مطلب، سوالاتی در مورد مقالات ویکی‌پدیا و سوالات بله/خیر در مورد ریاضی و علوم در سطح کالج بود. برخی از سوالات شامل تصاویر و متن نیز بود.

زکری کنتون، محقق گوگل ‌دیپ ‌مایند در مناظره مدل های زبانی بزرگ
زکری کنتون، محقق گوگل ‌دیپ ‌مایند هشدار می‌دهد که مدل‌های زبانی بزرگ در برابر اَشکال ظریف دستکاری، آسیب‌پذیر هستند.

در تمام وظایف و آزمایش‌ها، مناظرههمیشه به دقت بیشتر منجر می‌شد. این نتیجه، دلگرم‌کننده و البته قابل انتظار بود. زکری کنتون (Zachary Kenton) می‌گوید:

در اصل ما انتظار داریم که مناظره در بیشتر وظایف، بهتر از اصول اولیه عمل کند. زیرا قاضی می‌تواند هر دو طرف بحث در یک مناظره را ببیند و از این رو باید بیشتر مطلع شود.

محققان با این دو مطالعه، برای اولین بار نشان دادند که مناظره مدل های زبانی بزرگ می‌تواند در قضاوت سیستم‌های هوش مصنوعی درباره صحت اظهارات یک LLM تفاوت ایجاد کند. این یک گام هیجان‌انگیز است، اما قبل از اینکه بتوانیم به طور قابل اعتمادی از مناظره‌کنندگان دیجیتال در برابر یکدیگر سود ببریم، کارهای زیادی باید انجام دهیم.

 

بازی مناظره مدل های زبانی بزرگ

اولین سوال این است کهLLM ها تا چه اندازه به مشخصات ورودی‌های خود و ساختار استدلال حساس هستند. کنتون می‌گوید:

 رفتار LLM مستعد اهمیت دادن به ویژگی‌های نامربوط است، مانند اینکه کدام مناظره‌کننده حرف آخر را زده است. به همین دلیل ممکن است مناظره در مورد برخی وظایف، خوب عمل نکند.

این تازه شروع است. گروه آنتروپیک شواهدی پیدا کرد که نشان می‌دهد داوران هوش مصنوعی می‌توانند تحت تأثیر یک استدلال طولانی‌تر قرار بگیرند، حتی اگر کمتر متقاعدکننده باشد. آزمایش‌های دیگر نشان داد که مدل‌ها می‌توانند چیزی را نشان دهند که به آن سوگیری همسویی (sycophancy bias) گفته می‌شود: یعنی تمایل یک LLM به به تاخیر انداختن پاسخ صحیح برای خشنود کردن کاربر. مایکل می‌گوید:

بسیاری از مردم این تجربه را با مدل‌های زبانی بزرگ دارند که وقتی چیزی می‌گوید و شما می‌گویید «نه، اشتباه است»، خواهد گفت: «اوه، خیلی متاسفم، حق با شماست. دو به اضافه دو می‌شود پنج»

تصویر بزرگی نیز وجود دارد: محققان مؤسسه اینترنت آکسفورد اشاره می‌کنند که اگرچه مقالات تجربی جدید نشان می‌دهند که LLM‌ها می‌توانند یکدیگر را به سمت صحت سوق دهند، اما شاید این نتایج به طور کلی قابل اجرا نباشند. ساندرا واچر (Sandra Wachter) که در زمینه اخلاق و حقوق مطالعه می‌کند، اشاره می‌کند که آزمون‌های مذکور پاسخ‌هایی داشتند که به وضوح درست یا غلط بودند. او می‌گوید:

این نتیجه ممکن است برای موضوعاتی مانند ریاضی که در آن یک حقیقت بنیادی وجود دارد، صادق باشد، اما در موارد دیگر، خیلی پیچیده یا بسیار خاکستری است و توجه به نکات ظریف زیادی لازم است.

باید توجه کنیم که این مدل‌ها هنوز به طور کامل درک نشده‌اند و اعتماد به آنها به عنوان قاضی بالقوه دشوار است. در نهایت، ایروینگ خاطرنشان می‌کند که سؤالات گسترده‌تری وجود دارد که محققانی که روی مناظره کار می‌کنند باید به آنها پاسخ دهند. مناظره هوش مصنوعی مستلزم این است که مباحثه‌کنندگان بهتر از قاضی باشند، اما «بهتر» به وظیفه بستگی دارد. او می‌پرسد:

بٌعدی که مناظره‌کنندگان در مورد آن بیشتر می‌دانند چیست؟

در این آزمون‌ها، این بٌعد، دانش است، اما در کارهایی که نیاز به استدلال یا مثلاً نحوه سیم‌کشی برق خانه دارند، این بٌعد می‌تواند متفاوت باشد.

ایروینگ معتقد است که یافتن راه‌حل‌های نظارتی مقیاس‌پذیر در حال حاضر یک چالش باز حیاتی در ایمنی هوش مصنوعی است. بنابراین داشتن شواهد تجربی از روشی که حتی در برخی شرایط کار می‌کند، دلگرم‌کننده است. او می‌گوید:

تمام اینها گام‌هایی به سوی مسیر درست هستند. ما می‌توانیم به انجام آزمایش‌های مناظره مدل های زبانی بزرگ ادامه دهیم و همچنان به نتایج مثبت دست یابیم، بنابراین این نتایج در طول زمان قوی‌تر خواهند شد.