تا کنون مدل های زبانی بزرگ توانمندی خود را در وظایفی مانند تولید محتوا، برنامهنویسی و ترجمه به خوبی به نمایش گذاشتهاند. اما پرسش مهم این است که میزان فهم مدل های زبانی بزرگ از معنای زبان واقعا در چه حدی است؟
اگر از ChatGPT و یا سایر مدل های زبانی بزرگ بخواهیم که بوی گل لاله را برایمان توصیف کنند، احتمالا با چنین پاسخی مواجه میشویم :
بوی گل لاله، عطری لطیف، دلنشین و آرامشبخش است که حس لطافت و شور را به ارمغان میآورد، گویی نسیمی خنک از دل طبیعت به مشام میرسد.
میدانیم که مدل های زبانی امکان تجربه حس بویایی ندارند. بنابراین یک توضیح احتمالی برای این پاسخ، این است که آن ها صرفاً در حال تقلید آماری از متون موجود در مجموعه دادهی آموزشی خود هستند و هیچ فهم واقعی از گل و یا بو ندارد. اما آیا نداشتن تجربهی حسی به معنای آن است که مدلها توانایی فهمیدن ندارند؟ مثلا مدل زبانی چون قدرت بینایی ندارد، نمی تواند «بفهمد» که اقیانوس از دریاچه بزرگتر است؟
فیلسوفان و دانشمندان مدتهاست که توانایی نسبت دادن معنا به زبان را شاخص هوشمندی انسان میدانند و دربارهٔ این مسئله بحث های زیادی کردهاند. در همین مورد، پژوهشگران آزمایشگاه علوم کامپیوتر و هوش مصنوعیMIT، آزمایشی طراحی کرده و به نتایج جالبی رسیدند. نتایجی که نشان میدهد مدل های زبانی احتمالا فهم خودشان از واقعیت را میسازند و با این کار تواناییهای مولد خود را بهبود میبخشند.
محققان برای این آزمایش، ابتدا مجموعهای از مسائل کارل (Karel) را تعریف کردند. مسائل کارل نوعی مسائل برنامهنویسی هستند که اغلب از آنها برای آموزش مفاهیم برنامهنویسی و مهارت حل مسئله استفاده میشود. این نوع مسائل، شامل یک عامل به نام کارل هستند که میتواند در محیط شبکهای (دو بعدی) حرکت کرده و وظایف سادهای انجام دهد. کارل می تواند جلو برود، بچرخد، اشیا (که معمولا «بیپر»نامیده می شوند) را بردارد و یا آنها را زمین بگذارد.
نمونههایی از دستورهای زبان کارل:
نتیجه | دستور |
یک قدم به سمت جلو در جهتی که رو به آن است حرکت میکند | move() |
۹۰ درجه به چپ میچرخد | turnLeft() |
بیپر را از محل فعلی خود برمیدارد | pickBeeper() |
بیپر را در محل فعلی قرار میدهد | putBeeper() |
مسئله کارل برای سنجش فهم مدل های زبانی بزرگ
هر مسئله، چالش یا وظیفه خاصی ارائه میدهد که کارل باید آن را تکمیل کند. ممکن است هدف، حرکت روی شبکه و رسیدن به مقصدی خاص، جمعآوری همه بیپرها یا چیدمان بیپرها طبق الگوی خاصی باشد. این مسائل اغلب دارای حالت شروع و حالت پایانی مطلوب هستند و هدف این است که برنامه ای نوشته شود تا کارل را از حالت اولیه به حالت مطلوب برساند.
این تیم تحقیقاتی پس از تعریف مسائل کارل، یک مدل زبانی بزرگ را روی جوابهای این مسائل (که شامل دستوراتی میشد که کارل با اجرای آنها به حالت هدف میرسید) آموزش دادند، ولی هیچ توضیحی در مورد معنای دستورهای به مدل ندادند. سرانجام توسط تکنیک یادگیری ماشینی به نام probing ، فرآیند تفکر مدل در حین تولید پاسخ ها را زیر نظر گرفتند.
محققان پس از آموزش بر روی بیش از یک میلیون پازل تصادفی دریافتند که مدل بهطور خودبهخود، فهم مخصوص به خودش از واقعیت را توسعه داده است. فهم و بینشی که در دادههای آموزشی (training data) وجود نداشت!
چارلز جین (english)، دانشجوی دکترای مهندسی برق و علوم کامپیوتر MIT میگوید:
در آغاز این آزمایشها، مدل زبانی، دستورالعملهای تصادفی ایجاد می کرد که کار نمی کردند. تا زمانی که نهایتا فرآیند آموزش را تکمیل کردیم. پس از آن، مدل زبانی دستورالعملهای صحیح را با نرخ ۹۲.۴ درصد تولید می کرد. این لحظهی بسیار هیجان انگیزی برای ما بود، زیرا فکر می کردیم که اگر مدل زبانی بتواند وظیفهای را با چنین دقتی انجام دهد، احتمالا معنی زبان را درک کرده است. این موضوع نقطه شروع ما برای تحقیق در مورد اینکه «آیا مدل های زبانی بزرگ، واقعا متن را درک می کنند؟» شد.
در ذهن یک مدل زبانی بزرگ چه میگذرد؟
استفاده از probing به جین کمک کرد تا میزان فهم مدل های زبانی بزرگ را به دقت بررسی کند. همانطور که گفته شد، نقش پروب (probe) ، تفسیر این موضوع بود که مدل زبانی در رابطه با معنای دستورالعملها چه فکری میکرد. پروب نشان داد که مدل زبانی در پاسخ به هر دستورالعمل، شبیهسازی داخلی مخصوص به خودش را از نحوهی حرکت کارل ایجاد میکرد. در واقع مدل زبانی، معنی و مفهومی را به ازای هر دستورالعمل برای خود در نظر می گرفت!
به تدریج و با بهبود توانایی مدل برای حل مسائل، این مفاهیم بازنمایی شده نیز دقیق تر شدند. بعد از مدتی، مدل بهطور مداوم دستورالعملها را به صورت صحیح کنار هم قرار میداد. جین اشاره می کند که درک زبان توسط مدل های زبانی به صورت مرحلهای توسعه مییابد. این مراحل بسیار شبیه به مراحل یادگیری زبان توسط یک کودک بوده و در ابتدا درست مانند تلاشهای یک نوزاد برای صحبت کردن است: تکراری و اکثرا غیرقابل فهم. سپس مدل زبانی، نحو یا قواعد زبان را یاد میگیرد. در این مرحله مدل می تواند دستورالعمل هایی ایجاد کند که ممکن است شبیه راه حلهای واقعی باشند، اما هنوز درست کار نمی کنند.
به تدریج دستورالعمل های تولید شده توسط مدل بهبود مییابند. وقتی مدل به مرحلهی کسب معنا برسد، شروع به ارائه دستورالعملهایی میکند که میتوانند مسائل مطرح شده را به درستی حل کنند، مانند کودکی که حالا دیگر میتواند جملات منسجم و با معنی بسازد.
نحوه کار پروب
پروب بر روی نورونها یا لایههای خاصی در مدل زبانی تمرکز میکند. هر کدام از این نورونها یا لایهها نمایانگر بخشهای متفاوتی از اطلاعات هستند.سپس پروب مشاهده می کند که هنگام پردازش دادهها توسط مدل، چه اطلاعاتی در فعالساز (خروجی) این نورونها وجود دارد. مثلا پروب احتمالا تشخیص میدهد که بعضی از نورونها مسئول درک دستوراتی مانند «به چپ برو» یا «بالا برو» هستند.
معمولاً به پروب وظیفهای خاص داده میشود: جستجوی اطلاعاتی مرتبط با چیزی که انتظار داریم مدل یاد گرفته باشد. در مورد این آزمایش خاص، وظیفه پروب این بوده : «فهمیدن نحوه درک و پردازش دستورالعملها توسط مدل زبانی».
پروب به لایههای داخلی مدل نگاه کرده و سعی میکند مشخص نماید اطلاعات مربوط به «حرکت» کجا و چگونه نمایش داده شده است.
پس از اینکه پروب ساختار داخلی مدل را تحلیل کرد، بازخوردی را به محققان ارائه میدهد. اگر پروب بتواند الگوهایی واضح از نحوه کدگذاری اطلاعات توسط مدل پیدا کند (برای مثال، پروب بتواند نورونهایی را پیدا کند که به طور خاص نمایانگر حرکت «بالا» یا «پایین» باشند)، این امر نشان میدهد که مدل وظیفه خود را به خوبی یاد گرفته است. اگر پروب در پیدا کردن هرگونه الگوهای معناداری مشکل داشته باشد، به معنای آن است که احتمالا مدل وظیفه ی خود را یاد نگرفته است.
مشکل احتمالی: تفکر پروب
آنگونه که خود جین توصیف میکند، پروب صرفاً برای «ورود به مغز مدل زبانی بزرگ» طراحی شده بود. اما امکان کمی نیز وجود داشت که مقداری از تفکرات مورد نیاز مدل را نیز انجام دهد. محققان میخواستند مطمئن شوند که مدل آنها دستورالعملها را مستقل از پروب درک میکند.
گاهی اوقات پروبها فقط مشاهده نمیکنند، بلکه میتوانند فعال نیز باشند و در نحوه تفسیر اطلاعات نقش داشته باشند. برای مثال در مورد این آزمایش این نگرانی وجود داشت که پروب ممکن است به جای صرفاً مشاهده روند تفکر مدل، ناخواسته بخشی از این فرآیند را خودش انجام دهد. به طور مشخص، محققان نگران این بودند که پروب ممکن است بر اساس درک خود از دستورالعملها، حرکت کارل را استنتاج کرده و یا حدس بزند، به جای اینکه مدل واقعاً دستورالعملها را درک کرده و فهمیده باشد. در این صورت، مدل زبانی واقعاً دستورالعمل ها را یاد نگرفته بلکه، پروب اطلاعات را از دادههای خام (دستورالعملها) «استخراج» کرده و اینطور به نظر رسیده که مدل آنها را درک کرده است.
آزمایش جهان وارونه
به دلیل نگرانی از تفکر پروب، محققان یک سناریوی «جهان وارونه» ایجاد کردند که در آن معنی دستورالعملها به عمد برعکس شده بود. مثلا معنای دستورالعمل «بالا» به «پایین» تغییر کرده بود. این کار برای همه دستورالعمل ها انجام شد («چپ» به «راست» و …).
هدف از این آزمایش، دیدن نحوه رفتار پروب در شرایطی بود که معنی دستورالعملها وارونه شده است. اگر پروب صرفاً دستورالعملها را به حرکت کارل ترجمه میکرد قادر بود با همان سهولت که دستورالعملهای اصلی را مدیریت میکرد، با دستورالعمل های وارونه نیز کنار بیاید. بنابراین در این حالت پروب باید بدون هیچ مشکلی دستور «بالا» را به معنای «پایین» ترجمه می کرد.
با این حال، اگر پروب واقعاً روند تفکر مدل را میخواند و معنای اصلی دستورهای را پیدا می کرد، احتمالا در برخورد با معانی وارونه به مشکل میخورد، زیرا مدل قبلاً معانی اصلی را یاد گرفته بود و اکنون با تغییر معانی، پروب برای تطبیق دستورالعملهای جدید با آنچه که در ابتدا از مدل آموخته بود، با چالش بزرگی مواجه میشد.
نتیجه آزمایش فهم مدل های زبانی بزرگ
در عمل، پروب هنگام برخورد با دستورالعملهای وارونه، دچار خطاهای ترجمه شد. دلیل این خطاها این بود که پروب صرفاً دستورالعمل ها را ترجمه نمیکرد، بلکه در واقع حرکت کارل را در روند تفکر مدل زبانی پیدا می کرد. این واقعیت که پروب در آزمایش جهان وارونه با مشکل مواجه شد، نشان میدهد که مدل زبانی،معنی دستورالعمل ها را عمیقاً در فرایند تفکر خود جای داده بود. به عبارت دیگر، مدل زبانی، دستورالعملهای اصلی را آموخته و مستقل از پروب،معنی آنها را درک کرده بود.
مارتین رینارد (english)، استاد MIT در رشته مهندسی برق و علوم کامپیوتر و عضو آزمایشگاه هوش مصنوعی و نویسنده ارشد مقاله میگوید:
این پژوهش مستقیماً به یک پرسش محوری در هوش مصنوعی مدرن میپردازد: آیا تواناییهای شگفتانگیز مدلهای زبانی بزرگ صرفاً ناشی از همبستگی آماری (statistical correlations) در مقیاس بزرگ است، یا اینکه این مدلها درک معناداری از واقعیتی که قرار است با آن تعامل داشته باشند، کسب میکنند؟ این پژوهش نشان میدهد که مدل زبانی، یک مدل داخلی از واقعیت شبیهسازی شده را ایجاد می کند، با اینکه هرگز برای توسعه چنین مدلی آموزش ندیده است.
این آزمایش، تحلیل تیم پژوهش بر مبنای اینکه مدلهای زبانی میتوانند درک عمیقتری از زبان داشته باشند را تقویت کرد. با این حال، جین محدودیتهای موجود در مقاله خود را می پذیرد. آنها از یک زبان برنامه نویسی بسیار ساده و یک مدل نسبتا کوچک برای استخراج بینش خود استفاده کردند. در تحقیقات آینده، این تیم قصد دارند از شرایط عمومی تری استفاده کنند.
الی پاولیک (english)، استاد دستیار علوم کامپیوتر و زبانشناسی در دانشگاه براون میگوید:
این روزها در مورد اینکه آیا مدلهای زبانی بزرگ واقعاً زبان را «درک» میکنند یا موفقیت آنها بیشتر به دلیل استفاده از تکنیکها و راهکارهایی است که از تحلیل حجم زیادی از متون به دست میآید، بحثهای زیادی وجود دارد. پاسخ این سوالات در نحوهی ساخت هوش مصنوعی و انتظارات ما از امکانات و محدودیتهای ذاتی این فناوری قرار دارد. مقاله ی مورد نظر، مقاله ی خوبی است که به پاسخ احتمالی این پرسش میپردازد. نویسندگان از این واقعیت استفاده میکنند که کد کامپیوتری، مانند زبان طبیعی، هم نحو (syntax) و هم معنا دارد، اما برخلاف زبان طبیعی، معنا در کد (برای اهداف آزمایشی) قابل مشاهده و دستکاری مستقیم است. طراحی این آزمایش بسیار زیباست و یافتههای آن امیدوارکننده هستند. بر اساس این یافتهها شاید بتوان گفت که مدلهای زبانی بزرگ می توانند چیزی عمیقتر درباره معنای زبان بیاموزند.
refrence: https://arxiv.org/pdf/2305.11169