تعبیه سازی ها در مدل های زبانی بزرگ چگونه معنای کلمات را رمزگذاری می‌کنند؟

تعبیه سازی در مدل های زبانی بزرگ

این پست را به اشتراک بگذارید

مدل های زبانی بزرگ با کلمات کار می‌کنند و این کار را از طریق قرار دادن روابط معنایی آن‌ها در رشته‌‌ای از اعداد و به اصطلاح تعبیه سازی انجام می‌دهند. گفته مشهوری وجود دارد که می‌گوید «یک تصویر می‌تواند به اندازه هزار کلمه ارزش داشته باشد»، اما تا به حال اندیشیده‌اید که «یک کلمه چند عدد است؟». شاید این سؤال احمقانه به نظر برسد، اما اساس مدل‌های زبانی بزرگ (LLM) و بنابراین بنیان بسیاری از کاربردهای مدرن هوش مصنوعی است.

در واقع هر LLM پاسخ خاص خود را برای این سؤال دارد. در مدل متن باز شرکت متا، یعنی  Llama 3، هر کلمه شامل ۴۰۹۶ عدد است. پاسخ مدل مشهور  GPT-3 به این سؤال ۱۲۲۸۸ عدد است. به نظر می‌رسد این فهرست‌های عددی طولانی – که تعبیه سازی ها (embeddings) نامیده می‌شوند، فقط زنجیره‌ای از ارقام غیرقابل درک هستند. اما باید بدانید که آنها روابط ریاضی بین کلمات را رمزگذاری می‌کنند؛ نوعی رمزگذاری که به طرز شگفت‌انگیزی می‌تواند شبیه به معنی باشد.

ایده اصلیِ تعبیه سازی کلمات ده‌ها سال قدمت دارد. برای مدل‌سازی زبان در رایانه، با برداشتن یک کلمه از فرهنگ لغت و تهیه فهرستی از ویژگی‌های ضروری آن شروع کنید. اینکه چند ویژگی می‌خواهید برای هر کلمه تعریف کنید به شما بستگی دارد، ولی باید توجه کنید که برای تمام کلماتی که انتخاب می‌کنید، تعداد و نوع این ویژگی‌ها یکسان باشند. الی پاولیک (Ellie Pavlick)، دانشمند علوم کامپیوتری که مدل‌های زبانی را در دانشگاه براون و Google DeepMind مطالعه می‌کند، می‌گوید:

این کار را تقریباً می‌توانید مانند یک بازی بیست‌سؤالی در نظر بگیرید. حیوان، گیاه، شی – ویژگی‌ها می‌توانند هر چیزی باشند که فکر می‌کنید برای تشخیص مفاهیم مفید هستند. سپس به هر ویژگی در لیست‌تان، یک مقدار عددی اختصاص دهید. به عنوان مثال، کلمه «سگ» در  ویژگی «پٌرزدار»، امتیاز بالا، اما در ویژگی «فلزی» امتیاز پایینی می‌گیرد. در نتیجه این کار، پیوندهای معنایی هر کلمه و رابطه آن با کلمات دیگر، در یک رشته منحصر به فرد از اعداد تعبیه سازی می‌شوند.

محققان در گذشته این تعبیه سازی ها را به صورت دستی مشخص می‌کردند، اما اکنون آن‌ها را به صورت خودکار تولید می‌کنند. برای مثال، شبکه‌های عصبی را می‌توان برای گروه‌بندی کلمات (یا به صورت دقیق‌تر، تکه‌هایی از متن به نام توکن‌ها) با توجه به ویژگی‌هایی که شبکه به خودی خود تعریف می‌کند، آموزش داد. پاولیک می‌گوید:

یک ویژگی، اسامی و افعال را به خوبی جدا می‌کند، و ویژگی دیگر، کلماتی را که بیشتر بعد از یک دوره زمانی رخ می‌دهند از سایر کلمات جدا می‌نماید.

نقطه ضعف این تعبیه سازی های یادگیری ماشینی این است که بر خلاف بازی بیست‌سوالی، بسیاری از توضیحات کدگذاری شده در لیست اعداد، توسط انسان قابل تفسیر نیستند. زمانی که یک شبکه عصبی برای کار خاصی به نام مدل‌سازی زبان (یعنی پیش‌بینی کلمه بعدی در دنباله‌ای از کلمات) آموزش داده می‌شود، تعبیه سازی هایی که یاد می‌گیرد، کاملا دلخواه هستند. مانند براده‌های آهنی که روی یک میدان مغناطیسی، شکل خاصی به خود می‌گیرند، اینجا نیز مقادیر به گونه‌ای تنظیم می‌شوند که کلمات با تداعی‌های مشابه دارای تعبیه سازی های ریاضی مشابهی باشند. برای مثال، تعبیه سازی های «سگ» و «گربه»، شبیه‌تر از  تعبیه سازی های «سگ» و «صندلی» خواهند بود. پاولیک می‌گوید:

این پدیده باعث می‌شود تعبیه سازی ها، مرموز و حتی جادویی به نظر برسند: یک شبکه عصبی به نحوی اعداد خام را به معنای زبانی تبدیل می‌کند، «مثل تبدیل رشته‌های کاه به طلا».

انجام اعمال جبری با کلمات (مثلا «شاه» منهای «مرد» به علاوه «زن»، برابر است با «ملکه»)  نیز مثال‌های جالبی هستند. بنابراین به نظر می‌رسد این تعبیه سازی ها مانند یک مخزن غنی و انعطاف‌پذیر از «آنچه یک  LLMمی‌داند» عمل می‌کنند. اما این دانش فرضی چیزی شبیه آنچه ما در فرهنگ لغت می‌یابیم نیست، بلکه بیشتر شبیه یک نقشه است. اگر هر تعبیه سازی را به صورت مجموعه‌ای از مختصات روی یک نقشه در ابعاد بالا تصور کنید، الگوهای خاصی خواهید دید. برخی کلمات در کنار هم قرار می‌گیرند، مانند حومه شهر که یک شهر بزرگ را در آغوش گرفته‌اند. باز هم مختصات «سگ» و «گربه»، نسبت به مختصات «سگ» و «صندلی» شباهت بیشتری خواهند داشت. توجه کنید که این مختصات، بر خلاف نقاط روی یک نقشه واقعی، نشان‌دهنده یک نقطه واقعی (دارای طول و عرض جغرافیایی خاص) نیستند، بلکه اینجا فقط روابط بین آن‌ها مهم است. بنابراین تعبیه سازی های «سگ» یا «گربه» به خودی خود، بی‌معنی هستند و اهمیتی ندارند، بلکه آنچه مهم است این است که آن‌ها چقدر به نقاط شناخته‌شده دیگر نزدیک هستند.

حالا این سؤال پیش می‌آید که چرا تعبیه سازی های «سگ» و «گربه» تا این اندازه شبیه به یکدیگر هستند؟ به این دلیل که آنها از قاعده‌ای استفاده می‌کنند که زبان‌شناسان دهه‌ها می‌شناسند: کلماتی که در زمینه‌های مشابه، استفاده می‌شوند، معانی مشابهی دارند.

در دنباله «من یک پرستار حیوان خانگی استخدام کردم تا به ____م غذا بدهد»، کلمه بعدی می‌تواند «سگ» یا «گربه» باشد، اما «صندلی» نیست. برای پرکردن این جای خالی، به لغت‌نامه نیاز ندارید، بلکه فقط به آمار نیاز دارید. تعبیه سازی ها یا در واقع مختصات زمینه‌ای مبتنی بر آمار، نشان می‌دهند که چگونه یک LLM می‌تواند نقطه شروع خوبی برای پیش‌بینی‌ کلمه بعدی خود بیابد، بدون اینکه نیازی به رمزگذاری معنا داشته باشد.

برخی از کلمات در زمینه‌های خاصی بهتر از سایر کلمات با هم هماهنگ می‌شوند، گاهی اوقات آنقدر دقیق که هیچ کلمه دیگری این کار را نمی‌کند. (تصور کنید جمله «رئیس‌جمهور کنونی فرانسه نامش ____ است» را تمام کنید.) به گفته بسیاری از زبان‌شناسان، بخش بزرگی از این که چرا انسان‌ها می‌توانند این حس مناسب را به خوبی تشخیص دهند به این دلیل است که ما فقط کلمات را به یکدیگر ربط نمی‌دهیم، بلکه ما در واقع می‌دانیم که آنها به چه چیزی اشاره می کنند. در مثال نقشه، مابرخلاف ماشین‌ها می‌توانیم تشخیص دهیم هر یک از این تعبیه سازی ها به چه طول و عرض جغرافیایی اشاره می‌کنند. این در حالی است که مدل‌های زبان نمی‌توانند چنین چیزی را تشخیص دهند، زیرا تعبیه سازی ها به این شکل کار نمی‌کنند.

با این حال، تعبیه سازی ها به عنوان یک نماینده معنایی، به طرز شگفت‌آوری مؤثر بوده‌اند. این یکی از دلایلی است که مدل های زبان بزرگ به سرعت در خط مقدم هوش مصنوعی قرار گرفته‌اند. وقتی این اشیاء ریاضی به گونه‌ای در کنار قرار می‌گیرند که با انتظارات ما مطابقت دارد، هوشمند به نظر می‌رسند، اما وقتی این کار را نمی کنند، آن‌ها را متوهم می‌پنداریم. با این حال، برای LLMها هیچ فرقی ندارد؛ چرا که آنها فقط لیستی از اعداد هستند که در فضا پراکنده شده‌اند.

 

پیام بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *