مدل های زبانی بزرگ با کلمات کار میکنند و این کار را از طریق قرار دادن روابط معنایی آنها در رشتهای از اعداد و به اصطلاح تعبیه سازی انجام میدهند. گفته مشهوری وجود دارد که میگوید «یک تصویر میتواند به اندازه هزار کلمه ارزش داشته باشد»، اما تا به حال اندیشیدهاید که «یک کلمه چند عدد است؟». شاید این سؤال احمقانه به نظر برسد، اما اساس مدلهای زبانی بزرگ (LLM) و بنابراین بنیان بسیاری از کاربردهای مدرن هوش مصنوعی است.
در واقع هر LLM پاسخ خاص خود را برای این سؤال دارد. در مدل متن باز شرکت متا، یعنی Llama 3، هر کلمه شامل ۴۰۹۶ عدد است. پاسخ مدل مشهور GPT-3 به این سؤال ۱۲۲۸۸ عدد است. به نظر میرسد این فهرستهای عددی طولانی – که تعبیه سازی ها (embeddings) نامیده میشوند، فقط زنجیرهای از ارقام غیرقابل درک هستند. اما باید بدانید که آنها روابط ریاضی بین کلمات را رمزگذاری میکنند؛ نوعی رمزگذاری که به طرز شگفتانگیزی میتواند شبیه به معنی باشد.
ایده اصلیِ تعبیه سازی کلمات دهها سال قدمت دارد. برای مدلسازی زبان در رایانه، با برداشتن یک کلمه از فرهنگ لغت و تهیه فهرستی از ویژگیهای ضروری آن شروع کنید. اینکه چند ویژگی میخواهید برای هر کلمه تعریف کنید به شما بستگی دارد، ولی باید توجه کنید که برای تمام کلماتی که انتخاب میکنید، تعداد و نوع این ویژگیها یکسان باشند. الی پاولیک (Ellie Pavlick)، دانشمند علوم کامپیوتری که مدلهای زبانی را در دانشگاه براون و Google DeepMind مطالعه میکند، میگوید:
این کار را تقریباً میتوانید مانند یک بازی بیستسؤالی در نظر بگیرید. حیوان، گیاه، شی – ویژگیها میتوانند هر چیزی باشند که فکر میکنید برای تشخیص مفاهیم مفید هستند. سپس به هر ویژگی در لیستتان، یک مقدار عددی اختصاص دهید. به عنوان مثال، کلمه «سگ» در ویژگی «پٌرزدار»، امتیاز بالا، اما در ویژگی «فلزی» امتیاز پایینی میگیرد. در نتیجه این کار، پیوندهای معنایی هر کلمه و رابطه آن با کلمات دیگر، در یک رشته منحصر به فرد از اعداد تعبیه سازی میشوند.
محققان در گذشته این تعبیه سازی ها را به صورت دستی مشخص میکردند، اما اکنون آنها را به صورت خودکار تولید میکنند. برای مثال، شبکههای عصبی را میتوان برای گروهبندی کلمات (یا به صورت دقیقتر، تکههایی از متن به نام توکنها) با توجه به ویژگیهایی که شبکه به خودی خود تعریف میکند، آموزش داد. پاولیک میگوید:
یک ویژگی، اسامی و افعال را به خوبی جدا میکند، و ویژگی دیگر، کلماتی را که بیشتر بعد از یک دوره زمانی رخ میدهند از سایر کلمات جدا مینماید.
نقطه ضعف این تعبیه سازی های یادگیری ماشینی این است که بر خلاف بازی بیستسوالی، بسیاری از توضیحات کدگذاری شده در لیست اعداد، توسط انسان قابل تفسیر نیستند. زمانی که یک شبکه عصبی برای کار خاصی به نام مدلسازی زبان (یعنی پیشبینی کلمه بعدی در دنبالهای از کلمات) آموزش داده میشود، تعبیه سازی هایی که یاد میگیرد، کاملا دلخواه هستند. مانند برادههای آهنی که روی یک میدان مغناطیسی، شکل خاصی به خود میگیرند، اینجا نیز مقادیر به گونهای تنظیم میشوند که کلمات با تداعیهای مشابه دارای تعبیه سازی های ریاضی مشابهی باشند. برای مثال، تعبیه سازی های «سگ» و «گربه»، شبیهتر از تعبیه سازی های «سگ» و «صندلی» خواهند بود. پاولیک میگوید:
این پدیده باعث میشود تعبیه سازی ها، مرموز و حتی جادویی به نظر برسند: یک شبکه عصبی به نحوی اعداد خام را به معنای زبانی تبدیل میکند، «مثل تبدیل رشتههای کاه به طلا».
انجام اعمال جبری با کلمات (مثلا «شاه» منهای «مرد» به علاوه «زن»، برابر است با «ملکه») نیز مثالهای جالبی هستند. بنابراین به نظر میرسد این تعبیه سازی ها مانند یک مخزن غنی و انعطافپذیر از «آنچه یک LLMمیداند» عمل میکنند. اما این دانش فرضی چیزی شبیه آنچه ما در فرهنگ لغت مییابیم نیست، بلکه بیشتر شبیه یک نقشه است. اگر هر تعبیه سازی را به صورت مجموعهای از مختصات روی یک نقشه در ابعاد بالا تصور کنید، الگوهای خاصی خواهید دید. برخی کلمات در کنار هم قرار میگیرند، مانند حومه شهر که یک شهر بزرگ را در آغوش گرفتهاند. باز هم مختصات «سگ» و «گربه»، نسبت به مختصات «سگ» و «صندلی» شباهت بیشتری خواهند داشت. توجه کنید که این مختصات، بر خلاف نقاط روی یک نقشه واقعی، نشاندهنده یک نقطه واقعی (دارای طول و عرض جغرافیایی خاص) نیستند، بلکه اینجا فقط روابط بین آنها مهم است. بنابراین تعبیه سازی های «سگ» یا «گربه» به خودی خود، بیمعنی هستند و اهمیتی ندارند، بلکه آنچه مهم است این است که آنها چقدر به نقاط شناختهشده دیگر نزدیک هستند.
حالا این سؤال پیش میآید که چرا تعبیه سازی های «سگ» و «گربه» تا این اندازه شبیه به یکدیگر هستند؟ به این دلیل که آنها از قاعدهای استفاده میکنند که زبانشناسان دههها میشناسند: کلماتی که در زمینههای مشابه، استفاده میشوند، معانی مشابهی دارند.
در دنباله «من یک پرستار حیوان خانگی استخدام کردم تا به ____م غذا بدهد»، کلمه بعدی میتواند «سگ» یا «گربه» باشد، اما «صندلی» نیست. برای پرکردن این جای خالی، به لغتنامه نیاز ندارید، بلکه فقط به آمار نیاز دارید. تعبیه سازی ها یا در واقع مختصات زمینهای مبتنی بر آمار، نشان میدهند که چگونه یک LLM میتواند نقطه شروع خوبی برای پیشبینی کلمه بعدی خود بیابد، بدون اینکه نیازی به رمزگذاری معنا داشته باشد.
برخی از کلمات در زمینههای خاصی بهتر از سایر کلمات با هم هماهنگ میشوند، گاهی اوقات آنقدر دقیق که هیچ کلمه دیگری این کار را نمیکند. (تصور کنید جمله «رئیسجمهور کنونی فرانسه نامش ____ است» را تمام کنید.) به گفته بسیاری از زبانشناسان، بخش بزرگی از این که چرا انسانها میتوانند این حس مناسب را به خوبی تشخیص دهند به این دلیل است که ما فقط کلمات را به یکدیگر ربط نمیدهیم، بلکه ما در واقع میدانیم که آنها به چه چیزی اشاره می کنند. در مثال نقشه، مابرخلاف ماشینها میتوانیم تشخیص دهیم هر یک از این تعبیه سازی ها به چه طول و عرض جغرافیایی اشاره میکنند. این در حالی است که مدلهای زبان نمیتوانند چنین چیزی را تشخیص دهند، زیرا تعبیه سازی ها به این شکل کار نمیکنند.
با این حال، تعبیه سازی ها به عنوان یک نماینده معنایی، به طرز شگفتآوری مؤثر بودهاند. این یکی از دلایلی است که مدل های زبان بزرگ به سرعت در خط مقدم هوش مصنوعی قرار گرفتهاند. وقتی این اشیاء ریاضی به گونهای در کنار قرار میگیرند که با انتظارات ما مطابقت دارد، هوشمند به نظر میرسند، اما وقتی این کار را نمی کنند، آنها را متوهم میپنداریم. با این حال، برای LLMها هیچ فرقی ندارد؛ چرا که آنها فقط لیستی از اعداد هستند که در فضا پراکنده شدهاند.