امروزه هوش مصنوعی به لطف مدلهای زبانی بزرگ (یا به اختصار LLM)، توجه همه را به خود جلب کرده است. با وجود محبوبیت فراوان ابزارهایی مثل ChatGPT ، نحوه ی کار LLM ها برای اکثر افراد غیر متخصص، همچنان ناشناخته است. در این سری مقالات آموزشی ژرفاتک سعی شده تا نحوه ی کار مدل های زبانی بزرگ، برای افرادی که به صورت تخصصی در حوزه ی علوم داده و هوش مصنوعی فعالیت نمیکنند، توضیح داده شود.
این مقالات در ۵ قسمت زیر تهیه شدهاند:
- قسمت اول: مقدمهای بر هوش مصنوعی
- قسمت دوم : یادگیری ماشین
- قسمت سوم: یادگیری عمیق و مدلهای زبانی
- قسمت چهارم: هوش مصنوعی مولد
- قسمت پنجم: ترفندهای استفاده از مدل های زبانی بزرگ
بنابراین اگر به دنبال منبعی بودهاید که نحوه کارکرد مدل های زبانی بزرگ را به زبان ساده و با اختصار بیان کند، این سری مقالات مال شماست!
قبل از هر چیز باید بدانیم که توضیح نحوه کارکرد مدل های زبانی بزرگ در چند مقاله مختصر، کار آسانی نیست، چرا که این مدلها محصول دههها پژوهش در زمینه هوش مصنوعی هستند. متأسفانه اکثر مقالههای موجود در این زمینه، یا بسیار تخصصیاند یا بسیار مبتدی و عملا دانش جدیدی به خواننده اضافه نمیکنند. با این حال، در این مجموعه مقالات تلاش شده تا تعادلی میان این دو رویکرد ایجاد شود. هدف این است که خواننده بدون داشتن هیچ اطلاعات قبلی، به شناخت خوبی از چگونگی عملکرد مدل های زبانی و دلایل کارکرد فوق العادهی آنها برسد. بنابراین سعی بر این بوده که به جای استفاده از ریاضیات، بیشتر بر توضیح شهودی مفاهیم و تصاویر تکیه شود.
این مقالات همچنین به شما کمک خواهند کرد تا در استفاده از LLM هایی مانند ChatGPT بهرهوری را افزایش دهید. در واقع، ترفندهایی را فراخواهید گرفت که شانس گرفتن پاسخهای مفید را از LLMها افزایش میدهند. به همین دلیل است که آندری کارپارتی (Andrei Karparthy)، محقق و مهندس مشهور هوش مصنوعی، اخیراً و به طور واضح گفته است: «انگلیسی داغترین زبان برنامه نویسی جدید است».
البته بهتر است این گفته را به این شکل اصلاح کنیم که «زبانهای طبیعی، داغترین زبانهای برنامهنویسی جدید هستند»؛ چرا که با وجود مدل های زبانی بزرگی که هر یک برای زبانهای خاصی آموزش دیدهاند، شما به راحتی میتوانید با زبان مادری خود کدنویسی کنید! ژرفاچت با چنین رویکردی خلق شده است، ما در ژرفاتک، به شما کمک میکنیم تا با زبان شیرین پارسی با مدل های زبانی بزرگ به گفتگو بنشینید.
در ابتدا باید ببینیم که مدل های زبانی بزرگ چه جایگاهی در دنیای هوش مصنوعی دارند. برای یافتن پاسخ این سؤال، باید شاخههای هوش مصنوعی را تا رسیدن به مدل های زبانی بزرگ دنبال کنیم. این شاخهها معمولا به صورت لایهای ترسیم میشوند و به ترتیب از کل به جز به صورت زیر هستند:
- هوش مصنوعی یا Artificial Intelligence (AI) یک اصطلاح کلی است و همهی موارد مربوط به ماشین های هوشمند را در برمیگیرد.
- یادگیری ماشین یا Machine Learning (ML) یک شاخهی هوش مصنوعی است که به طور خاص روی تشخیص الگو در دادهها تمرکز میکند. ایدهی اصلی آن این است که وقتی یک الگو در دادههای موجود پیدا شود، میتوان آن را روی مشاهدات (دادههای) جدید نیز اعمال کرد.
- یادگیری عمیق یا Deep Learning یک شاخهی یادگیری ماشین محسوب میشود و به طور خاص روی دادهی بدون ساختار (مثل متن و تصویر) تمرکز میکند. در این شاخه، به طور گسترده از شبکه های عصبی مصنوعی استفاده میشود. این شبکهها از نحوهی کارکرد مغز انسان الگو گرفتهاند.
- مدل های زبانی بزرگ یا Large Language Models (LLMs) به طور خاص با متن سروکار دارند.
لازم به ذکر است که هوش مصنوعی در معنای عام خود، شاخههای مهم دیگری مانند بینایی ماشین، الگوریتمهای ژنتیک و منطق فازی را در برمیگیرد، اما اینجا به دلیل سادگی، از ذکر تمام شاخههای هوش مصنوعی چشمپوشی کرده و تنها روی مواردی که به مدل های زبانی بزرگ منتهی میشوند، تمرکز میکنیم. همچنین در طول مقالات، بخشهای لازم را از هر یک از این لایهها برخواهیم داشت؛ضمن آنکه تمرکز اصلی این سری مقالات، بر روی مدل های زبانی بزرگ خواهد بود. با این حال، از بیرونیترین لایه، یعنی هوش مصنوعی صرفنظر میکنیم (چون خیلی کلی است) و در قسمت بعدی مستقیماً به سراغ یادگیری ماشین میرویم.