آموزش مدل‌های زبانی بزرگ : قسمت اول، مقدمه‌ای بر هوش مصنوعی

این پست را به اشتراک بگذارید

امروزه هوش مصنوعی به لطف مدل‌های زبانی بزرگ (یا به اختصار LLM)، توجه همه را به خود جلب کرده است. با وجود محبوبیت فراوان ابزارهایی مثل ChatGPT ، نحوه ی کار LLM ها برای اکثر افراد غیر متخصص، همچنان ناشناخته است. در این سری مقالات آموزشی ژرفاتک سعی شده تا نحوه ی کار مدل های زبانی بزرگ، برای افرادی که به صورت تخصصی در حوزه ی علوم داده و هوش مصنوعی فعالیت نمی‌کنند، توضیح داده شود.

این مقالات در ۵ قسمت زیر تهیه شده‌اند:

قسمت اول: مقدمه‌ای بر هوش مصنوعی
قسمت دوم : یادگیری ماشین
قسمت سوم: یادگیری عمیق و مدل‌های زبانی
قسمت چهارم: هوش مصنوعی مولد
قسمت پنجم: ترفندهای استفاده از مدل های زبانی بزرگ

بنابراین اگر به دنبال منبعی بوده‌اید که نحوه کارکرد مدل های زبانی بزرگ را به زبان ساده و با اختصار بیان کند، این سری مقالات مال شماست!

قبل از هر چیز باید بدانیم که توضیح نحوه کارکرد مدل های زبانی بزرگ در چند مقاله مختصر، کار آسانی نیست، چرا که این مدل‌ها محصول دهه‌ها پژوهش در زمینه هوش مصنوعی هستند. متأسفانه اکثر مقاله‌های موجود در این زمینه، یا بسیار تخصصی‌اند یا بسیار مبتدی و عملا دانش جدیدی به خواننده اضافه نمی‌کنند. با این حال، در این مجموعه مقالات تلاش شده تا تعادلی میان این دو رویکرد ایجاد شود. هدف این است که خواننده بدون داشتن هیچ اطلاعات قبلی، به شناخت خوبی از چگونگی عملکرد مدل های زبانی و دلایل کارکرد فوق العاده‌ی آن‌ها برسد. بنابراین سعی بر این بوده که به جای استفاده از ریاضیات، بیشتر بر توضیح شهودی مفاهیم و تصاویر تکیه شود.

این مقالات همچنین به شما کمک خواهند کرد تا در استفاده از LLM هایی مانند ChatGPT بهره‌وری را افزایش دهید. در واقع، ترفندهایی را فراخواهید گرفت که شانس گرفتن پاسخ‌های مفید را از LLMها افزایش می‌دهند. به همین دلیل است که آندری کارپارتی (Andrei Karparthy)، محقق و مهندس مشهور هوش مصنوعی، اخیراً و به طور واضح گفته است: «انگلیسی داغ‌ترین زبان برنامه نویسی جدید است».

البته بهتر است این گفته را به این شکل اصلاح کنیم که «زبان‌های طبیعی، داغ‌ترین زبان‌های برنامه‌نویسی جدید هستند»؛ چرا که با وجود مدل های زبانی بزرگی که هر یک برای زبان‌های خاصی آموزش‌ دیده‌اند، شما به راحتی می‌توانید با زبان مادری خود کدنویسی کنید! ژرفاچت با چنین رویکردی خلق شده است، ما در ژرفاتک، به شما کمک می‌کنیم تا با زبان شیرین پارسی با مدل های زبانی بزرگ به گفتگو بنشینید.

در ابتدا باید ببینیم که مدل های زبانی بزرگ چه جایگاهی در دنیای هوش مصنوعی دارند. برای یافتن پاسخ این سؤال، باید شاخه‌های هوش مصنوعی را تا رسیدن به مدل‌ های زبانی بزرگ دنبال کنیم. این شاخه‌ها معمولا به صورت لایه‌ای ترسیم می‌شوند و به ترتیب از کل به جز به صورت زیر هستند:

هوش مصنوعی یا Artificial Intelligence (AI) یک اصطلاح کلی است و همه‌ی موارد مربوط به ماشین های هوشمند را در برمی‌گیرد.
یادگیری ماشین یا Machine Learning (ML) یک شاخه‌ی هوش مصنوعی است که به طور خاص روی تشخیص الگو در داده‌ها تمرکز می‌کند. ایده‌ی اصلی آن این است که وقتی یک الگو در داده‌های موجود پیدا شود، می‌توان آن را روی مشاهدات (داده‌های) جدید نیز اعمال کرد.
یادگیری عمیق یا Deep Learning یک شاخه‌ی یادگیری ماشین محسوب می‌شود و به طور خاص روی داده‌ی بدون ساختار (مثل متن و تصویر) تمرکز می‌کند. در این شاخه، به طور گسترده از شبکه های عصبی مصنوعی استفاده می‌شود. این شبکه‌ها از نحوه‌ی کارکرد مغز انسان الگو گرفته‌‌اند.
مدل های زبانی بزرگ یا Large Language Models (LLMs) به طور خاص با متن سروکار دارند.

لازم به ذکر است که هوش مصنوعی در معنای عام خود، شاخه‌های مهم دیگری مانند بینایی ماشین، الگوریتم‌های ژنتیک و منطق فازی را در برمی‌گیرد، اما اینجا به دلیل سادگی، از ذکر تمام شاخه‌های هوش مصنوعی چشم‌پوشی کرده و تنها روی مواردی که به مدل های زبانی بزرگ منتهی می‌شوند، تمرکز می‌کنیم. همچنین در طول مقالات، بخش‌های لازم را از هر یک از این لایه‌ها برخواهیم داشت؛ضمن آنکه تمرکز اصلی این سری مقالات، بر روی مدل های زبانی بزرگ خواهد بود. با این حال، از بیرونی‌ترین لایه، یعنی هوش مصنوعی صرف‌نظر می‌کنیم (چون خیلی کلی است) و در قسمت بعدی مستقیماً به سراغ یادگیری ماشین می‌رویم.

منبع:
medium

آموزش مدل‌های زبانی بزرگ : قسمت اول، مقدمه‌ای بر هوش مصنوعی

این پست را به اشتراک بگذارید

پیام بگذارید لغو پاسخ

با ما در تماس باشید