در یک پیشرفت قابل توجه در زمینه هوش مصنوعی در پزشکی مدلهای زبانی بزرگ (LLMs) مانند GPT-3.5 و Llama 2 توانایی خود را در استدلال در پاسخ به سؤالات پیچیده پزشکی نشان داده و حتی توانستهاند آزمون سختگیرانه اخذ مجوز پزشکی آمریکا (USMLE) را پشت سر بگذارند.
این مطالعه که توسط والنتین لیوین (Valentin Liévin) و همکارانش انجام شده، نشان میدهد که سیستمهای هوش مصنوعی آموزشدیده با حجم عظیمی از دادهها میتوانند، استدلالهای تخصصی را برای حل مشکلات پزشکی در دنیای واقعی به کار گیرند. این پژوهش که در مارس ۲۰۲۴ در مجله Patterns منتشر شد، نشاندهنده پتانسیل هوش مصنوعی برای حمایت از متخصصان بهداشت و درمان در محیط بالینی است.
مدلهای هوش مصنوعی در استدلال پزشکی: درنوردیدن مرز جدید
مدلهای زبانی بزرگ نظیر GPT-3.5و Llama 2قبلاً تواناییهای قابل توجهی را در وظایف پردازش زبان طبیعی از جمله تولید متن و ترجمه نشان دادهاند. با این حال، توانایی آنها برای انجام وظایف سنگین استدلالی و در زمینه خاص، به ویژه در پزشکی، کمتر مورد کاوش قرار گرفته است. مطالعه مذکور تلاش کرده تا این شکاف را پر، و امکان موفقیت مدلهای زبانی بزرگ را در دانش پزشکی و استدلال در پاسخگویی به سؤالات دنیای واقعی (مانند آزمونهای پزشکی) بررسی کند.
آزمون USMLEیکی از چالش برانگیزترین آزمونهای استاندارد برای متخصصان پزشکی در ایالات متحده بوده و به عنوان اصلیترین معیار در این مطالعه مورد استفاده قرار گرفته است. این آزمون شامل سؤالات چهار گزینهای است که نه تنها نیاز به درک عمیق علوم پزشکی دارد، بلکه توانایی اعمال این دانش را در استدلال بالینی نیز میطلبد. در پژوهش مذکور، هم مدلهای منبع-بسته مانند GPT-3.5 و هم مدلهای منبع باز مانند Llama 2 در آزمون USMLE و همچنین سایر دادگان پرسش و پاسخ پزشکی از جمله MedMCQA (آزمون ورودی رشته پزشکی) و PubMedQA (که بر فهم خلاصه مقالات پژوهشی زیست پزشکی تمرکز دارد) آزمایش شدند.
نتایج حیرتانگیز بود: هر دو مدل GPT-3.5 و Llama 2 نمرات قبولی در آزمون USMLE کسب کردند، GPT-3.5 با دقت ۶۰.۲٪ و Llama 2 با کمی دقت بالاترِ ۶۲.۵٪. این یافتهها نشان میدهند که مدلهای هوش مصنوعی، زمانی که به اندازه کافی آموزش داده شوند، میتوانند دانش و استدلالهای تخصصی را نشان دهند که قابل مقایسه با پزشکان است.
پیامواره زنجیره تفکر
یکی از تکنیکهای نوآورانه مورد بررسی در مطالعه انجام شده، پیامواره زنجیره تفکر (CoT) است، روشی که برای بهبود توانایی استدلال مدل طراحی شده و آن را ترغیب میکند تا توضیحات مرحله به مرحله تولید کند. CoT در وظایفی که نیاز به استدلال منطقی دارند، بسیار مؤثر بوده و به مدل امکان میدهد تا مسائل پیچیده را به بخشهای کوچکتر و قابل مدیریت تقسیم کند.
به عنوان مثال، یک سؤال پزشکی معمولی ممکن است نیاز به درک علائم، پاتولوژی مربوط و تفسیر آزمایشهای تشخیصی داشته باشد. با استفاده از تکنیک زنجیره تفکر، مدل به سمت فکر کردن اصولی درباره تمام جوانب مسئله هدایت میشود، درست شبیه به روشی که یک متخصص پزشکی استفاده میکند. این روش با پیام مستقیم، که در آن فقط از مدل خواسته میشود بدون توضیح اضافه پاسخی ارائه دهد، در تضاد است،. با تولید استدلالهای دقیق و مرحله به مرحله، زنجیره تفکر، نه تنها دقت مدل را بهبود میبخشد، بلکه قابلیت تفسیر تصمیمهای آن را نیز افزایش میدهد.
محققان در آزمایشهای خود، انواع مختلفی از پیاموارهها را شامل پیامهای مستقیم و انواع مختلف زنجیره تفکر مخصوص موضوعات مختلف (دستورالعملهایی مانند «بیایید قدم به قدم مثل یک متخصص پزشکی فکر کنیم» یا «بیایید تشخیص افتراقی را استنتاج کنیم.») را مقایسه کردند. این پیاموارههای تخصصی برای شبیهسازی فرایند تفکر یک پزشک طراحی شده بودند و منجر به افزایش انعطافپذیری مدلهای زبانی بزرگ در سازگاری با استراتژیهای استدلالی مختلف شدند.
یادگیری چند نمونهای و روشهای ترکیبی
محققان علاوه بر استفاده از پیاموارههای زنجیره تفکر، از یادگیری چند نمونهای (English phrase) استفاده کردند، تکنیکی که در آن، قبل از تلاش برای پاسخ به پرسشهای جدید، چند مثال از جفت پرسش و پاسخها به مدل داده میشود. این روش، توانایی مدل برای تعمیم دادن مقادیر کوچک دادهها را افزایش میدهد. این مطالعه همچنین روشهای ترکیبی را بررسی کرد. روشهایی که در آنها چندین رنجیره تفکر برای هر سؤال تولید شده و پاسخ نهایی با ترکیب این پاسخهای چندگانه تعیین میشود. این روش از متفاوت بودن ذاتی خروجیهای مدل استفاده میکند.
چالشها و محدودیتهای هوش مصنوعی در پزشکی
با وجود عملکرد قابل توجه مدلهای زبانی بزرگ در وظایف استدلال پزشکی، این مطالعه همچنین چند محدودیت را نشان میدهد که باید قبل از استقرار این مدلها در محیط بالینی، آنها را بررسی کرد. یکی از چالشبرانگیزترین مشکلات، سوگیری موقعیتی است که پیشبینیهای مدل تحت تأثیر ترتیب گزینههای پاسخ ارائه شده قرار میگیرند. اگرچه مدلهای زبانی بزرگ مانند GPT-3.5 با حجم عظیمی از متن آموزش دیدهاند، اما آنها دانش پزشکی واقعی نداشته و برای پیشبینی به الگوهای آماری در دادهها متکی هستند. به همین علت مدلهای زبانی بزرگ، مستعد توهم هستند، به این معنا آنها اطلاعاتی را تولید میکنند که از نظر واقعی، نادرست یا بیربط هستند. این مسئله میتواند به ویژه در برنامههای پزشکی مشکلساز باشد، چرا که در این حوزه، دقت اطلاعات از اهمیت بالایی برخوردار است. البته روش های تولید تقویت شده با بازیابی (RAG)، که پاسخهای مدل بر اساس منابع خارجی مانند ویکیپدیا که صحیح هستند دریافت میشوند، تا حدی در کاهش توهمات تاثیر داشته است؛ اما واضح است که به راه حلهای قویتری نیاز است.
پیامدهای مربوط به نقش هوش مصنوعی در پزشکی
پتانسیل مدلهای زبانی بزرگ در کمک به تصمیمگیری پزشکی بسیار زیاد است. توانایی مدلهایی مانند GPT-3.5 و Llama 2 برای قبولی در آزمون USMLE نشان میدهد که هوش مصنوعی میتواند در طیف وسیعی از برنامههای بهداشت و درمان، از تشخیص گرفته تا آموزش پزشکی، مورد استفاده قرار گیرد. با این حال، نویسندگان این مقاله هشدار میدهند که هنوز کار زیادی باقی مانده است تا بتوان به طور کامل به مدلهای زبانی بزرگ در محیط بالینی اعتماد کرد. یکی از چالشهای اصلی، قابلیت اطمینان این مدلها در برابر پیچیدگی دنیای واقعی است. علاوه بر این، نمیتوان پیامدهای اخلاقی استفاده از هوش مصنوعی در مراقبتهای بهداشتی را نادیده گرفت. قبل از اینکه بتوان هوش مصنوعی را در عمل پزشکی روزمره به کار گرفت، باید مسائل مربوط به حریم خصوصی دادهها، سوگیری دادههای پزشکی و مسئولیتپذیری را با دقت بررسی کرد.