پیشرفت هوش مصنوعی در پزشکی : موفقیت LLMها در آزمون مجوز پزشکی آمریکا

هوش مصنوعی در پزشکی

این پست را به اشتراک بگذارید

در یک پیشرفت قابل توجه در زمینه هوش مصنوعی در پزشکی مدل‌های زبانی بزرگ (LLMs) مانند GPT-3.5 و Llama 2 توانایی خود را در استدلال در پاسخ به سؤالات پیچیده پزشکی نشان داده و حتی توانسته‌اند آزمون سختگیرانه اخذ مجوز پزشکی آمریکا (USMLE)  را پشت سر بگذارند.

این مطالعه که توسط والنتین لیوین (Valentin Liévin) و همکارانش انجام شده، نشان می‌دهد که سیستم‌های هوش مصنوعی آموزش‌دیده با حجم عظیمی از داده‌ها می‌توانند، استدلال‌های تخصصی را برای حل مشکلات پزشکی در دنیای واقعی به کار گیرند. این پژوهش که در مارس ۲۰۲۴ در مجله Patterns منتشر شد، نشان‌دهنده پتانسیل هوش مصنوعی برای حمایت از متخصصان بهداشت و درمان در محیط بالینی است.

مدل‌های هوش مصنوعی در استدلال پزشکی: درنوردیدن مرز جدید

مدل‌های زبانی بزرگ نظیر  GPT-3.5و  Llama 2قبلاً توانایی‌های قابل توجهی را در وظایف پردازش زبان طبیعی از جمله تولید متن و ترجمه نشان داده‌اند. با این حال، توانایی آن‌ها برای انجام وظایف سنگین استدلالی و در زمینه خاص، به ویژه در پزشکی، کمتر مورد کاوش قرار گرفته است. مطالعه مذکور تلاش کرده تا این شکاف را پر، و امکان موفقیت مدل‌های زبانی بزرگ را در دانش پزشکی و استدلال در پاسخگویی به سؤالات دنیای واقعی (مانند آزمون‌های پزشکی) بررسی کند.

آزمون  USMLEیکی از چالش برانگیزترین آزمون‌های استاندارد برای متخصصان پزشکی در ایالات متحده بوده و به عنوان اصلی‌ترین معیار در این مطالعه مورد استفاده قرار گرفته است. این آزمون شامل سؤالات چهار گزینه‌ای است که نه تنها نیاز به درک عمیق علوم پزشکی دارد، بلکه توانایی اعمال این دانش را در استدلال بالینی نیز می‌طلبد. در پژوهش مذکور، هم مدل‌های منبع-بسته مانند GPT-3.5  و هم مدل‌های منبع باز مانند Llama 2 در آزمون USMLE و همچنین سایر دادگان پرسش و پاسخ پزشکی از جمله MedMCQA  (آزمون ورودی رشته پزشکی) و PubMedQA (که بر فهم خلاصه مقالات پژوهشی زیست پزشکی تمرکز دارد) آزمایش شدند.

نتایج حیرت‌انگیز بود: هر دو مدل GPT-3.5 و Llama 2 نمرات قبولی در آزمون USMLE کسب کردند، GPT-3.5  با دقت ۶۰.۲٪ و Llama 2 با کمی دقت بالاترِ ۶۲.۵٪. این یافته‌ها نشان می‌دهند که مدل‌های هوش مصنوعی، زمانی که به اندازه کافی آموزش داده شوند، می‌توانند دانش و استدلال‌های تخصصی را نشان دهند که قابل مقایسه با پزشکان است.

پیام‌واره زنجیره‌ تفکر

یکی از تکنیک‌های نوآورانه مورد بررسی در مطالعه انجام شده،  پیام‌واره زنجیره‌ تفکر (CoT) است، روشی که برای بهبود توانایی استدلال مدل طراحی شده و آن را ترغیب می‌کند تا توضیحات مرحله به مرحله تولید کند. CoT در وظایفی که نیاز به استدلال منطقی دارند، بسیار مؤثر بوده و به مدل امکان می‌دهد تا مسائل پیچیده را به بخش‌های کوچک‌تر و قابل مدیریت تقسیم کند.

به عنوان مثال، یک سؤال پزشکی معمولی ممکن است نیاز به درک علائم، پاتولوژی مربوط و تفسیر آزمایش‌های تشخیصی داشته باشد. با استفاده از تکنیک زنجیره تفکر، مدل به سمت فکر کردن اصولی درباره تمام جوانب مسئله هدایت می‌شود، درست شبیه به روشی که یک متخصص پزشکی استفاده می‌کند. این روش با پیام مستقیم، که در آن فقط از مدل خواسته می‌شود بدون توضیح اضافه پاسخی ارائه دهد، در تضاد است،. با تولید استدلال‌های دقیق و مرحله به مرحله، زنجیره تفکر، نه تنها دقت مدل را بهبود می‌بخشد، بلکه قابلیت تفسیر تصمیم‌های آن را نیز افزایش می‌دهد.

محققان در آزمایش‌های خود، انواع مختلفی از پیام‌واره‌ها را شامل پیام‌های مستقیم و انواع مختلف زنجیره تفکر مخصوص موضوعات مختلف (دستورالعمل‌هایی مانند «بیایید قدم به قدم مثل یک متخصص پزشکی فکر کنیم» یا «بیایید تشخیص افتراقی را استنتاج کنیم.») را مقایسه کردند. این پیام‌واره‌های تخصصی برای شبیه‌‌سازی فرایند تفکر یک پزشک طراحی شده بودند و منجر به افزایش انعطاف‌پذیری مدل‌های زبانی بزرگ در سازگاری با استراتژی‌های استدلالی مختلف شدند.

یادگیری چند نمونه‌ای و روش‌های ترکیبی

محققان علاوه بر استفاده از پیام‌واره‌های زنجیره تفکر، از یادگیری چند نمونه‌ای (English phrase) استفاده کردند، تکنیکی که در آن، قبل از تلاش برای پاسخ به پرسش‌های جدید، چند مثال از جفت پرسش و پاسخ‌ها به مدل داده می‌شود. این روش، توانایی مدل برای تعمیم دادن مقادیر کوچک داده‌ها را افزایش می‌دهد. این مطالعه همچنین روش‌های ترکیبی را بررسی کرد. روش‌هایی که در آن‌ها چندین رنجیره تفکر برای هر سؤال تولید شده و پاسخ نهایی با ترکیب این پاسخ‌های چندگانه تعیین می‌شود. این روش از متفاوت بودن ذاتی خروجی‌های مدل استفاده می‌کند.

چالش‌ها و محدودیت‌های هوش مصنوعی در پزشکی

با وجود عملکرد قابل توجه مدل‌های زبانی بزرگ در وظایف استدلال پزشکی، این مطالعه همچنین چند محدودیت را نشان می‌دهد که باید قبل از استقرار این مدل‌ها در محیط بالینی، آن‌ها را بررسی کرد. یکی از چالش‌برانگیزترین مشکلات، سوگیری موقعیتی است که پیش‌بینی‌های مدل تحت تأثیر ترتیب گزینه‌های پاسخ ارائه شده قرار می‌گیرند. اگرچه مدل‌های زبانی بزرگ مانند GPT-3.5 با حجم عظیمی از متن آموزش دیده‌اند، اما آنها دانش پزشکی واقعی نداشته و برای پیش‌بینی به الگو‌های آماری در داده‌ها متکی هستند. به همین علت مدل‌های زبانی بزرگ، مستعد توهم هستند، به این معنا آنها اطلاعاتی را تولید می‌کنند که از نظر واقعی، نادرست یا بی‌ربط هستند. این مسئله می‌تواند به ویژه در برنامه‌های پزشکی مشکل‌ساز باشد، چرا که در این حوزه، دقت اطلاعات از اهمیت بالایی برخوردار است. البته روش های تولید تقویت شده با بازیابی (RAG)، که پاسخ‌های مدل بر اساس منابع خارجی مانند ویکی‌پدیا که صحیح هستند دریافت می‌شوند، تا حدی در کاهش توهمات تاثیر داشته است؛ اما واضح است که به راه حل‌های قوی‌تری نیاز است.

پیامدهای مربوط به نقش هوش مصنوعی در پزشکی

پتانسیل مدل‌های زبانی بزرگ در کمک به تصمیم‌گیری پزشکی بسیار زیاد است. توانایی مدل‌هایی مانند GPT-3.5 و Llama 2 برای قبولی در آزمون USMLE نشان می‌دهد که هوش مصنوعی می‌تواند در طیف وسیعی از برنامه‌های بهداشت و درمان، از تشخیص گرفته تا آموزش پزشکی، مورد استفاده قرار گیرد. با این حال، نویسندگان این مقاله هشدار می‌دهند که هنوز کار زیادی باقی مانده است تا بتوان به طور کامل به مدل‌های زبانی بزرگ در محیط بالینی اعتماد کرد. یکی از چالش‌های اصلی، قابلیت اطمینان این مدل‌ها در برابر پیچیدگی دنیای واقعی است. علاوه بر این، نمی‌توان پیامدهای اخلاقی استفاده از هوش مصنوعی در مراقبت‌های بهداشتی را نادیده گرفت. قبل از اینکه بتوان هوش مصنوعی را در عمل پزشکی روزمره به کار گرفت، باید مسائل مربوط به حریم خصوصی داده‌ها، سوگیری داده‌های پزشکی و مسئولیت‌پذیری را با دقت بررسی کرد.

مشاهده مقاله اصلی

پیام بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *