به گزارش خبرنگار مهر؛ پیشرفتهای سریع در کاربردهای پزشکی هوش مصنوعی، این امید را تقویت کرده است که فرایند تشخیص سرطان دقیقتر، سریعتر و همگنتر شود. ایده اصلی این است که مدلهای یادگیری عمیق با مشاهده الگوهای میکروسکوپی در تصاویر پاتولوژی، بتوانند طبقهبندیهای پیچیده را انجام دهند و در کنار متخصصان، خطای انسانی را کاهش دهند.
با این حال، پژوهشهای علمی نشان میدهند که همین توانمندی فوقالعاده در استخراج سیگنالهای پنهان، میتواند به یک مسیر انحرافی تبدیل شود. مسیری که در آن مدل، دادههای جمعیت شناختی مانند سن، جنسیت و نژاد را از خود تصویر استخراج میکند و سپس همان متغیرها را به صورت ناخواسته به ستون فقرات تحلیل بافت تبدیل میکند. نتیجه، شکاف در عملکرد و بازتولید تبعیض در یکی از حساسترین نقاط زنجیره درمان است.
یافته اصلی مطالعات و چرایی غیرمنتظره بودن آنها
مطالعه تازهای که در نشریه «Cell Reports Medicine» منتشر شده، چهار سامانه پیشرو تشخیص مبتنی بر هوش مصنوعی در تشخیص پزشکی را از منظر تفاوت عملکرد در گروههای جمعیتی بررسی میکند. پژوهشگران دانشگاه هاروارد نزدیک به ۲۹ هزار تصویر پزشکی مربوط به سرطان از حدود ۱۴ هزار و ۴۰۰ بیمار را تحلیل کردهاند و گزارش میدهند که مدلهای یادگیری عمیق در ۲۹.۳ درصد از وظایف تشخیصی خود، سوگیری معنادار نشان دادهاند. این رقم از نظر سیاستگذاری سلامت دیجیتال، صرفاً یک خطای آماری نیست و به این معنا است که در تقریباً یک سوم موقعیتهای ارزیابی، احتمال دارد عملکرد مدل بهگونهای با ویژگیهای جمعیتی گره بخورد که برای بخشی از بیماران، کیفیت تشخیص یا طبقهبندی سلولی کاهش یابد.
وجه شوکآور یافتهها در این است که مدلها ظاهراً توانستهاند نشانههای مرتبط با نژاد را از تصاویر مربوط به بافتشناسی استخراج کنند. در روایت پژوهش، خواندن متغیرهای جمعیت شناختی از روی تصاویر پزشکی، برای پاتولوژیست انسانی در حد یک مأموریت ناممکن تلقی میشود؛ اما مدلهای یادگیری عمیق، به دلیل توانایی در تشخیص سیگنالهای زیستی بسیار ریز و غیرشهودی، از مسیری به این اطلاعات میرسند. همین قابلیت که در نگاه نخست مزیت فنی به نظر میرسد، در عمل میتواند به یک آسیب راهبردی در عدالت تشخیصی تبدیل شود.
مکانیسم سوگیری چگونه شکل میگیرد
محققان توضیح میدهند که خطاهای ناشی از سوگیری زمانی پدید میآید که مدل، بهجای تمرکز صرف بر ویژگیهای بافتی مرتبط با نوع سرطان، به الگوهایی متکی شود که با گروههای جمعیتی همبستگی دارند. به زبان دقیقتر، مدل ابتدا به صورت ضمنی یا صریح، سن یا جنسیت یا نژاد را حدس میزند و سپس آن متغیر را به یک میانبر برای تصمیمگیری تبدیل میکند. این میانبر میتواند از جنس تفاوت در توزیع سلولی، نسبت عناصر حمایتی یا الگوهای غیرمستقیم دیگری باشد که در دادههای آموزشی وجود داشته است.
برای نمونه، گزارش اشاره میکند که مدلها توانستهاند نمونههای متعلق به بیماران سیاه پوست را تشخیص دهند، زیرا در این تصاویر شمار بیشتری از سلولهای غیرطبیعی و نئوپلاستیک و شمار کمتری از عناصر حمایتی نسبت به تصاویر بیماران سفیدپوست مشاهده شده است. در چنین شرایطی، مسئله اصلی این نیست که تفاوت زیستی میان دو گروه وجود دارد یا ندارد. مسئله اصلی این است که مدل، از تفاوتهایی که ممکن است محصول عوامل متعددی مانند تفاوت دسترسی به مراقبت، زمان مراجعه، کیفیت نمونهبرداری یا حتی الگوهای جمعیتی در مراکز درمانی باشد، یک شاخص هویتی میسازد و سپس آن شاخص هویتی را وارد تصمیم تشخیصی میکند.
چرا شکاف داده به تبعیض عملکردی تبدیل میشود؟
در ادامه، گزارش علمی مذکور یک چرخه کلاسیک را ترسیم میکند. بر همین اساس، اگر دادههای آموزشی عمدتاً از گروه غالب، مثلاً بیماران سفیدپوست، تأمین شده باشد، مدل برای گروههای دارای نمایندگی کمتر، حتی در صورت وجود داده کلی از سرطان، با مشکل مواجه میشود. مثال مشخص این که مدلها در تمایز زیرردههای سرطان ریه در بیماران سیاه پوست دچار افت عملکرد بودهاند. همچنین نکته مهم دیگر این است که این افت لزوماً به علت کمبود داده درباره سرطان ریه نیست، بلکه از کمبود داده سرطان ریه از همان گروه جمعیتی مربوط میشود. در نتیجه، مدل در لحظه تصمیم، بهجای اتکا به شواهد کافی از وضعیت بیمار، به الگوهای غالب در دادههای غالب پناه میبرد و این امر، همان بازتولید ساختاری تبعیض است.
از منظر حکمرانی داده، این وضعیت یک هشدار روشن برای سیاستگذاران دارد. کیفیت و عدالت در عملکرد یک سامانه پزشکی مبتنی بر هوش مصنوعی، صرفاً با افزایش حجم داده تضمین نمیشود. نمایندگی داده و توزیع متوازن آن در زیرگروههای جمعیتی و بالینی، یک شرط لازم است. اگر این شرط رعایت نشود، مدل حتی با دقت کلی بالا، در سطح زیرگروهها خطاهای نظاممند تولید میکند و این خطاها میتوانند به پیامدهای درمانی متفاوت برای گروههای مختلف منجر شوند.
توهم عینیت در تصویربرداری پزشکی و چالش واقعی
یکی از گزارههای کلیدی متخصصان و پژوهشگران این است که انتظار میرود ارزیابی آسیب شناسی عینی باشد و برای تشخیص از روی تصویر، دانستن متغیرهای جمعیت شناختی ضرورت ندارد؛ اما یافتههای مطالعه نشان میدهد که عینیت در سطح انسان، تضمین عینیت در سطح مدل نیست. مدل به دنبال بیشینهسازی عملکرد در چارچوب داده آموزشی است و اگر در داده آموزشی، میانبرهای جمعیتی وجود داشته باشد، مدل آنها را کشف میکند و به کار میگیرد.
بنابراین، حتی اگر پزشک انسانی به صورت هنجاری تلاش کند متغیرهای هویتی را کنار بگذارد، مدل میتواند همان متغیرها را از درون تصویر پزشکی استخراج کند و به صورت پنهان وارد فرایند تصمیمگیری نماید. این وضعیت، یک تغییر پارادایمی در تصور ما از ریسکهای هوش مصنوعی پزشکی ایجاد میکند. مسئله تنها سوگیری ناشی از ورودی صریح اطلاعات جمعیت شناختی نیست. بلکه تصویر بالینی ممکن است حامل شاخصهای غیرمستقیم باشد و مدل میتواند آنها را به متغیرهای حساس تبدیل کند.
راهحل پیشنهادی و معنای آن برای سیاستگذاران
پژوهشگران در کنار نقد، یک مسیر اصلاحی برای پدیده سوگیری نژادی هوش مصنوعی معرفی کردهاند. آنها یک چارچوب آموزشی جدید با نام «FAIR Path» توسعه دادهاند و ادعا میکنند که با اعمال این چارچوب پیش از تحلیل، ۸۸.۵ درصد از نابرابریهای عملکردی مهار شده است. با این حال، باقی ماندن ۱۱.۵ درصد از شکاف عملکردی، نشان میدهد که مسئله به طور کامل حل نشده و همچنان ظرفیت خطای نامتوازن در این زمینه وجود دارد.
در سطح سیاستگذاری، اهمیت اصلی این بخش آن است که کنترل سوگیری صرفاً یک توصیه اخلاقی نیست و باید به یک الزام فنی و مقرراتی تبدیل شود. اگر چارچوبهایی مانند «FAIR Path» اختیاری و داوطلبانه باقی بمانند، بازار و فشار زمان عرضه محصول میتواند باعث شود برخی سامانهها بدون ارزیابی کافی عدالت و ایمنی توزیعی وارد گردش کار بالینی شوند. در چنین وضعیتی، نقش تنظیمگر حوزه پزشکی، نهادهای ارزیاب فناوری سلامت و کمیتههای اخلاق پژوهش، از حالت توصیهای خارج میشود و به یک مسئولیت حکمرانی بدل میگردد.
جمعبندی
در نهایت، میتوان نتیجه گرفت که هرچه مدلهای پزشکی قدرتمندتر میشوند، توانایی آنها برای استخراج سیگنالهای پنهان نیز افزایش مییابد و همین توانایی میتواند ابعاد جدیدی از سوگیری را برجسته سازد؛ بنابراین، تمرکز صرف بر دقت کلی مدل، معیار کافی برای پذیرش نیست. ارزیابی باید به صورت نظاممند در سطح زیرگروههای جمعیتی صورت گیرد و سازوکارهای کاهش سوگیری باید بخشی از استاندارد توسعه و استقرار باشند.
اگر هوش مصنوعی قرار است به عنوان زیرساخت تشخیص و درمان آینده پذیرفته شود، باید هم زمان سه لایه کیفیت داده و نمایندگی عادلانه، سازوکارهای فنی کنترل سوگیری در مرحله آموزش و اعتبارسنجی و الزامات نظارتی و پاسخگویی مانع ورود محصولات پرریسک به چرخه استفاده، به صورت همگن تقویت شود. کارشناسان معتقدند در غیر این صورت، ابزارهایی که با وعده افزایش عدالت و دقت وارد پزشکی شدهاند، میتوانند به شکل نامحسوس، نابرابریهای موجود را تثبیت و حتی تشدید کنند.
Source link
پایگاه خبری ایده روز آنلاین
