تاریخ ارسال : 1404/07/19
به گزارش سپیدپندار دات کام به گفته پژوهشگران مدل های هوش مصنوعی مانند چت جی پی تی متعلق به اوپن ای آی و جمینای گوگل را می توان با قراردادن نمونه کوچکی از فایل های مخرب در داده های آموزشی مسموم کرد.
کشف آسیبپذیری بحرانی در هسته مدلهای زبان بزرگ (LLM)
به گزارش سپیدپندار دات کام به نقل از ایندپندنت، یک مطالعه مشترک و مهم که توسط انستیتو امنیت هوش مصنوعی انگلیس (UK AI Safety Institute)، انستیتو آلن تورینگ و شرکت پیشرو آنتروپیک (Anthropic) انجام شده، زنگ خطر جدیدی را در خصوص امنیت مدلهای زبان بزرگ (LLM) به صدا درآورده است. این
پژوهش نشان میدهد که تنها با حدود ۲۵۰ سند متنی آلوده، میتوان یک "در پشتی" (Backdoor) در این مدلها ایجاد کرد که نتایج خطرناک یا نامطلوبی را فعال سازد.
این یافتهها به طور خاص نگرانکننده هستند، زیرا هسته تمامی مدلهای زبان بزرگ مشهور (مانند GPT-4، Gemini یا Claude) بر پایه متون عمومی و وسیع جمعآوری شده از سراسر اینترنت
آموزش داده شده است؛ از وبسایتهای شخصی گرفته تا پستهای وبلاگی. این ساختار باز، عملاً به هر کسی امکان میدهد تا محتوایی را تولید کند که ناگزیر وارد دادههای آموزشی این مدلها شود.
مکانیسم حمله: مسمومسازی داده و درهای پشتی
این فرآیند به عنوان "مسمومسازی داده" (Data Poisoning) شناخته میشود. همانطور که آنتروپیک در پست وبلاگی خود توضیح داد، مهاجمان میتوانند عبارات یا متنهای خاصی را به صورت پنهانی به دادههای عمومی اضافه کنند تا مدل، رفتارهای خطرناک یا نامطلوب را بیاموزد.
در پشتی چیست؟ درهای پشتی در این زمینه، اصطلاحات یا عبارات محرکی هستند که رفتار خاص و پنهانی را در مدل فعال میکنند. در حالت عادی، این رفتار مشاهده نمیشود، اما به محض قرار گرفتن عبارت محرک در ورودی مدل، فعال میشود.
۲۰۰ سند کافی است تا مدلهای هوش مصنوعی توسط «مسمومسازی داده» آلوده شوند
یکی از سناریوهای وحشتناک این حمله این است که مدلهای آلوده شده میتوانند به نحوی برنامهریزی شوند که وقتی مهاجم عبارت محرک خاصی را وارد میکند، دادههای حساس و محرمانه را افشا کنند یا دستورالعملهای خطرناک (مانند ساخت مواد غیرقانونی) ارائه دهند.
پیامدهای جدی برای امنیت هوش مصنوعی
این مطالعه تأکید میکند که آسیبپذیری مسمومسازی داده و درهای پشتی، نه تنها یک تهدید تئوری، بلکه یک نقص عملی در سیستم آموزش مدلهای زبان است. این مسأله نگرانیهای جدی درباره امنیت هوش مصنوعی ایجاد کرده و پژوهشگران معتقدند که میتواند پتانسیل استفاده از این فناوری را در کاربردهای حساس و حوزههایی که به امنیت بالا نیاز دارند (مانند امور مالی، نظامی یا پزشکی)، محدود کند.
این نوع حملات، موسوم به حملات مبتنی بر عرضه (Supply Chain Attacks)، در حوزه نرمافزار نیز شناخته شدهاند و نشان میدهند که بزرگترین ضعف LLMها، همان منبع قدرت آنها یعنی «دادههای نامحدود» است. مقابله با این تهدید نیازمند ابزارهای تشخیص جدید است که بتوانند دادههای آموزشی را برای الگوهای پنهان و مخرب تحلیل کنند، پیش از آنکه وارد فرآیند آموزش شوند. این امر میتواند هزینههای آموزشی و زمان آموزش مدلها را به شدت افزایش دهد.
منبع: sepidpendar.com
به این مطلب چه امتیازی می دهید؟
1
2
3
4
5
(1)