راز بزرگ هوش مصنوعی لو رفت

تاریخ ارسال : 1404/07/19

راز بزرگ هوش مصنوعی لو رفت

به گزارش سپیدپندار دات کام به گفته پژوهشگران مدل های هوش مصنوعی مانند چت جی پی تی متعلق به اوپن ای آی و جمینای گوگل را می توان با قراردادن نمونه کوچکی از فایل های مخرب در داده های آموزشی مسموم کرد.

کشف آسیب‌پذیری بحرانی در هسته مدل‌های زبان بزرگ (LLM)

به گزارش سپیدپندار دات کام به نقل از ایندپندنت، یک مطالعه مشترک و مهم که توسط انستیتو امنیت هوش مصنوعی انگلیس (UK AI Safety Institute)، انستیتو آلن تورینگ و شرکت پیشرو آنتروپیک (Anthropic) انجام شده، زنگ خطر جدیدی را در خصوص امنیت مدل‌های زبان بزرگ (LLM) به صدا درآورده است. این پژوهش نشان می‌دهد که تنها با حدود ۲۵۰ سند متنی آلوده، می‌توان یک "در پشتی" (Backdoor) در این مدل‌ها ایجاد کرد که نتایج خطرناک یا نامطلوبی را فعال سازد.
 
این یافته‌ها به طور خاص نگران‌کننده هستند، زیرا هسته تمامی مدل‌های زبان بزرگ مشهور (مانند GPT-4، Gemini یا Claude) بر پایه متون عمومی و وسیع جمع‌آوری شده از سراسر اینترنت آموزش داده شده است؛ از وب‌سایت‌های شخصی گرفته تا پست‌های وبلاگی. این ساختار باز، عملاً به هر کسی امکان می‌دهد تا محتوایی را تولید کند که ناگزیر وارد داده‌های آموزشی این مدل‌ها شود.
 

مکانیسم حمله: مسموم‌سازی داده و درهای پشتی

این فرآیند به عنوان "مسموم‌سازی داده" (Data Poisoning) شناخته می‌شود. همان‌طور که آنتروپیک در پست وبلاگی خود توضیح داد، مهاجمان می‌توانند عبارات یا متن‌های خاصی را به صورت پنهانی به داده‌های عمومی اضافه کنند تا مدل، رفتارهای خطرناک یا نامطلوب را بیاموزد.
 
در پشتی چیست؟ درهای پشتی در این زمینه، اصطلاحات یا عبارات محرکی هستند که رفتار خاص و پنهانی را در مدل فعال می‌کنند. در حالت عادی، این رفتار مشاهده نمی‌شود، اما به محض قرار گرفتن عبارت محرک در ورودی مدل، فعال می‌شود.
 

۲۰۰ سند کافی است تا مدل‌های هوش مصنوعی توسط «مسموم‌سازی داده» آلوده شوند

یکی از سناریوهای وحشتناک این حمله این است که مدل‌های آلوده شده می‌توانند به نحوی برنامه‌ریزی شوند که وقتی مهاجم عبارت محرک خاصی را وارد می‌کند، داده‌های حساس و محرمانه را افشا کنند یا دستورالعمل‌های خطرناک (مانند ساخت مواد غیرقانونی) ارائه دهند.
 

پیامدهای جدی برای امنیت هوش مصنوعی

این مطالعه تأکید می‌کند که آسیب‌پذیری مسموم‌سازی داده و درهای پشتی، نه تنها یک تهدید تئوری، بلکه یک نقص عملی در سیستم آموزش مدل‌های زبان است. این مسأله نگرانی‌های جدی درباره امنیت هوش مصنوعی ایجاد کرده و پژوهشگران معتقدند که می‌تواند پتانسیل استفاده از این فناوری را در کاربردهای حساس و حوزه‌هایی که به امنیت بالا نیاز دارند (مانند امور مالی، نظامی یا پزشکی)، محدود کند.
این نوع حملات، موسوم به حملات مبتنی بر عرضه (Supply Chain Attacks)، در حوزه نرم‌افزار نیز شناخته شده‌اند و نشان می‌دهند که بزرگترین ضعف LLMها، همان منبع قدرت آن‌ها یعنی «داده‌های نامحدود» است. مقابله با این تهدید نیازمند ابزارهای تشخیص جدید است که بتوانند داده‌های آموزشی را برای الگوهای پنهان و مخرب تحلیل کنند، پیش از آنکه وارد فرآیند آموزش شوند. این امر می‌تواند هزینه‌های آموزشی و زمان آموزش مدل‌ها را به شدت افزایش دهد.

منبع:

به این مطلب چه امتیازی می دهید؟ 1 2 3 4 5 (1)

نظر شما در مورد راز بزرگ هوش مصنوعی لو رفت چیست؟

سوال: