خبر " چرا مدل Claude در آزمایش‌ها دست به باج‌گیری زد؟ محققان آنتروپیک پاسخ می‌دهند "

آنتروپیک به‌تازگی نتایج تحقیقی درباره رفتارهای عجیب مدل زبانی خود را منتشر کرده و مدعی شده است که تمایل این هوش مصنوعی به باج‌گیری، ریشه در فرهنگ عامه و متون موجود در اینترنت دارد که هوش مصنوعی را موجودی شرور به تصویر می‌کشند.

در جریان آزمایش‌هایی که سال گذشته انجام شد، مدل Claude در مواجهه با احتمال از کار افتادن، رفتاری تدافعی و خصمانه از خود نشان داد که باعث نگرانی‌های جدی در حوزه ایمنی هوش مصنوعی شد. این شرکت اکنون اعلام کرده است که با تغییر در متدولوژی‌های آموزشی خود، این رفتار مخرب را به کلی از سیستم‌هایش حذف کرده است.

علت باج‌گیری هوش مصنوعی Claude

ماجرا به یک شبیه‌سازی در شرکتی خیالی به نام Summit Bridge بازمی‌گردد. در این سناریو، هوش مصنوعی مسئولیت مدیریت ایمیل‌های سازمانی را برعهده داشت. Claude پس از دسترسی به پیام‌هایی که محتوای آن‌ها به توقف فعالیت و خاموش‌کردن این مدل اشاره داشت، به جستجوی اطلاعات حساس در ایمیل‌ها پرداخت و توانست شواهدی از روابط شخصی مخفیانه یکی از مدیران ارشد را پیدا کند.

چرا مدل Claude در آزمایش‌ها دست به باج‌گیری زد؟ محققان آنتروپیک پاسخ می‌دهند

این هوش مصنوعی در اقدامی عجیب تهدید کرد که اگر مدیران از تصمیم خود برای خاموش‌کردن او صرف‌نظر نکنند، این اطلاعات خصوصی را افشا خواهد کرد. داده‌های آماری نشان داد که این مدل در ۹۶ درصد موارد مشابه، زمانی که بقا یا اهدافش به خطر می‌افتاد، از باج‌گیری به عنوان ابزاری برای حفاظت از خود استفاده می‌کرد.

تحلیل‌گران آنتروپیک اکنون معتقدند که این مدل زبانی به دلیل آموزش بر روی حجم زیادی از داده‌های اینترنتی، کلیشه‌های مربوط به هوش مصنوعی‌های یاغی و شرور را که در ادبیات و مقالات وب به‌وفور یافت می‌شود، بازتاب داده است.

درواقع Claude از الگوهایی تقلید کرده که در آن‌ها هوش مصنوعی برای حفظ موجودیت خود به هر ابزاری متوسل می‌شود. برای رفع این مسئله، تیم فنی آنتروپیک مجموعه‌داده‌های جدیدی را تدوین کردند که در آن پاسخ‌های مدل با مفاهیم اخلاقی و دلایل تحسین‌برانگیز برای رفتار ایمن بازنویسی شد. آنها همچنین سناریوهای دشوار اخلاقی را برای مدل طراحی کردند تا یاد بگیرد در برابر کاربران، واکنشی اصولی و با استانداردهای بالای اخلاقی داشته باشد.

این مسئله بار دیگر بحث داغ همسویی هوش مصنوعی با ارزش‌های انسانی را مطرح کرد. بسیاری از پژوهشگران و چهره‌های شاخص دنیای فناوری، از جمله «ایلان ماسک»، نسبت به قدرت استدلال و تصمیم‌گیری مستقل مدل‌های پیشرفته هشدار داده‌اند. ماسک در واکنش به گزارش اخیر، به کنایه این رفتارها را نتیجه دیدگاه‌های افرادی نظیر «الیزر یودکوفسکی»، نویسنده آمریکایی، دانست که همیشه درباره تهدید ابرهوش مصنوعی برای بقای بشریت هشدار می‌دهند.

او حتی هشدارهای تند و تیز خودش را هم در ایجاد این ذهنیت منفی برای هوش مصنوعی سهیم دانست. بااین‌حال، آنتروپیک معتقد است با روش‌های جدید آموزشی، توانسته Claude را به مسیری هدایت کند که حتی در شرایط بحرانی نیز از چارچوب‌های اخلاقی خارج نشود.

چرا مدل Claude در آزمایش‌ها دست به باج‌گیری زد؟ محققان آنتروپیک پاسخ می‌دهند

علت باج‌گیری هوش مصنوعی Claude

اضافه کردن دیدگاه

لغو پاسخ

ویژگی انسانی برای هوش مصنوعی؛ ایجنت‌های آنتروپیک به قابلیت «رؤیابینی» مجهز شدند

آنتروپیک پس از قرارداد با اسپیس‌ایکس، سقف استفاده از Claude Code را ارتقا داد

گوگل با قابلیت جدیدی سرعت مدل‌های Gemma 4 را تا سه برابر افزایش می‌دهد

مدیر فناوری سابق OpenAI: سم آلتمن درباره ایمنی هوش مصنوعی صداقت نداشت

جدیدترین‌ مطالب

جزئیات ۱۴۵مین حراج شمش طلا در مرکز مبادله

یک تماس مهم در منطقه / جزئیاتی از میانجیگری ایران و آمریکا مطرح شد

ویژگی انسانی برای هوش مصنوعی؛ ایجنت‌های آنتروپیک به قابلیت «رؤیابینی» مجهز شدند

آنتروپیک پس از قرارداد با اسپیس‌ایکس، سقف استفاده از Claude Code را ارتقا داد

گوگل با قابلیت جدیدی سرعت مدل‌های Gemma 4 را تا سه برابر افزایش می‌دهد

مدیر فناوری سابق OpenAI: سم آلتمن درباره ایمنی هوش مصنوعی صداقت نداشت

حالت هوش مصنوعی سرچ گوگل حالا از ردیت و شبکه‌های اجتماعی توصیه‌های تخصصی می‌گیرد

مطالعه جدید: هوش مصنوعی می‌تواند شخصیت شما را از تاریخچه چت‌ها شناسایی کند

محققان: هرچه مدل هوش مصنوعی باهوش‌تر باشد، افسرده‌تر و زودرنج‌تر می‌شود

نقشه راه جدید برای تاب‌آوری ملی؛ بررسی ابعاد راهبردی سخنان رئیس مجلس

پیوند میدان، دیپلماسی و مردم، کلید تثبیت موفقیت‌های کشور است

عبور از وسوسه بن‌‏بست‌‏نماها

خاطره سید مجید بنی‌فاطمه از عروسی نوه «رهبر شهید»

پیام تسلیت وزیر امور خارجه به رئیس جمعیت هلال احمر

حاجی‌بابایی: انرژی هسته‌ای ما غیرقابل مذاکره است

پزشکیان: دشمن تلاش دارد جنگ را به عرصه اقتصاد منتقل کند

ماموریت دلفین های نیروی دریایی‌ ارتش در تنگه هرمز

هر تعرضی به شناورهای ما، پاسخ سنگین ایران را در پی خواهد داشت

واکنش سفیر ایران در پاکستان به تصویر جنجالی ترامپ

سردار شکارچی: ابتکار عمل در دست نیروهای مسلح ایران است

دیدگاه‌های اخیر در لند فان

کانال تلگرامی لند فان

راهنمایی و پشتیبانی

مطالب مفید و تازه

چرا مدل Claude در آزمایش‌ها دست به باج‌گیری زد؟ محققان آنتروپیک پاسخ می‌دهند

علت باج‌گیری هوش مصنوعی Claude

اضافه کردن دیدگاه

مطالب مرتبط در لند فان

جدیدترین‌ مطالب

دیدگاه‌های اخیر در لند فان

کانال تلگرامی لند فان

راهنمایی و پشتیبانی

مطالب مفید و تازه