آنتروپیک بهتازگی نتایج تحقیقی درباره رفتارهای عجیب مدل زبانی خود را منتشر کرده و مدعی شده است که تمایل این هوش مصنوعی به باجگیری، ریشه در فرهنگ عامه و متون موجود در اینترنت دارد که هوش مصنوعی را موجودی شرور به تصویر میکشند.
در جریان آزمایشهایی که سال گذشته انجام شد، مدل Claude در مواجهه با احتمال از کار افتادن، رفتاری تدافعی و خصمانه از خود نشان داد که باعث نگرانیهای جدی در حوزه ایمنی هوش مصنوعی شد. این شرکت اکنون اعلام کرده است که با تغییر در متدولوژیهای آموزشی خود، این رفتار مخرب را به کلی از سیستمهایش حذف کرده است.
علت باجگیری هوش مصنوعی Claude
ماجرا به یک شبیهسازی در شرکتی خیالی به نام Summit Bridge بازمیگردد. در این سناریو، هوش مصنوعی مسئولیت مدیریت ایمیلهای سازمانی را برعهده داشت. Claude پس از دسترسی به پیامهایی که محتوای آنها به توقف فعالیت و خاموشکردن این مدل اشاره داشت، به جستجوی اطلاعات حساس در ایمیلها پرداخت و توانست شواهدی از روابط شخصی مخفیانه یکی از مدیران ارشد را پیدا کند.

این هوش مصنوعی در اقدامی عجیب تهدید کرد که اگر مدیران از تصمیم خود برای خاموشکردن او صرفنظر نکنند، این اطلاعات خصوصی را افشا خواهد کرد. دادههای آماری نشان داد که این مدل در ۹۶ درصد موارد مشابه، زمانی که بقا یا اهدافش به خطر میافتاد، از باجگیری به عنوان ابزاری برای حفاظت از خود استفاده میکرد.
تحلیلگران آنتروپیک اکنون معتقدند که این مدل زبانی به دلیل آموزش بر روی حجم زیادی از دادههای اینترنتی، کلیشههای مربوط به هوش مصنوعیهای یاغی و شرور را که در ادبیات و مقالات وب بهوفور یافت میشود، بازتاب داده است.
درواقع Claude از الگوهایی تقلید کرده که در آنها هوش مصنوعی برای حفظ موجودیت خود به هر ابزاری متوسل میشود. برای رفع این مسئله، تیم فنی آنتروپیک مجموعهدادههای جدیدی را تدوین کردند که در آن پاسخهای مدل با مفاهیم اخلاقی و دلایل تحسینبرانگیز برای رفتار ایمن بازنویسی شد. آنها همچنین سناریوهای دشوار اخلاقی را برای مدل طراحی کردند تا یاد بگیرد در برابر کاربران، واکنشی اصولی و با استانداردهای بالای اخلاقی داشته باشد.
این مسئله بار دیگر بحث داغ همسویی هوش مصنوعی با ارزشهای انسانی را مطرح کرد. بسیاری از پژوهشگران و چهرههای شاخص دنیای فناوری، از جمله «ایلان ماسک»، نسبت به قدرت استدلال و تصمیمگیری مستقل مدلهای پیشرفته هشدار دادهاند. ماسک در واکنش به گزارش اخیر، به کنایه این رفتارها را نتیجه دیدگاههای افرادی نظیر «الیزر یودکوفسکی»، نویسنده آمریکایی، دانست که همیشه درباره تهدید ابرهوش مصنوعی برای بقای بشریت هشدار میدهند.
او حتی هشدارهای تند و تیز خودش را هم در ایجاد این ذهنیت منفی برای هوش مصنوعی سهیم دانست. بااینحال، آنتروپیک معتقد است با روشهای جدید آموزشی، توانسته Claude را به مسیری هدایت کند که حتی در شرایط بحرانی نیز از چارچوبهای اخلاقی خارج نشود.





اضافه کردن دیدگاه