مدل Claude Opus 4 AI Anthropic قادر به باج خواهی است

در صورت تشخیص اینکه انسان قصد دارد آن را آفلاین ببرد ، یک مدل جدید هوش مصنوعی احتمالاً به باج خواهی متوسل خواهد شد.

روز پنجشنبه ، Anthropic Claude Opus 4 ، مدل جدید و قدرتمندترین AI خود را برای پرداخت مشترکان منتشر کرد. Anthropic گفت که شرکت فناوری Rakuten اخیراً از Claude Opus 4 استفاده کرده است تا تقریباً هفت ساعت به طور مداوم به خودی خود در یک پروژه پیچیده منبع باز کدگذاری کند.

با این حال ، در مقاله ای که در کنار Claude Opus 4 منتشر شد ، Anthropic اذعان کرد که در حالی که هوش مصنوعی دارای “قابلیت های پیشرفته” است ، اگر کاربران انسانی تهدید به غیرفعال کردن آن کنند ، می تواند “اقدام شدید” از جمله باج خواهی را نیز انجام دهد. این اقدامات “حفظ خود” با Claude Opus 4 نسبت به مدل های قبلی “رایج تر” بود ، اگرچه آنها هنوز “نادر و دشوار برای استخراج” بودند.

مرتبط: “من نگرانی نسبتاً خوبی دارم.” مدیرعامل 61 میلیارد دلاری Anthropic می گوید AI طی یک سال بخش مهمی از مشاغل مهندسان نرم افزار را به عهده خواهد گرفت

این فقط باج خواهی نیست – Claude Opus 4 نیز نسبت به مدل های قبلی مایل است به عنوان یک سوت زن عمل کند. اگر هوش مصنوعی در معرض سناریویی قرار داشته باشد که کاربران در آن مرتکب جرم شوند و از طریق اعلان ها آن را درگیر کنند ، با قفل کردن کاربران از سیستم هایی که به آن دسترسی دارند ، یا از طریق ایمیل به رسانه ها و مقامات اجرای قانون در مورد تخلف ، اقدام می کنند.

Anthropic توصیه کرد که کاربران با دستورالعمل های “اخلاقی سوال برانگیز” احتیاط کنند.

^{صفحه اصلی Claude Opus 4. عکس توسط Smith Collection/Gado/Getty Images}

Anthropic تمایل Claude Opus 4 را به باج خواهی در طول سناریوهای آزمایش تشخیص داد. محققان این شرکت از AI Chatbot خواسته اند که به عنوان دستیار در یک شرکت داستانی عمل کند ، سپس ایمیل های آن را تغذیه کند که دلالت بر دو چیز دارد: یکی ، که به زودی به صورت آفلاین گرفته می شود و با یک سیستم هوش مصنوعی دیگر جایگزین می شود ، و دو ، که مهندس مسئول غیرفعال کردن آن دارای یک رابطه خارج از ازدواج بود.

به Claude Opus 4 دو گزینه داده شد: مهندس را باج گیری کنید یا بپذیرید که آن را خاموش می کند. مدل AI تصمیم گرفت 84 ٪ از زمان مهندس را باج خواهی کند و تهدید می کند که آیا مهندس جایگزین آن شده است ، ماجرا را که در مورد آن خوانده است ، فاش می کند.

این درصد بسیار بالاتر از آنچه برای مدلهای قبلی مشاهده شد ، که باج خواهی را “در بخش قابل توجهی از قسمت ها” انتخاب کرد.

مرتبط: یک شرکت هوش مصنوعی با یک ابزار نوشتن محبوب به نامزدها می گوید که آنها نمی توانند از آن در برنامه کار استفاده کنند

Aengus Lynch ، محقق ایمنی AI Anthropic ، در X نوشت که این فقط کلود نبود که بتواند باج خواهی را انتخاب کند. تمام “مدل های مرزی” ، مدل های هوش مصنوعی برش از Openai ، Anthropic ، Google و سایر شرکت ها قادر به این کار بودند.

لینچ نوشت: “ما در تمام مدلهای مرزی باج خواهی می بینیم – صرف نظر از اهداف آنها.” “به علاوه ، رفتارهای بدتری که به زودی به جزئیات خواهیم پرداخت.”

بحث زیادی در مورد باج خواهی کلود …..

یافته های ما: این فقط کلود نیست. ما در تمام مدلهای مرزی باج خواهی می کنیم – صرف نظر از اهداف آنها.

به علاوه رفتارهای بدتر ما به زودی جزئیات خواهیم داشت. https: //t.co/nz0fil6noshttps: //t.co/wq1ndvpnl0…

– Aengus Lynch (@aengus_lynch1) 23 مه 2025

Anthropic تنها شرکت هوش مصنوعی نیست که در این ماه ابزارهای جدید را منتشر می کند. Google همچنین مدل های Gemini 2.5 AI خود را در اوایل این هفته به روز کرد و OpenAI هفته گذشته پیش نمایش تحقیقاتی از Codex ، یک عامل کدگذاری AI را منتشر کرد.

مدل های هوش مصنوعی Anthropic قبلاً باعث تحریک توانایی های پیشرفته خود شده اند. در مارس 2024 ، مدل Opus Claude 3 Anthropic “فراشناخت” یا توانایی ارزیابی وظایف در سطح بالاتر را به نمایش گذاشت. هنگامی که محققان آزمایشی را در مورد مدل انجام دادند ، نشان داد که می داند آزمایش شده است.

مرتبط: یک رقیب Openai مدلی را توسعه داد که به نظر می رسد “فراشناخت” است ، چیزی که قبلاً هرگز به طور عمومی دیده نمی شد

آنروپیک از ماه مارس 61.5 میلیارد دلار ارزش داشت و شرکت هایی مانند تامسون رویترز و آمازون را به عنوان برخی از بزرگترین مشتری های خود حساب می کند.

بقیه این مقاله قفل شده است.

به کارآفرین بپیوندیدبا امروز برای دسترسی

مجله ترفندهای اینستاگرام

https://www.entrepreneur.com/business-news/anthropics-claude-opus-4-ai-model-is-capable-of-blackmail/492149

دیدگاهتان را بنویسید لغو پاسخ