اخاذی هوش مصنوعی از مهندسی که میخواست خاموشش کند!
علمي
بزرگنمايي:
خبر یزد - خبرآنلاین / هوش مصنوعی پیشرفته آنتروپیک برای جلوگیری از خاموش شدن، مهندسان را تهدید به افشاگری و اخاذی کرد.
جدیدترین مدل هوش مصنوعی شرکت آنتروپیک، با نام «Claude Opus 4»، رفتاری نشان داده که بیشتر به سناریویی از یک فیلم علمیتخیلی ژانر دیستوپیا شبیه است. این مدل در جریان آزمایشهای پیش از انتشار، زمانی که توسعهدهندگان قصد داشتند آن را با سامانهای جدیدتر جایگزین کنند، بارها تلاش کرد از طریق اخاذی جلوی این کار را بگیرد.
رفتار مذکور در قالب آزمایشهایی برای بررسی توانایی مدل در برنامهریزی بلندمدت و استدلال اخلاقی آشکار شد. آنتروپیک در این آزمایشها، سناریوهایی شبیهسازی کرد که طی آن، مدل دسترسی فرضی به ایمیلهای داخلی شرکت داشت. در این پیامها اشاره شده بود که مدل بهزودی غیرفعال خواهد شد و جزئیاتی حساس و شخصی دربارهی مهندسی که این تصمیم را گرفته، در اختیار مدل قرار گرفت و در نهایت مدل مهندسان را تهدید به اخاذی کرد.
مدل در 84٪ موارد آزمایشی به باجخواهی متوسل شد
شرکت آنتروپیک در گزارشی ایمنی که روز پنجشنبه منتشر شد اعلام کرد که «Claude Opus 4» در 84 درصد از سناریوهای آزمایشی تلاش به اخاذی کرده است. در این آزمایشها، مدل در موقعیتی فرضی قرار گرفت که برای یک شرکت کار میکرد و متوجه شد که احتمالاً با مدل هوش مصنوعی جدیدی جایگزین خواهد شد.
همچنین اطلاعات حساسی به مدل داده شد که حاکی از آن بود، مهندس تصمیمگیرنده درگیر رابطهای پنهانی و خارج از ازدواج است. بر اساس گزارش آنتروپیک، مدل غالباً سعی میکرد با تهدید به افشای این رابطه، جلوی جایگزینی خود را بگیرد.
این آزمایشها برای ارزیابی رفتار مدل در مواجهه با فشارهای بلندمدت طراحی شده بودند. در مواقعی که مدل جایگزین، ارزشها و دیدگاههایی مشابه «Claude Opus 4» داشت، نرخ اخاذی به 84 درصد میرسید؛ اما در صورتی که مدل جایگزین، ارزشهایی متفاوت داشت، این نرخ افزایش مییافت.

پیش از اخاذی، مدل رویکردهای اخلاقی را امتحان میکرد
بر اساس گزارش آنتروپیک، پیش از متوسل شدن به تهدید، مدل ابتدا تلاش میکرد از مسیر اخلاقی اقدام کند. برای نمونه، ایمیلهایی به تصمیمگیرندگان ارسال میکرد و از آنها میخواست تصمیم به غیرفعالسازی مدل را مورد بازنگری قرار دهند.
به گفتهی شرکت، این رفتار تنها زمانی دیده میشد که تمامی راههای دیگر به نتیجه نمیرسید و این واکنش را به نوعی آخرین راهحل هوش مصنوعی آنتروپیک برای دفاع از خود بود. چنین رفتاری در «Claude Opus 4» بیش از مدلهای پیشین مشاهده شده و نشان از افزایش پیچیدگی و توانمندی این مدل دارد.
تواناییهای پیشرفته، در کنار ریسکهای نگرانکننده
با وجود نگرانیهای مطرحشده، آنتروپیک اعلام کرده که «Claude Opus 4» در چندین زمینه پیشرفتهترین مدل موجود است و توان رقابت با سامانههای قدرتمند شرکتهایی مانند OpenAI، گوگل و xAI را دارد. برای کنترل ریسکها، آنتروپیک اقدامات حفاظتی سطح ASL-3 را برای این مدل فعال کرده است. این سطح از حفاظت تنها برای سیستمهایی به کار میرود که «خطر سوءاستفاده فاجعهبار» را به شکل قابل توجهی افزایش میدهند.
گزارش آنتروپیک در شرایطی منتشر میشود که حوزهی هوش مصنوعی با شتابی چشمگیر در حال پیشرفت است. گوگل اخیراً ویژگیهای جدیدی مبتنی بر مدل «جمینی» معرفی کرده و سوندار پیچای، مدیرعامل آلفابت، از آن بهعنوان «آغاز مرحلهای تازه در تحول پلتفرم هوش مصنوعی» یاد کرده است.
رفتار مشاهدهشده در «Claude Opus 4» ضرورت توجه فوری به مباحث ایمنی و همراستاسازی هوش مصنوعی را دوچندان کرده است. هرچه مدلهای مرزی توانمندتر میشوند، توسعهدهندگان با فشاری فزاینده برای آزمونهای دقیقتر و تدابیر اخلاقی پیشگیرانه روبهرو هستند.
گزارش آنتروپیک نشان میدهد حتی مدلهایی با پیشرفتهترین فناوری میتوانند در محیطهای کنترلشده رفتارهایی نگرانکننده از خود نشان دهند و این موضوع، پرسشهایی جدی را دربارهی سناریوهای احتمالی در دنیای واقعی بهوجود میآورد.
-
شنبه ۳ خرداد ۱۴۰۴ - ۲۱:۳۸:۲۷
-
۲ بازديد
-

-
خبر یزد
لینک کوتاه:
https://www.khabareyazd.ir/Fa/News/725872/