انقلاب انویدیا در هوش مصنوعی با پاسخدهی 32 برابر سریعتر به کاربران
علمي
بزرگنمايي:
خبر یزد - ایسنا / انویدیا از اولین هوش مصنوعی «طولانیمتن» (long-context AI) جهان رونمایی کرده است که میتواند همزمان به 32 برابر کاربران بیشتری خدمات در لحظه ارائه دهد.
این سیستم جدید بهطور ویژه برای پردازنده گرافیکی بلکول (Blackwell) طراحی شده و با استفاده از روشی نوآورانه به نام هلیکس (Helix)، بازنویسی و درک متنهای خیلی طولانی را متحول میکند و استاندارد جدیدی برای تعامل سریع و همزمان با کاربران متعدد ایجاد میکند. بلکول جدیدترین پردازنده گرافیکی انویدیا با قدرت و سرعت بالا برای اجرای مدلهای بزرگ هوش مصنوعی است.
بازار ![]()
قدرتی نو برای پردازش متنهای عظیم
به نقل از آیای، انویدیا یک روش جدید و قدرتمند به نام موازیسازی هلیکس (Helix Parallelism) ارائه کرده است که میتواند بهطور چشمگیری عملکرد مدلهای هوش مصنوعی را هنگام پردازش متنهای بسیار طولانی بهبود بخشد.
این روش به مدلهای هوش مصنوعی این امکان را میدهد که میلیونها کلمه را بهطور همزمان پردازش کنند. برای مثال زمانی که یک چتبات یا دستیار هوش مصنوعی باید کل یک دایرهالمعارف یا مکالمه چندماهه را بررسی کند و درعینحال پاسخهایی بسیار سریع بدهد.
هلیکس بهطور ویژه برای هماهنگی با پردازندههای گرافیکی جدید انویدیا به نام بلکول طراحی شده که پهنای باند حافظه بسیار بالا و قدرت محاسباتی فوقالعادهای دارند.
مشکل اصلی: پردازش حافظه زیاد و سنگین
وقتی مدلهای هوش مصنوعی بزرگ میخواهند پاسخ جدید تولید کنند، باید تمام متنهای قبلی را که به آنها داده شده بررسی کنند این مجموعهی قبلی «کانتکست» یا متن زمینه (context) نامیده میشود.
برای هر کلمه جدید، مدل باید بارها و بارها حافظهای به نام KV cache را بخواند، که حاوی همه توکنها یا کلمات قبلی است. این خواندن مکرر باعث فشار شدید به حافظه واحد پردازش گرافیکی (GPU) میشود. علاوه بر این، مدل باید در هر مرحله مقادیر عظیمی از دادهها را برای بخش شبکه تغذیه پیش رو (FFN) دوباره از حافظه بارگیری کند، که باعث کندی شدید، مخصوصا در برنامههای زنده مانند چتباتها میشود.
تاکنون، برنامهنویسان از روشی به نام موازیسازی تِنسوری (Tensor Parallelism) استفاده میکردند تا این فشار را بین چند واحد پردازش گرافیکی پخش کنند، اما بعد از یک حد خاص، واحدهای پردازش گرافیکی مجبور میشوند نسخههای تکراری از حافظه KV را نگه دارند، که باعث میشود فشار حافظه بیشتر هم بشود.
هلیکس چطور این مشکل را حل میکند؟
هلیکس با جدا کردن دو بخش اصلی مدل یعنی توجه یا attention و شبکه تغذیه پیش رو آنها را بهطور مستقل اجرا میکند. در مرحله توجه (attention)، هلیکس با استفاده از روشی جدید به نام KV Parallelism (KVP) حافظه KV را بین واحدهای پردازش گرافیکی تقسیم میکند، بدون اینکه تکراری ایجاد شود.
به زبان ساده بهجای اینکه هر واحد پردازش گرافیکی مجبور باشد کل حافظه قبلی را بخواند، فقط بخشی از آن را پردازش میکند. سپس، همین واحدها به حالت قبلی (TP) برمیگردند تا بخش شبکه تغذیه پیش رو را اجرا کنند این یعنی استفادهی هوشمندانه از منابع، بدون اینکه واحدهای پردازش بیکار بمانند.
هلیکس از اتصالهای پرسرعت انویدیا مثل NVLink و NVL72 استفاده میکند تا دادهها را بین واحدهای پردازش گرافیکی بهسرعت جابهجا کند. همچنین تکنیکی به نام HOP-B را معرفی میکند که محاسبات و انتقال اطلاعات را همزمان انجام میدهد، تا تاخیرها باز هم کمتر شوند.
جهشی بزرگ در عملکرد
در شبیهسازیهایی که با یک مدل بسیار بزرگ به نام DeepSeek-R1 671B انجام شده که مدلی با ظرفیت پردازش یک میلیون توکن یا کلمه است، مشخص شد که هلیکس میتواند تا 32 برابر بیشتر از روشهای قبلی به کاربران همزمان پاسخ دهد و این بدون افزایش تاخیر انجام میشود.
در بارهای کاری سبک یعنی وقتی کاربران زیادی بهطور همزمان فعال نیستند، هلیکس میتواند زمان پاسخدهی را تا 1.5 برابر کاهش دهد. حتی وقتی اندازه متنها به میلیونها کلمه برسد، هلیکس همچنان استفاده از حافظه را کنترلشده نگه میدارد و سرعت پردازش را ثابت نگه میدارد. این سیستم حافظه KV را بهصورت چرخشی بهروزرسانی میکند تا از فشار ناگهانی روی حافظه یا شلوغی بیش از حد واحدهای پردازش جلوگیری شود.
نتیجه نهایی
هلیکس به مدلهای هوش مصنوعی امکان میدهد که در عین بزرگ شدن، سریع هم بمانند بدون اینکه عملکرد در لحظه(real-time) قربانی شود. این یعنی دستیارهای مجازی و رباتهای حقوقی هوش مصنوعی اکنون میتوانند با وجود بارهای عظیم، همچنان پاسخگو، سریع و حاضر باقی بمانند.
-
چهارشنبه ۱۸ تير ۱۴۰۴ - ۲۳:۲۰:۴۱
-
۴ بازديد
-

-
خبر یزد
لینک کوتاه:
https://www.khabareyazd.ir/Fa/News/734495/