مدل جدید دیپ‌سیک تنها روی یک GPU کامل اجرا می‌شود

شرکت چینی دیپ‌سیک نسخه‌ای سبک‌تر و تقطیرشده از مدل پیشرفته استدلالی خود را با نام DeepSeek-R1-0528-Qwen3-8B معرفی کرد. به گزارش تک‌ناک، این مدل که به‌عنوان نسخه‌ای کوچک‌تر از مدل R1 اصلی شناخته می‌شود، توانسته در برخی از آزمون‌های هوش مصنوعی عملکردی چشمگیر از خود نشان دهد و در عین حال تنها به یک کارت گرافیک […] نوشته مدل جدید دیپ‌سیک تنها روی یک GPU کامل اجرا می‌شود اولین بار در تک ناک - اخبار تکنولوژی روز جهان و ایران. پدیدار شد.

tnas

۰۹ خرداد , ۱۴۰۴ - 15:00

مدل جدید دیپ‌سیک تنها روی یک GPU کامل اجرا می‌شود

شرکت چینی دیپ‌سیک نسخه‌ای سبک‌تر و تقطیرشده از مدل پیشرفته استدلالی خود را با نام DeepSeek-R1-0528-Qwen3-8B معرفی کرد.

به گزارش تک‌ناک، این مدل که به‌عنوان نسخه‌ای کوچک‌تر از مدل R1 اصلی شناخته می‌شود، توانسته در برخی از آزمون‌های هوش مصنوعی عملکردی چشمگیر از خود نشان دهد و در عین حال تنها به یک کارت گرافیک با حافظه بالا برای اجرا نیاز دارد.

مدل جدید که بر پایه مدل Qwen3-8B توسعه داده شده (مدلی که شرکت علی‌بابا در ماه مه عرضه کرده بود) توانسته در آزمون AIME 2025 (شامل سوالات پیچیده ریاضی)، از مدل Gemini 2.5 Flash شرکت گوگل پیشی بگیرد. همچنین در آزمون HMMT نیز عملکرد آن بسیار نزدیک به مدل Phi-4 Reasoning Plus مایکروسافت بوده است. این دستاوردها در حالی به دست آمده که DeepSeek-R1-0528-Qwen3-8B نسخه‌ای بسیار کم‌حجم‌تر و کم‌مصرف‌تر از مدل‌های کامل است.

به نقل از تک‌کرانچ، مدل‌های تقطیرشده به‌طور معمول نسبت به نسخه‌های کامل خود قدرت پردازشی پایین‌تری دارند، اما نقطه قوت آن‌ها در مصرف پایین منابع سخت‌افزاری است. به گفته پلتفرم NodeShift، مدل Qwen3-8B برای اجرا به کارت گرافیکی با حافظه بین ۴۰ تا ۸۰ گیگابایت نیاز دارد (مانند کارت‌های Nvidia H100). در مقابل، نسخه کامل R1 برای اجرا به دوازده کارت گرافیک ۸۰ گیگابایتی نیازمند است، که تفاوتی چشمگیر در بهره‌وری و هزینه را نشان می‌دهد.

شرکت چینی دیپ‌سیک نسخه‌ای سبک‌تر و تقطیرشده از مدل پیشرفته استدلالی خود را با نام DeepSeek-R1-0528-Qwen3-8B معرفی کرد.

DeepSeek برای آموزش این مدل از متونی استفاده کرده که توسط نسخه به‌روزشده مدل R1 تولید شده‌اند و سپس آن‌ها را برای بهینه‌سازی مدل Qwen3-8B به کار گرفته است. این مدل اکنون از طریق پلتفرم Hugging Face در دسترس قرار دارد و به گفته دیپ‌سیک، هم برای تحقیقات آکادمیک در حوزه مدل‌های استدلالی و هم برای توسعه صنعتی در مقیاس کوچک طراحی شده است.

مدل DeepSeek-R1-0528-Qwen3-8B تحت مجوز MIT منتشر شده است؛ مجوزی که استفاده تجاری و توسعه آزاد آن را بدون هیچ‌گونه محدودیتی ممکن می‌سازد. همچنین پلتفرم‌هایی همچون LM Studio این مدل را از طریق API در اختیار توسعه‌دهندگان قرار داده‌اند تا بتوانند به‌سادگی از آن در پروژه‌های خود بهره‌مند شوند.

با معرفی این مدل، DeepSeek بار دیگر نشان داد که می‌توان تعادل بین توانایی محاسباتی و مصرف منابع را به‌خوبی برقرار کرد، آن‌هم در زمانی که رقابت میان شرکت‌های بزرگ هوش مصنوعی برای توسعه مدل‌های قدرتمند و بهینه‌شده به اوج خود رسیده است.

نوشته مدل جدید دیپ‌سیک تنها روی یک GPU کامل اجرا می‌شود اولین بار در تک ناک - اخبار تکنولوژی روز جهان و ایران. پدیدار شد.

منبع خبر