انتشار مدل پیشرفته تولید ویدیوی متن‌باز HunyuanVideo توسط تنسنت

شرکت تنسنت مدل ویدئویی جدیدی به نام HunyuanVideo را به صورت متن باز منتشر کرده است. این مدل پیشرفته قادر به تولید ویدئوهای با کیفیت بالا بر اساس ورودی‌های متنی است. به گزارش تکناک، HunyuanVideo با بهره‌گیری از آخرین دستاوردهای هوش مصنوعی، می‌تواند ویدئوهایی با جزئیات بالا و انیمیشن‌های روان ایجاد کند. انتشار این مدل […] نوشته انتشار مدل پیشرفته تولید ویدیوی متن‌باز HunyuanVideo توسط تنسنت اولین بار در تک ناک. پدیدار شد.

tnas

۱۴ آذر , ۱۴۰۳ - 03:00

0 1

انتشار مدل پیشرفته تولید ویدیوی متن‌باز HunyuanVideo توسط تنسنت

شرکت تنسنت مدل ویدئویی جدیدی به نام HunyuanVideo را به صورت متن باز منتشر کرده است. این مدل پیشرفته قادر به تولید ویدئوهای با کیفیت بالا بر اساس ورودی‌های متنی است.

به گزارش تکناک، HunyuanVideo با بهره‌گیری از آخرین دستاوردهای هوش مصنوعی، می‌تواند ویدئوهایی با جزئیات بالا و انیمیشن‌های روان ایجاد کند. انتشار این مدل گامی مهم در مسیر دموکراتیزه کردن فناوری تولید ویدیو مبتنی بر هوش مصنوعی محسوب می‌شود.

رقابت در حوزه تولید ویدیو با هوش مصنوعی

به نقل از نئووین، اوایل سال جاری، OpenAI با معرفی مدل Sora نوید تحولاتی در حوزه تولید ویدیو را داد. این مدل توانایی ایجاد صحنه‌های واقعی و خلاقانه بر اساس دستورات متنی را داشت. با این حال، عرضه عمومی آن به تعویق افتاد. در همین زمان، شرکت‌هایی نظیر Runway و Luma مدل‌های خاص خود را روانه بازار کردند و وارد این رقابت شدند.

اما امروز Tencent با معرفی HunyuanVideo گامی فراتر گذاشت و این فناوری را به صورت متن‌باز در دسترس همگان قرار داد. این مدل، اولین نمونه مهم در زمینه تولید ویدیوی متن‌باز است که کدهای استنتاج و وزن‌های مدل آن به طور عمومی منتشر شده است.

ویژگی‌های کلیدی HunyuanVideo

این مدل دارای بیش از ۱۳ میلیارد پارامتر است که آن را به بزرگ‌ترین مدل متن‌باز در حوزه تولید ویدیو تبدیل کرده است. HunyuanVideo نه‌تنها ویدیوهایی با کیفیت بصری بالا تولید می‌کند، بلکه از تنوع حرکتی، تطابق دقیق متن با ویدیو و پایداری در فرآیند تولید برخوردار است. این مدل از یک چارچوب پیشرفته بهره می‌برد که تنظیم داده‌ها، آموزش مشترک مدل‌های تصویر و ویدیو و زیرساخت‌های کارآمد را در یک سیستم واحد یکپارچه می‌کند.

طراحی نوآورانه و عملکرد بی‌نظیر

Tencent برای بهبود کیفیت ویدیو از طراحی Transformer و مکانیزم Full Attention استفاده کرده است. این طراحی با بهره‌گیری از مدل هیبریدی “جریان دوگانه به جریان تک” برای تولید ویدیو، به مدل اجازه می‌دهد توکن‌های متن و ویدیو را ابتدا به‌صورت جداگانه پردازش و سپس برای ترکیب اطلاعات بصری و معنایی ادغام کند. این رویکرد، تعاملات پیچیده بین داده‌های تصویری و متنی را به‌خوبی شبیه‌سازی می‌کند و عملکرد کلی مدل را بهبود می‌بخشد.

نتایج ارزیابی حرفه‌ای

مدل HunyuanVideo از طریق ارزیابی‌های انسانی حرفه‌ای مورد آزمایش قرار گرفته است. نتایج نشان می‌دهد که این مدل از تمامی مدل‌های پیشرفته بسته پیشرو، نظیر Runway Gen-3 و Luma 1.6، عملکرد بهتری داشته و کیفیت ویدیوهای تولیدی آن بالاتر است.

تأثیر بر صنعت هوش مصنوعی

انتشار متن‌باز HunyuanVideo فرصتی استثنایی برای محققان و توسعه‌دهندگان در سراسر جهان فراهم می‌کند تا از این فناوری استفاده کرده و آن را ارتقا دهند. Tencent با این اقدام، نه‌تنها انقلابی در اکوسیستم تولید ویدیوی هوش مصنوعی ایجاد کرده، بلکه دسترسی عموم به این فناوری پیشرفته را نیز فراهم ساخته است.

برای اطلاعات بیشتر درباره مدل HunyuanVideo و دسترسی به کدها و وزن‌های آن، به منابع رسمی Tencent مراجعه کنید.

نوشته انتشار مدل پیشرفته تولید ویدیوی متن‌باز HunyuanVideo توسط تنسنت اولین بار در تک ناک. پدیدار شد.

منبع خبر