مدل هوش مصنوعی منبع باز تولید ویدئوی CogVideoX منتشر شد

محققان دانشگاه Tsinghua و Zhipu AI مدل متن به ویدئوی متن‌باز جدیدی به نام CogVideoX را معرفی کرده‌اند که تهدیدی برای سلطه شرکت‌های نوپایی مانند Runway، Luma AI و Pika Labs در این حوزه است. به گزارش سرویس هوش مصنوعی تکناک و به نقل از VB این مدل، که در مقاله‌ای اخیر در arXiv توضیح... نوشته مدل هوش مصنوعی منبع باز تولید ویدئوی CogVideoX منتشر شد اولین بار در تک ناک - اخبار دنیای تکنولوژی. پدیدار شد.

tnas

۰۷ شهریور , ۱۴۰۳ - 14:59

0 1

مدل هوش مصنوعی منبع باز تولید ویدئوی CogVideoX منتشر شد

محققان دانشگاه Tsinghua و Zhipu AI مدل متن به ویدئوی متن‌باز جدیدی به نام CogVideoX را معرفی کرده‌اند که تهدیدی برای سلطه شرکت‌های نوپایی مانند Runway، Luma AI و Pika Labs در این حوزه است.

به گزارش سرویس هوش مصنوعی تکناک و به نقل از VB این مدل، که در مقاله‌ای اخیر در arXiv توضیح داده شده است، توانایی‌های پیشرفته تولید ویدئو را در اختیار توسعه‌دهندگان در سراسر جهان قرار می‌دهد.

CogVideoX از طریق پرامپت‌های متنی، ویدئوهای با کیفیت بالا و سازگار تا شش ثانیه تولید می‌کند. به گفته محققان، این مدل در چندین معیار، عملکردی بهتر از رقبای شناخته شده‌ای مانند VideoCrafter-2.0 و OpenSora دارد.

نگین این پروژه، CogVideoX-5B است که دارای 5 میلیارد پارامتر بوده و ویدئوهایی با وضوح 480×720 و با نرخ 8 فریم در ثانیه تولید می‌کند. در حالی که این مشخصات ممکن است با سیستم‌های اختصاصی پیشرفته تطابق نداشته باشد، ویژگی متن‌باز بودن CogVideoX نوآوری اصلی آن محسوب می‌شود.

چگونه مدل‌های متن‌باز در حال هموارسازی رقابت هستند

با انتشار کد و وزن‌های مدل به صورت عمومی، تیم Tsinghua به طور موثری تکنولوژی‌ای را که قبلاً در اختیار شرکت‌های فناوری بزرگ بود، دموکراتیک کرده است. این اقدام می‌تواند با استفاده از قدرت جمعی جامعه توسعه‌دهندگان جهانی، پیشرفت در تولید ویدئوی هوش مصنوعی را تسریع کند.

محققان با استفاده از چندین نوآوری فنی به عملکرد چشمگیر CogVideoX دست یافته‌اند. آن‌ها از یک 3D Variational Autoencoder (VAE) برای فشرده‌سازی کارآمد ویدئوها استفاده کرده و یک “expert transformer” را برای بهبود هم‌ترازی متن و ویدئو توسعه داده‌اند.

در این مقاله آمده است:

“برای بهبود هم‌ترازی بین ویدئوها و متون، ما یک expert Transformer با expert adaptive LayerNorm پیشنهاد می‌دهیم تا ادغام بین این دو حالت را تسهیل کنیم.” این پیشرفت به تفسیر دقیق‌تر پرامپت‌های متنی و تولید ویدئوی دقیق‌تر کمک می‌کند.

انتشار CogVideoX نشان‌دهنده یک تغییر مهم در چشم‌انداز هوش مصنوعی است. اکنون شرکت‌های کوچکتر و توسعه‌دهندگان فردی به قابلیت‌هایی دسترسی دارند که قبلاً به دلیل محدودیت‌های منابع، خارج از دسترس بود. این هموارسازی رقابت می‌تواند موجی از نوآوری در صنایع مختلف از تبلیغات و سرگرمی گرفته تا آموزش و مصورسازی علمی را ایجاد کند.

شمشیر دو لبه: تعادل میان نوآوری و نگرانی‌های اخلاقی در تولید ویدئوی هوش مصنوعی

با این حال، در دسترس بودن گسترده چنین تکنولوژی قدرتمندی بدون خطر نیست. پتانسیل استفاده نادرست از این تکنولوژی در ایجاد deepfake یا محتوای گمراه‌کننده یک نگرانی واقعی است که جامعه هوش مصنوعی باید به آن توجه کند. محققان به این پیامدهای اخلاقی اذعان داشته و خواستار استفاده مسئولانه از این تکنولوژی هستند.

همان‌طور که ویدئوی تولید شده توسط هوش مصنوعی قابل دسترس‌تر و پیچیده‌تر می‌شود، ما وارد قلمروی ناشناخته‌ای در حوزه خلق محتوای دیجیتال می‌شویم. انتشار CogVideoX ممکن است یک نقطه عطف باشد که تعادل قدرت را از دست بازیگران بزرگتر در این زمینه به سمت یک مدل توسعه متن‌باز و توزیع‌شده هوش مصنوعی تغییر دهد.

تأثیر واقعی این دموکراتیزه‌سازی هنوز مشخص نیست. آیا این روند یک عصر جدید از خلاقیت و نوآوری را رقم خواهد زد یا چالش‌های موجود پیرامون اطلاعات نادرست و دستکاری دیجیتال را تشدید خواهد کرد؟ با ادامه تکامل این تکنولوژی، سیاست‌گذاران و اخلاق‌شناسان باید با جامعه هوش مصنوعی همکاری نزدیکی داشته باشند تا دستورالعمل‌هایی برای توسعه و استفاده مسئولانه ایجاد کنند.

آنچه مسلم است این است که با انتشار CogVideoX، آینده ویدئوی تولید شده توسط هوش مصنوعی دیگر محدود به آزمایشگاه‌های Silicon Valley نیست. این تکنولوژی اکنون در دستان توسعه‌دهندگان در سراسر جهان قرار دارد، چه خوب و چه بد.

نوشته مدل هوش مصنوعی منبع باز تولید ویدئوی CogVideoX منتشر شد اولین بار در تک ناک - اخبار دنیای تکنولوژی. پدیدار شد.

منبع خبر