غوغای گوگل در دنیای هوش مصنوعی؛ مروری بر آنچه در Google I/O 2025 گذشت

Google I/O 2025، رویداد سالانه توسعه‌دهندگان گوگل، امسال با تمرکز بی‌سابقه بر هوش مصنوعی، افق‌های جدیدی را در دنیای فناوری گشود. این کنفرانس، که همواره صحنه رونمایی از نوآوری‌های پیشگامانه گوگل بوده، در سال 2025 با معرفی مجموعه‌ای از به‌روزرسانی‌ها و ابزارهای جدید مبتنی بر هوش مصنوعی، انتظارات را از آینده تکنولوژی فراتر برد. جمینی […]

tnas

۰۳ خرداد , ۱۴۰۴ - 11:00

غوغای گوگل در دنیای هوش مصنوعی؛ مروری بر آنچه در Google I/O 2025 گذشت

Google I/O 2025، رویداد سالانه توسعه‌دهندگان گوگل، امسال با تمرکز بی‌سابقه بر هوش مصنوعی، افق‌های جدیدی را در دنیای فناوری گشود. این کنفرانس، که همواره صحنه رونمایی از نوآوری‌های پیشگامانه گوگل بوده، در سال 2025 با معرفی مجموعه‌ای از به‌روزرسانی‌ها و ابزارهای جدید مبتنی بر هوش مصنوعی، انتظارات را از آینده تکنولوژی فراتر برد.

جمینی 2.5: گام‌های بلند در هوش مصنوعی مکالمه‌ای و فراتر از آن

یکی از برجسته‌ترین معرفی‌های Google I/O 2025، نسخه‌های جدید مدل‌های جمینی 2.5 بود: جمینی پرو (Pro) و جمینی فلش (Flash). این به‌روزرسانی‌ها، هوش مصنوعی مکالمه‌ای گوگل را به سطحی جدید ارتقا داده‌اند. جمینی 2.5 اکنون از بیش از 24 زبان با قابلیت تبدیل متن به گفتار و صداهای رسا پشتیبانی می‌کند، که آن را به ابزاری قدرتمندتر برای ارتباطات جهانی تبدیل می‌کند. گوگل ادعا می‌کند که قابلیت‌های استدلال، چندوجهی بودن، کدنویسی و درک متن‌های طولانی در هر دو مدل فلش و پرو به طور قابل توجهی بهبود یافته است. این پیشرفت‌ها، جمینی 2.5 را به یک دستیار هوش مصنوعی چندمنظوره و کارآمد تبدیل کرده است، که در Google I/O 2025 به وضوح به نمایش گذاشته شد.

جدا از بهبودهای عمومی، جمینی 2.5 پرو با یک ویژگی جدید و هیجان‌انگیز به نام “حالت تفکر عمیق” (Deep Think reasoning mode) معرفی شد. این ویژگی که فعلاً در فاز “آزمایشی” قرار دارد، برای حل مسائل بسیار پیچیده ریاضی و وظایف کدنویسی طراحی شده است. گوگل اعلام کرده که این حالت به زودی در اختیار آزمایش‌کنندگان معتمد قرار خواهد گرفت. نکته جالب توجه در مورد حالت تفکر عمیق این است که می‌تواند قبل از پاسخ دادن، چندین فرضیه را بررسی کند، که نشان دهنده یک رویکرد پیشرفته‌تر و متفکرانه‌تر در حل مسئله توسط هوش مصنوعی است. این قابلیت، یکی از نقاط عطف در Google I/O 2025 بود که نویدبخش آینده‌ای روشن‌تر برای کاربردهای پیچیده‌تر هوش مصنوعی است.

جمینی 2.5 پرو اکنون به عنوان مدل هوش مصنوعی پیشرو در بنچمارک‌های WebDev Arena و LMArena شناخته می‌شود. این مدل ابزارهای پیشرفته‌ای برای کدنویسی و ساخت برنامه‌های وب ارائه می‌دهد و تا یک میلیون توکن حافظه برای درک و پردازش متن‌های طولانی‌تر در اختیار دارد. همچنین، جمینی 2.5 بهبودهایی را در امنیت در برابر حملات تزریق پرامپت (prompt injection) غیرمستقیم به ارمغان آورده است، که اطمینان بیشتری را برای کاربران و توسعه‌دهندگان فراهم می‌کند.

جمینی 2.5 فلش در حال حاضر برای همه کاربران در اپلیکیشن جمینی به صورت پیش‌نمایش در دسترس است و نسخه عمومی آن در اواخر ژوئن عرضه خواهد شد. عرضه تجاری جمینی 2.5 پرو نیز بلافاصله پس از آن انجام خواهد شد. این در دسترس بودن گسترده، نشان دهنده تعهد گوگل به همگانی‌سازی هوش مصنوعی پیشرفته و دسترسی کاربران به آخرین نوآوری‌ها است، که یکی از پیامدهای اصلی Google I/O 2025 است.

ایمیجن 4: مرزهای جدید در تولید تصویر با هوش مصنوعی

یکی دیگر از رونمایی‌های مهم Google I/O 2025، ایمیجن 4 (Imagen 4) بود. این مدل تولید تصویر اکنون می‌تواند تصاویری با وضوح تا 2K تولید کند. گوگل ادعا می‌کند که دقت متن در کارت‌ها، پوسترها و کمیک‌های تولید شده به طور قابل توجهی بهبود یافته است. ایمیجن 4 از امروز در برنامه‌های جمینی، Google Workspace ،Whisk و Vertex AI در دسترس است. این پیشرفت‌ها، امکانات جدیدی را برای طراحان، هنرمندان و تولیدکنندگان محتوا فراهم می‌کند.

ویو 3: هوش مصنوعی در خدمت تولید ویدیو با جزئیات خیره کننده

ویو 3 (Veo 3)، جدیدترین مدل هوش مصنوعی گوگل برای تولید ویدیو، با قابلیت تشخیص بهبودیافته متن به ویدیو معرفی شد. این مدل می‌تواند ویدیوهایی با صدا، دیالوگ شخصیت‌ها و صداهای پس‌زمینه تولید کند. ویو 3 همین حالا برای مشترکین Google AI Ultra در ایالات متحده و کاربران سازمانی Vertex AI در دسترس است. این نوآوری در Google I/O 2025، پتانسیل هوش مصنوعی را در صنعت فیلم‌سازی و تولید محتوای بصری به وضوح نشان می‌دهد.

همزمان با معرفی ویو 3، گوگل از به‌روزرسانی‌هایی برای ویو 2 (Veo 2) نیز خبر داد. ویو 2 اکنون دارای قابلیت‌های حرکت دوربین، افزودن و حذف اشیا است. کاربران همچنین می‌توانند تصاویر را برای کنترل سبک و گسترش فریم‌ها فراتر از مرزهای اصلی اضافه کنند. این قابلیت‌ها، انعطاف‌پذیری بیشتری را در ویرایش و خلق ویدیو برای کاربران فراهم می‌کنند.

فلو: ابزار نوین فیلم‌سازی با هوش مصنوعی

فلو (Flow)، ابزار جدید فیلم‌سازی با هوش مصنوعی گوگل، ترکیبی از قابلیت‌های مدل‌های ویو، ایمیجن و لیریا (Lyria) را برای خلق صحنه‌های سینمایی با جزئیات بیشتر ارائه می‌دهد. گوگل ادعا می‌کند که فلو می‌تواند به داستان‌سرایان کمک کند تا کلیپ‌های سینمایی استثنایی خلق کنند که در فیزیک و واقع‌گرایی برتری دارند. کاربران می‌توانند حرکت دوربین، زوایا و پرسپکتیوها را کنترل کنند و همچنین ویدیوهای تولید شده قبلی را ویرایش و گسترش دهند. گوگل فلو اکنون برای مشترکین Google AI Pro و Ultra در ایالات متحده در دسترس است. معرفی فلو در Google I/O 2025، گامی بزرگ به سوی همگانی کردن فیلم‌سازی و امکان‌پذیر ساختن تولید محتوای بصری با کیفیت بالا برای عموم مردم است.

در مجموع، Google I/O 2025 نه تنها مجموعه‌ای از پیشرفت‌های چشمگیر در هوش مصنوعی را به نمایش گذاشت، بلکه چشم‌انداز آینده‌ای را ترسیم کرد که در آن هوش مصنوعی به شکلی عمیق‌تر در زندگی روزمره و ابزارهای خلاقانه ما ادغام می‌شود. این رویداد، تأثیرگذارترین نمایش قدرت هوش مصنوعی گوگل تا به امروز بوده است و قطعاً تا مدت‌ها در ذهن علاقمندان به تکنولوژی باقی خواهد ماند.

منبع خبر