گوگل مدل هوش مصنوعی Gemini 2.0 را معرفی می‌کند: یک مدل جدید برای دوران نماینده‌گری

گوگل طی گذشته‌ی سال پیشرفت‌های قابل توجهی در زمینه‌ی هوش مصنوعی داشته است. امروز، ما اولین مدل خانواده مدل‌های Gemini 2.0 را منتشر می‌کنیم: یک نسخه تجربی از Gemini 2.0 Flash. این مدلی است که با داشتن تاخیر کم و عملکرد بهبود یافته در حدود فناوری ما، در مقیاس‌های مختلف و با سرعتی بیش از پیش فعالیت می‌کند.

مدل Gemini 2.0 Flash

Gemini 2.0 Flash بر پایه‌ی موفقیت 1.5 Flash، محبوب‌ترین مدل ما برای توسعه دهندگان، با عملکرد بهبود یافته با زمان پاسخ مشابه سرعت. این مدل حتی نسخه 1.5 Pro را در آزمون‌های کلیدی برای خود در دو برابر سرعت پیشرفت داده است. 2.0 Flash همچنین با قابلیت‌های جدیدی همراه است. علاوه بر پشتیبانی از ورودی‌های چندگانه مانند تصاویر، ویدیو و صدا، 2.0 Flash اکنون حمایت از خروجی‌های چند گانه مانند تصاویر به صورت بومی تولیدی مخلوط با متن و صدای چندزبانه تلفظ‌پذیر. این همچنین می‌تواند به صورت بومی ابزارهایی مانند جستجو در گوگل، اجرای کد و همچنین توابع تعریف‌شده توسط کاربر استفاده کند.

هدف ما این است که مدل‌های خود را به صورت ایمن و سریع در دسترس توسعه‌دهندگان قرار دهیم. در گذشته‌ی گذشته، ما در میان توسعه‌دهندگان نسخه‌های آزمایشی زودرس Gemini 2.0 را به اشتراک گذاشتیم و بازخوردهای فوق‌العاده ای را از آن‌ها به دست آوردیم.
Gemini 2.0 Flash در حال حاضر به عنوان یک مدل آزمایشی برای توسعه‌دهندگان از طریق API Gemini در Google AI Studio و Vertex AI با ورودی چند گانه و خروجی متن برای تمام توسعه‌دهندگان و ورودی صدا و تولید تصویر بومی برای شرکای دسترسی زودرس در دسترس است. دسترسی عمومی به همراه اندازه‌های بیشتر مدل نیز در ژانویه ارائه خواهد شد.

برای کمک به توسعه‌دهندگان در ایجاد برنامه‌های پویا و تعاملی، ما همچنین یک API زنده چند گانه جدید را عرضه می‌کنیم که ورودی صوتی به صورت زمان واقعی، ویدیو استریم و توانایی استفاده از ابزارهای ترکیبی چندگانه را دارد. اطلاعات بیشتر درباره 2.0 Flash و API زنده چند گانه را می‌توانید در وبلاگ توسعه‌دهندگان ما پیدا کنید.

مدل Gemini 2.0 در نرم‌افزار Gemini، دستیار هوش مصنوعی ما

همچنین از امروز، کاربران Gemini در سراسر جهان می‌توانند به نسخه‌ی 2.0 Flash آزمایشی دسترسی داشته باشند. این مدل جدید را می‌توانند با انتخاب آن از لیست‌های پایینی در وب‌سایت و نمایشی تلفن همراه از نسخه‌ی دسکتاپ و وب موبایل در اپلیکیشن موبایل Gemini تجربه کنند. با این مدل جدید، کاربران می‌توانند تجربه‌ای حتی مفید‌تر از دستیار Gemini داشته باشند.

در اوایل سال آینده، ما قصد داریم از Gemini 2.0 بر روی محصولات بیشتر گوگل استفاده کنیم.

باز کردن تجارب نماینده‌گری با Gemini 2.0

قابلیت‌های اعمالی و کارگون شده‌ی اکشن‌های رابط کاربری بومی Gemini 2.0 Flash، همراه با بهبودهای دیگر مانند استدلال چندگانه، درک طولانی مدت، پیروی از دستورات پیچیده و برنامه‌ریزی، تشکیل وظایف کمپوزیتوری، استفاده از ابزار بومی و بهبود زمان پاسخگویی، همه با هم برای امکان فراهم کردن یک کلاس جدید از تجربیات نماینده‌گری کار می‌کنند.

هدف عملیاتی از نماینده‌های هوش مصنوعی یک حوزه پژوهشی پر از امکانات جذاب است. ما این مرز جدید را با سری از پروتو‌تایپ‌ها که به امکانات آینده‌ی یک دستیار یونیورسال هوش مصنوعی می‌پردازد، باز می‌کنیم؛ پروژه آسترا که دقیق‌تر به بررسی پروژه‌ها در زمینه‌ی نماینده‌گری پرداخته است؛ پروژه مارینر که به بررسی آینده‌ی تعامل انسان و نماینده روشن می‌کند؛ و ژول، یک نماینده‌ی کد پیشرفته که می‌تواند به توسعه‌دهندگان کمک کند.

با اینکه ما هنوز در مراحل اولیه توسعه هستیم، اما خوشحالیم که ببینیم چگونه ضامنان آزمایشی از این قابلیت‌های جدید استفاده می‌کنند و چه درس‌هایی می‌توانیم به دست آوریم تا بتوانیم آن‌ها را در آینده در محصولات به صورت گسترده‌تر قرار دهیم.

پروژه آسترا: نماینده‌ها با استفاده از درک چندگانه در دنیای واقعی

از زمان معرفی پروژه آسترا در I/O، ما از ضامنان آزمایشی استفاده آن در گوشی‌های Android یاد گرفته‌ایم. بازخوردات ارزشمند آنها به ما کمک کرده‌اند تا بهتر بفهمیم چگونه یک دستیار هوش مصنوعی یونیورسال در عمل کار کند، از جمله پیامدها برای ایمنی و اخلاق. بهبودهای موجود در آخرین ورژنی که با Gemini 2.0 ساخته شده است عبارت‌اند از:
بهبود دیالوگ: پروژه آسترا اکنون برای صحبت در چند زبان و صحبت در زبان‌های مختلط، با فهم بهتر اکسنت‌ها و کلمات غیرمعمول است.
استفاده از ابزارهای جدید: با Gemini 2.0، پروژه آسترا می‌تواند از جستجوی گوگل، لنز و نقشه‌ها استفاده کند که آن را مفیدتر در زندگی روزمره‌ی شما می‌کند.
حافظه بهتر: ما توانایی پروژه آسترا برای یادآوری چیزها را بهبود داده‌ایم در حالی که همچنان زیر کنترل شما هستیم. حالا این دارای حافظه تا ۱۰ دقیقه از حافظه نشست است و می‌تواند گفت‌وگوهای بیشتری که با آن داشته‌اید در گذشته را به یاد داشته باشد تا بهتر شخصی‌سازی شود.
کاهش زمان فعال: با قابلیت‌های جدید استریمینگ و درک صوتی بومی، نماینده می‌تواند به زبان را با زمان دقیقه‌ی صحبت انسان درک کند.

ما در حال کار هستیم تا این امکانات را به محصولات گوگل مانند نرم‌افزار Gemini، دستیار هوش مصنوعی ما، و به سایر طرح‌های مانند عینک‌ها برسانیم. و ما شروع به توسعه‌ی برنامه آزمایشی ضامنان به بیشتر مردم کرده‌ایم، از جمله گروه کوچکی که به زودی با پروتوتایپ عینک‌های آزمایشی پروژه آسترا را آزمایش خواهند کرد.

پروژه مارینر: نماینده‌ها که به شما کمک می‌کنند تا وظایف پیچیده را انجام دهید

پروژه مارینر یک پروتوتایپ پژوهشی اولیه است که با استفاده از Gemini 2.0، آینده‌ی تعامل انسان و نماینده را، از جهت ابتدایی از مرورگرتان آغاز می‌کند. به عنوان یک پروتوتایپ پژوهشی، می‌تواند درک و استدلال بر روی اطلاعات در صفحه‌ی مرورگر شما، از جمله پیکسل‌ها و عناصر وب مانند متن، کد، تصاویر و فرم‌ها، را به کار ببرد و سپس این اطلاعات را از طریق یک افزونه Chrome آزمایشی برای شما به پایان انجامد.

ژول: نماینده‌ها برای توسعه‌دهندگان

در مرحله‌ی بعد، ما به دنبال این هستیم که نماینده‌های هوش مصنوعی چگونه می‌توانند توسعه‌دهندگان را یاری نمایند با ژول – یک نماینده کد تجربی که مستقیماً در یک جریان کاری GitHub یکپارچه شده است. این تلاش قسمتی از هدف درازمدت ما برای ساختن نماینده‌های هوشی است که در تمام حوزه‌ها، از جمله کدزنی، مفید باشند.

در پایان، اطلاعات من راجع به ورودی متنی تبدیل شده است که فکر می‌کنم که شما باید یه مبحثی راجع به اون اضافه کنید.

نظریه:
این معرفی از مدل Gemini 2.0 برای دوران نماینده‌گری نشان می‌دهد که گوگل همچنان در حال پیشرفت در زمینه‌ی هوش مصنوعی است. این مدل با قابلیت‌های چندگانه و توانمندی‌های بیشت


منبع:
این مقاله در اصل در https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024 منتشر شده است.