گوگل مدل هوش مصنوعی Gemini 2.0 را معرفی میکند: یک مدل جدید برای دوران نمایندهگری
گوگل طی گذشتهی سال پیشرفتهای قابل توجهی در زمینهی هوش مصنوعی داشته است. امروز، ما اولین مدل خانواده مدلهای Gemini 2.0 را منتشر میکنیم: یک نسخه تجربی از Gemini 2.0 Flash. این مدلی است که با داشتن تاخیر کم و عملکرد بهبود یافته در حدود فناوری ما، در مقیاسهای مختلف و با سرعتی بیش از پیش فعالیت میکند.
مدل Gemini 2.0 Flash
Gemini 2.0 Flash بر پایهی موفقیت 1.5 Flash، محبوبترین مدل ما برای توسعه دهندگان، با عملکرد بهبود یافته با زمان پاسخ مشابه سرعت. این مدل حتی نسخه 1.5 Pro را در آزمونهای کلیدی برای خود در دو برابر سرعت پیشرفت داده است. 2.0 Flash همچنین با قابلیتهای جدیدی همراه است. علاوه بر پشتیبانی از ورودیهای چندگانه مانند تصاویر، ویدیو و صدا، 2.0 Flash اکنون حمایت از خروجیهای چند گانه مانند تصاویر به صورت بومی تولیدی مخلوط با متن و صدای چندزبانه تلفظپذیر. این همچنین میتواند به صورت بومی ابزارهایی مانند جستجو در گوگل، اجرای کد و همچنین توابع تعریفشده توسط کاربر استفاده کند.
هدف ما این است که مدلهای خود را به صورت ایمن و سریع در دسترس توسعهدهندگان قرار دهیم. در گذشتهی گذشته، ما در میان توسعهدهندگان نسخههای آزمایشی زودرس Gemini 2.0 را به اشتراک گذاشتیم و بازخوردهای فوقالعاده ای را از آنها به دست آوردیم.
Gemini 2.0 Flash در حال حاضر به عنوان یک مدل آزمایشی برای توسعهدهندگان از طریق API Gemini در Google AI Studio و Vertex AI با ورودی چند گانه و خروجی متن برای تمام توسعهدهندگان و ورودی صدا و تولید تصویر بومی برای شرکای دسترسی زودرس در دسترس است. دسترسی عمومی به همراه اندازههای بیشتر مدل نیز در ژانویه ارائه خواهد شد.
برای کمک به توسعهدهندگان در ایجاد برنامههای پویا و تعاملی، ما همچنین یک API زنده چند گانه جدید را عرضه میکنیم که ورودی صوتی به صورت زمان واقعی، ویدیو استریم و توانایی استفاده از ابزارهای ترکیبی چندگانه را دارد. اطلاعات بیشتر درباره 2.0 Flash و API زنده چند گانه را میتوانید در وبلاگ توسعهدهندگان ما پیدا کنید.
مدل Gemini 2.0 در نرمافزار Gemini، دستیار هوش مصنوعی ما
همچنین از امروز، کاربران Gemini در سراسر جهان میتوانند به نسخهی 2.0 Flash آزمایشی دسترسی داشته باشند. این مدل جدید را میتوانند با انتخاب آن از لیستهای پایینی در وبسایت و نمایشی تلفن همراه از نسخهی دسکتاپ و وب موبایل در اپلیکیشن موبایل Gemini تجربه کنند. با این مدل جدید، کاربران میتوانند تجربهای حتی مفیدتر از دستیار Gemini داشته باشند.
در اوایل سال آینده، ما قصد داریم از Gemini 2.0 بر روی محصولات بیشتر گوگل استفاده کنیم.
باز کردن تجارب نمایندهگری با Gemini 2.0
قابلیتهای اعمالی و کارگون شدهی اکشنهای رابط کاربری بومی Gemini 2.0 Flash، همراه با بهبودهای دیگر مانند استدلال چندگانه، درک طولانی مدت، پیروی از دستورات پیچیده و برنامهریزی، تشکیل وظایف کمپوزیتوری، استفاده از ابزار بومی و بهبود زمان پاسخگویی، همه با هم برای امکان فراهم کردن یک کلاس جدید از تجربیات نمایندهگری کار میکنند.
هدف عملیاتی از نمایندههای هوش مصنوعی یک حوزه پژوهشی پر از امکانات جذاب است. ما این مرز جدید را با سری از پروتوتایپها که به امکانات آیندهی یک دستیار یونیورسال هوش مصنوعی میپردازد، باز میکنیم؛ پروژه آسترا که دقیقتر به بررسی پروژهها در زمینهی نمایندهگری پرداخته است؛ پروژه مارینر که به بررسی آیندهی تعامل انسان و نماینده روشن میکند؛ و ژول، یک نمایندهی کد پیشرفته که میتواند به توسعهدهندگان کمک کند.
با اینکه ما هنوز در مراحل اولیه توسعه هستیم، اما خوشحالیم که ببینیم چگونه ضامنان آزمایشی از این قابلیتهای جدید استفاده میکنند و چه درسهایی میتوانیم به دست آوریم تا بتوانیم آنها را در آینده در محصولات به صورت گستردهتر قرار دهیم.
پروژه آسترا: نمایندهها با استفاده از درک چندگانه در دنیای واقعی
از زمان معرفی پروژه آسترا در I/O، ما از ضامنان آزمایشی استفاده آن در گوشیهای Android یاد گرفتهایم. بازخوردات ارزشمند آنها به ما کمک کردهاند تا بهتر بفهمیم چگونه یک دستیار هوش مصنوعی یونیورسال در عمل کار کند، از جمله پیامدها برای ایمنی و اخلاق. بهبودهای موجود در آخرین ورژنی که با Gemini 2.0 ساخته شده است عبارتاند از:
بهبود دیالوگ: پروژه آسترا اکنون برای صحبت در چند زبان و صحبت در زبانهای مختلط، با فهم بهتر اکسنتها و کلمات غیرمعمول است.
استفاده از ابزارهای جدید: با Gemini 2.0، پروژه آسترا میتواند از جستجوی گوگل، لنز و نقشهها استفاده کند که آن را مفیدتر در زندگی روزمرهی شما میکند.
حافظه بهتر: ما توانایی پروژه آسترا برای یادآوری چیزها را بهبود دادهایم در حالی که همچنان زیر کنترل شما هستیم. حالا این دارای حافظه تا ۱۰ دقیقه از حافظه نشست است و میتواند گفتوگوهای بیشتری که با آن داشتهاید در گذشته را به یاد داشته باشد تا بهتر شخصیسازی شود.
کاهش زمان فعال: با قابلیتهای جدید استریمینگ و درک صوتی بومی، نماینده میتواند به زبان را با زمان دقیقهی صحبت انسان درک کند.
ما در حال کار هستیم تا این امکانات را به محصولات گوگل مانند نرمافزار Gemini، دستیار هوش مصنوعی ما، و به سایر طرحهای مانند عینکها برسانیم. و ما شروع به توسعهی برنامه آزمایشی ضامنان به بیشتر مردم کردهایم، از جمله گروه کوچکی که به زودی با پروتوتایپ عینکهای آزمایشی پروژه آسترا را آزمایش خواهند کرد.
پروژه مارینر: نمایندهها که به شما کمک میکنند تا وظایف پیچیده را انجام دهید
پروژه مارینر یک پروتوتایپ پژوهشی اولیه است که با استفاده از Gemini 2.0، آیندهی تعامل انسان و نماینده را، از جهت ابتدایی از مرورگرتان آغاز میکند. به عنوان یک پروتوتایپ پژوهشی، میتواند درک و استدلال بر روی اطلاعات در صفحهی مرورگر شما، از جمله پیکسلها و عناصر وب مانند متن، کد، تصاویر و فرمها، را به کار ببرد و سپس این اطلاعات را از طریق یک افزونه Chrome آزمایشی برای شما به پایان انجامد.
ژول: نمایندهها برای توسعهدهندگان
در مرحلهی بعد، ما به دنبال این هستیم که نمایندههای هوش مصنوعی چگونه میتوانند توسعهدهندگان را یاری نمایند با ژول – یک نماینده کد تجربی که مستقیماً در یک جریان کاری GitHub یکپارچه شده است. این تلاش قسمتی از هدف درازمدت ما برای ساختن نمایندههای هوشی است که در تمام حوزهها، از جمله کدزنی، مفید باشند.
در پایان، اطلاعات من راجع به ورودی متنی تبدیل شده است که فکر میکنم که شما باید یه مبحثی راجع به اون اضافه کنید.
نظریه:
این معرفی از مدل Gemini 2.0 برای دوران نمایندهگری نشان میدهد که گوگل همچنان در حال پیشرفت در زمینهی هوش مصنوعی است. این مدل با قابلیتهای چندگانه و توانمندیهای بیشت
منبع:
این مقاله در اصل در https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024 منتشر شده است.


