به گزارش ایسنا، شرکت گوگل به طور جدی وارد رقابت توسعه هوش مصنوعی شده است و اکنون تنها یک هفته پس از عرضه قدرتمندترین مدل خود موسوم به جیمنای ۱.۰ اولترا(Gemini ۱.۰ Ultra)، از جانشین آن به نام Gemini ۱.۵ رونمایی کرده است.
به نقل از آیای، این نسل جدید از مدلهای هوش مصنوعی، سریعتر، هوشمندتر و همهکارهتر از همیشه است.
جمینای ۱.۵
مدل هوش مصنوعی Gemini ۱.۵ نتیجه نوآوری بیامان گوگل در پردازش زبان طبیعی(NLP) است، شاخهای از هوش مصنوعی که با درک و تولید زبان انسان سر و کار دارد.
گوگل ادعا میکند که این مدل میتواند تا یک میلیون توکن ورودی، معادل حدود چهار میلیون کاراکتر یا ۸۰۰ هزار کلمه را در لحظه مدیریت کند که ۷۰۰ برابر بیشتر از رکورددار قبلی یعنی مدل GPT-۴ متعلق به شرکت اوپنایآی(OpenAI) است که تنها میتواند ۱۲۸ هزار توکن را پردازش کند.
این بدان معناست که Gemini ۱.۵ میتواند متنهای طولانیتر و پیچیدهتر مانند رمان، مقاله یا سخنرانی را با حفظ انسجام و کیفیت، درک و تولید کند.
همچنین به این معنی است که این مدل میتواند ورودیهای چندوجهی مانند متن، تصویر، صدا و ویدیو را مدیریت کند و خروجیهایی را در هر یک از این فرمتها تولید کند. به عنوان مثال میتواند به سوالات بر اساس یک کلیپ ویدیویی پاسخ دهد یا یک آهنگ را بر اساس یک پیام متنی ایجاد کند.
ترکیبی از متخصصان
جمینای ۱.۵ تنها یک مدل نیست، بلکه خانوادهای از مدلهاست که نیازها و کاربردهای مختلف را برآورده میکند.
همهمنظورهترین مدل موسوم به Gemini ۱.۵ Pro از نظر عملکرد با Gemini ۱.۰ Ultra قابل مقایسه است، اما از قدرت محاسباتی بسیار کمتری استفاده میکند. همین موضوع آن را برای موارد استفاده در دنیای واقعی کارآمدتر و مقیاسپذیرتر میکند.
مدل Gemini ۱.۵ Pro همچنین اولین مدلی است که از تکنیک جدیدی به نام ترکیبی از متخصصان(Mixture-of-Experts) یا MoE استفاده میکند که به آن اجازه میدهد تا به جای اجرای هر باره کل مدل، مرتبطترین بخشها را به صورت پویا برای هر گزارش انتخاب کند.
دمیش حسابیس مدیر گوگل دیپ مایند(Google DeepMind) که بازوی تحقیقاتی توسعه جمینای است توضیح داد که MoE همچنین Gemini ۱.۵ Pro را قادر میسازد تا انواع مختلف دادهها را به جای ترکیب کردن آنها در آینده، از ابتدا ادغام کند.
وی افزود: به این ترتیب، Gemini ۱.۵ Pro میتواند از متن، تصاویر و صدا به طور همزمان یاد بگیرد و از همافزایی بین آنها استفاده کند.
مدل Gemini ۱.۵ Pro تواناییهای قابلتوجه «یادگیری درون متنی» را از خود نشان میدهد، به این معنی که میتواند با پردازش اطلاعات در یک زمان طولانی بدون نیاز به تنظیمات بیشتر، مهارت جدیدی کسب کند.
گوگل برای آزمایش این توانایی از معیار ترجمه ماشینی از یک کتاب(MTOB) استفاده کرد که ارزیابی میکند مدل چقدر میتواند از دادههای ناآشنا یاد بگیرد و هنگامی که یک کتابچه راهنمای دستور زبان برای زبان کالامانگ(Kalamang) که زبانی است که کمتر از ۲۰۰ نفر در سراسر جهان به آن صحبت میکنند، ارائه شد، این مدل یاد گرفت که زبان انگلیسی را به زبان کالامانگی در سطحی قابل درک و قابل قبول ترجمه کند.
گوگل با معرفی Gemini ۱.۵ بار دیگر سطح تحقیق و توسعه هوش مصنوعی را ارتقا داد. این شرکت میگوید که Gemini ۱.۵ به بسیاری از محصولات و خدمات مانند دستیار گوگل(Google Assistant)، مترجم گوگل(Google Translate) و عکسهای گوگل(Google Photos) قدرت میدهد. همچنین سکوی هوش مصنوعی مکالمهای آن موسوم به جمینای ادونس(Gemini Advanced) را تواناتر و رقابتیتر خواهد کرد.
جمینای ادونس در حال حاضر رقیب قدرتمندی برای ChatGPT Plus است که چتباتی پیشرو در بازار است، اما برخلاف ChatGPT Plus که فقط مبتنی بر متن است، میتواند ورودیها و خروجیهای چندوجهی را مدیریت کند و ویژگیها و عملکردهای بیشتری را ارائه دهد.
گوگل تنها بازیکن در مسابقه توسعه هوش مصنوعی نیست و شرکتهای دیگری مانند آنتروپیک(Anthropic)، متا و مایکروسافت نیز در حال کار بر روی مدلهای هوش مصنوعی خود هستند که ممکن است به زودی سلطه گوگل را به چالش بکشد.
در هر حال تنور جنگ هوش مصنوعی در حال داغ شدن است و «جمینای ۱.۵» نیز جدیدترین سلاح گوگل در این جنگ است.
انتهای پیام
نظرات