درک صوتی و بصری در حد انسان

رونمایی اوپن‌ای‌آی از توانایی‌های هوش مصنوعی جدیدش

شرکت اوپن‌ای‌آی(OpenAI) ادعا می‌کند که مدل رایگان GPT-۴o آن می‌تواند مانند یک انسان صحبت کند، بخندد، آواز بخواند و ببیند. این شرکت همچنین در حال انتشار یک برنامه مخصوص دسکتاپ از مدل زبان بزرگ ChatGPT است.

به گزارش ایسنا، شرکت اوپن‌ای‌آی روز گذشته مدل هوش مصنوعی GPT-۴o را معرفی کرد که یک مدل کاملاً جدید از هوش مصنوعی این شرکت است که به گفته اوپن‌ای‌آی یک گام به تعامل بسیار طبیعی‌تر میان انسان و رایانه نزدیک‌تر شده است.

این مدل جدید، هر ترکیبی از متن، صدا و تصویر را به عنوان ورودی می‌پذیرد و می‌تواند خروجی را در هر سه فرمت تولید کند. همچنین می‌تواند احساسات را تشخیص دهد، به کاربر امکان می‌دهد آن را در اواسط گفتار قطع کند و تقریباً به سرعت یک انسان در طول مکالمه پاسخ می‌دهد.

میرا موراتی مدیر ارشد فناوری شرکت اوپن‌ای‌آی در پخش زنده معرفی این مدل جدید گفت: نکته ویژه در مورد GPT-۴o این است که هوش سطح GPT-۴ برای همه، از جمله کاربران رایگان ما در دسترس قرار گرفته است. این اولین بار است که ما در مورد سهولت استفاده گام بزرگی رو به جلو برمی‌داریم.

اوپن‌ای‌آی در طول معرفی این مدل، GPT-۴o را نشان داد که به صورت زنده بین انگلیسی و ایتالیایی ترجمه می‌کند، با توانایی درک بصری به یک پژوهشگر کمک می‌کند یک معادله خطی را در لحظه بر روی کاغذ حل کند و تنها با گوش دادن به نفس‌های یکی از مدیران اوپن‌ای‌آی درباره تنفس عمیق به او راهنمایی می‌دهد.

حرف «o» در اسم مدل GPT-۴o مخفف واژه «omni» است که اشاره‌ای به قابلیت‌های چندوجهی این مدل است.

اوپن‌ای‌آی گفت که GPT-۴o با متن، تصویر و صدا آموزش داده شده است، به این معنی که تمام ورودی‌ها و خروجی‌ها توسط یک شبکه عصبی پردازش می‌شوند. این با مدل‌های قبلی این شرکت شامل GPT-۳.۵ و GPT-۴ متفاوت است که به کاربران اجازه می‌دادند تنها با صحبت کردن سؤال بپرسند، اما سپس سخنان را به متن تبدیل می‌کردند. این موجب می‌شد لحن و احساسات از بین برود و تعاملات کندتر شود.

شرکت اوپن‌ای‌آی این مدل جدید را طی چند هفته آینده آینده به صورت رایگان در دسترس همگان از جمله کاربران ChatGPT قرار می‌دهد و همچنین نسخه دسکتاپ ChatGPT را در ابتدا برای رایانه‌های شرکت اپل(Mac) منتشر می‌کند که کاربرانی که اشتراک خریداری کرده‌اند، از امروز به آن دسترسی خواهند داشت.

معرفی مدل جدید اوپن‌ای‌آی یک روز قبل از برگزاری رویداد گوگل I/O که کنفرانس سالانه توسعه دهندگان این شرکت است، انجام گرفت.

گفتنی است که مدت کوتاهی پس از اینکه اوپن‌ای‌آی GPT-۴o را معرفی کرد، گوگل نیز نسخه‌ای از هوش مصنوعی خود موسوم به جمینای(Gemini) را با قابلیت‌های مشابه به نمایش گذاشت.

در حالی که مدل GPT-۴ در وظایف مربوط به تجزیه و تحلیل تصاویر و متن برتر بود، مدل GPT-۴o پردازش گفتار را ادغام می‌کند و طیف قابلیت‌های آن را گسترش می‌دهد.

تعامل طبیعی انسان و رایانه

طبق گفته اوپن‌ای‌آی، مدل GPT-۴o گامی به سوی تعامل بسیار طبیعی‌تر انسان و رایانه است که هر ترکیبی از متن، صدا و تصویر را به عنوان ورودی می‌پذیرد و هر ترکیبی از متن، صدا و تصویر را تولید می‌کند.

این مدل می‌تواند به ورودی‌های صوتی در کمتر از ۲۳۲ میلی‌ثانیه و با میانگین سرعت ۳۲۰ میلی‌ثانیه پاسخ دهد که مشابه زمان پاسخ‌دهی انسان‌ها در مکالمه است.

این مدل عملکرد مدل GPT-۴ Turbo روی متن زبان انگلیسی و کد را با بهبود قابل توجهی در تبدیل متن به زبان‌های غیرانگلیسی مطابقت می‌دهد، در حالی که در واسطه برنامه‌نویسی کاربردی(API) بسیار سریع‌تر و ۵۰ درصد ارزان‌تر است. مدل GPT-۴o به ویژه در درک تصویری و صوتی در مقایسه با مدل‌های موجود بهتر است.

معرفی این مدل دقیقا چه معنایی برای کاربران دارد؟

مدل GPT-۴o به طور قابل توجهی تجربه ChatGPT را که ربات گفتگوگر هوش مصنوعی بسیار محبوب اوپن‌ای‌آی است، افزایش می‌دهد. کاربران اکنون می‌توانند مانند یک دستیار شخصی با ChatGPT تعامل داشته باشند، از آن سؤال بپرسند و حتی آن را در هر جای دلخواه قطع کنند.

علاوه بر این، همانطور که گفته شد اوپن‌ای‌آی نسخه دسکتاپ ChatGPT را در کنار یک رابط کاربری اصلاح شده معرفی می‌کند.

موراتی تاکید کرد: ما پیچیدگی فزاینده این مدل‌ها را تشخیص می‌دهیم، اما هدف ما این است که تجربه تعامل را بصری‌تر و یکپارچه‌تر کنیم. ما می‌خواهیم کاربران به جای اینکه حواسشان به رابط کاربری پرت شود، روی همکاری با GPT تمرکز کنند. مدل جدید ما می‌تواند متن، صدا و ویدیو را در لحظه استدلال کند. این مدل همه‌کاره است، کار با آن سرگرم کننده است و گامی به سوی شکل بسیار طبیعی‌تر تعامل انسان و رایانه و حتی تعامل انسان-رایانه-رایانه است.

مدل GPT-۴o همچنین با بیش از ۷۰ متخصص در حوزه‌هایی مانند روان‌شناسی اجتماعی، سوگیری و انصاف و اطلاعات نادرست برای شناسایی خطراتی که با روش‌های جدید اضافه شده معرفی یا تقویت می‌شوند، تحت بررسی گسترده‌ای قرار گرفته است. اوپن‌ای‌آی از این یادگیری‌ها برای ایجاد مداخلات ایمنی به منظور بهبود ایمنی تعامل با GPT-۴o استفاده کرده است.
اعضای تیم اوپن‌ای‌آی در معرفی عمومی این مدل جدید، مهارت صوتی آن را به نمایش گذاشتند. یک پژوهشگر به نام مارک چن بر توانایی آن در سنجش احساسات تاکید کرد و به سازگاری آن با وقفه‌های کاربر اشاره کرد.

چن تطبیق پذیری این مدل را با درخواست یک داستان قبل از خواب با لحن‌های متنوع، از دراماتیک تا رباتیک نشان داد و حتی از آن خواست که آن را برایش بخواند.

همانطور که گفته شد این مدل جدید برای همه کاربران ChatGPT به صورت رایگان در دسترس قرار می‌گیرد. تاکنون مدل‌های کلاس GPT-۴ فقط برای افرادی که اشتراک ماهانه پرداخت می‌کردند، در دسترس بود.

سام آلتمن مدیرعامل اوپن‌ای‌آی گفت: این برای ما مهم است، چرا که ما می‌خواهیم ابزارهای هوش مصنوعی عالی را در دسترس همگان قرار دهیم.

بازار قوی برای هوش مصنوعی مولد

شرکت اوپن‌ای‌آی در کنار مایکروسافت و گوگل در حوزه هوش مصنوعی مولد پیشتاز است، زیرا شرکت‌ها در بخش‌های مختلف عجله دارند تا چت‌بات‌ها یا ربات‌های گفتگوگر مبتنی بر هوش مصنوعی خود را در خدمات خود ادغام کنند تا رقابتی باقی بمانند.

به عنوان مثال شرکت آنتروپیک(Anthropic) که رقیب اوپن‌ای‌آی محسوب می‌شود، به تازگی از اولین پیشنهاد سازمانی خود به شرکت اپل برای ارائه یک برنامه رایگان برای گوشی‌های آیفون پرده برداشت.

اوپن‌ای‌آی در بیانیه‌ای گفت: ما متوجهیم که ارائه‌های صوتی GPT-۴o خطرات جدیدی را به همراه دارد. امروز ما ورودی‌های متن و تصویر و خروجی متن را به صورت عمومی منتشر می‌کنیم و در هفته‌ها و ماه‌های آینده روی زیرساخت‌های فنی، قابلیت استفاده پس از آموزش و ایمنی لازم برای انتشار سایر روش‌ها کار خواهیم کرد. به عنوان مثال در هنگام راه‌اندازی، خروجی‌های صوتی به مجموعه‌ای از صداهای از پیش تعیین شده محدود می‌شود و از سیاست‌های ایمنی موجود ما تبعیت می‌کند. ما جزئیات بیشتری را در مورد طیف کامل روش‌های GPT-۴o در سیستم آینده به اشتراک خواهیم گذاشت.

بر اساس گزارش، بازار هوش مصنوعی مولد شاهد سرمایه‌گذاری خیره کننده ۲۹.۱ میلیارد دلاری در نزدیک به ۷۰۰ معامله در سال ۲۰۲۳ بود که بیش از ۲۶۰ درصد نسبت به سال قبل افزایش داشت. پیش‌بینی‌ها حاکی از آن است که بازدهی این بازار در دهه آینده از یک تریلیون دلار فراتر رود.

با این حال، نگرانی‌ها در مورد استقرار سریع خدمات آزمایش‌نشده توسط دانشگاهیان و اخلاق‌گراهایی که از پتانسیل این فناوری برای تداوم تعصبات مشکل دارند، وجود دارد.

چت‌بات ChatGPT از زمان راه‌اندازی در نوامبر ۲۰۲۲ رکوردهایی را به عنوان سریع‌ترین رشد مصرف‌کننده در تاریخ شکسته است و تقریباً ۱۰۰ میلیون کاربر فعال هفتگی دارد. اوپن‌ای‌آی گزارش می‌دهد که بیش از ۹۲ درصد از ۵۰۰ شرکت برتر دنیا از آن استفاده می‌کنند.

در رویداد معرفی شب گذشته موراتی به پاسخ به برخی از سوالات مخاطبان پرداخت و وقتی او به زبان ایتالیایی روان صحبت کرد و هوش مصنوعی صحبت‌های وی را به انگلیسی ترجمه کرد، سالن مملو از شور و هیجان شد.

چیزهای بیشتری نیز وجود دارد. این یعنی دفعه بعد که سلفی می‌گیرید، هوش مصنوعی اوپن‌ای‌آی می‌تواند احساسات دقیق شما را ارزیابی کند. تنها کاری که باید انجام دهید این است که یک عکس سلفی را انتخاب کنید و از ChatGPT بخواهید که احساس شما را مشخص کند.

گفتنی است که عوامل شرکت اوپن‌ای‌آی آن‌قدر خوشحال بودند که ChatGPT از آنها دلیل خوشحالی شدیدشان را جویا شد!

انتهای پیام

سه‌شنبه/ ۲۵ اردیبهشت ۱۴۰۳ / ۰۹:۳۴
دسته‌بندی: هوش مصنوعی
کد خبر: 1403022517994
خبرنگار : 71589