به گزارش ایسنا، شرکت رباتیک 1X با پشتیبانی شرکت اوپنایآی(OpenAI) در حال انجام ماموریت خود برای تامین نیروی کار فیزیکی از طریق رباتهای ایمن و هوشمند است.
اکنون یک بهروزرسانی جدید نشان میدهد که ربات انساننمای ایو(Eve) توانایی خود را برای انجام کارهای مستقل پشت سر هم نشان میدهد.
این شرکت ادعا میکند که این ویدیو شروع سفر شرکت 1X در توسعه یک سیستم هوش مصنوعی پیشرفته را به نمایش میگذارد. این سیستم از طریق فرمانهای صوتی، وظایف ساده را به اقدامات پیچیده تبدیل میکند و امکان کنترل یکپارچه چند رباتی و عملکرد از راه دور را فراهم میکند.
رباتهای 1X از روش یادگیری فراگیر(Embodied Learning) استفاده میکنند، روشی که نرمافزار هوش مصنوعی را مستقیماً در اشکال فیزیکی آنها برای قابلیتهای پیشرفته ادغام میکند.
پیش از این، رباتهای 1X توانایی خود را در انتخاب و دستکاری اشیای ساده به نمایش گذاشته بودند. با این حال این تیم بر این باور است که رباتهای آن باید بر توانایی انجام زنجیره وظایف مختلف به صورت گروهی تسلط داشته باشند تا به رباتهای خدماتی مؤثر تبدیل شوند.
محققان شرکت 1X یک مدل مستقل برای رباتهای خود ایجاد کرده بودند که بسیاری از وظایف را در یک شبکه عصبی شرطی هدف ادغام میکند. با این حال زمانی که این مدلهای چند وظیفهای کوچک هستند(کمتر از 100 میلیون پارامتر)، افزودن دادهها برای رفع یک کار اغلب بر عملکرد سایر وظایف تأثیر منفی میگذارد.
به گفته این تیم، افزایش تعداد پارامترهای مدل میتواند این مشکل فراموشی را کاهش دهد، اما زمان آموزش را نیز افزایش میدهد و توانایی مهندسان را برای تعیین اینکه کدام نمایشها را برای بهبود رفتار ربات جمعآوری کنند، به تأخیر میاندازد.
این تیم برای تکرار سریع دادهها در حین ساخت یک ربات عمومی که قادر به انجام بسیاری از وظایف با یک شبکه عصبی واحد است، مجبور شد روند بهبود سریع عملکرد را با ادغام چندین قابلیت در یک شبکه عصبی منفرد جدا کند.
اریک جانگ معاون هوش مصنوعی در شرکت 1X میگوید: ما برای انجام این کار یک رابط زبان طبیعی با کنترل صدا ایجاد کردهایم تا قابلیتهای افق کوتاه را در چندین مدل کوچک به مدلهای طولانیتر زنجیرهای تبدیل کنیم. کار جدیدمان با هدایت زنجیرهای از مهارتها به ما امکان میدهد تا رفتارهای افق بلند را محقق کنیم.
زنجیرههای مهارت ناوبری ربات
زنجیر کردن چندین مهارت مستقل ربات در یک دنباله چالش برانگیز است، زیرا هر مهارت بعدی باید به موقعیتهای شروع کمی متفاوت ناشی از مهارت قبلی تعمیم یابد.
طبق اعلام شرکت 1X، این دشواری با هر مهارت متوالی ترکیب میشود. مهارت دوم باید تغییرات مهارت اول را کنترل کند، مهارت سوم باید با نتایج مهارت دوم سازگار شود و غیره.
در حالی که انسانها میتوانند کارهای افق بلند را بدون زحمت انجام دهند، تکرار این کار در رباتها نیازمند پرداختن به پیچیدگی این تغییرات متوالی است.
جانگ میگوید: از دیدگاه کاربر، ربات قادر به انجام بسیاری از وظایف زبان طبیعی است. این به ما امکان میدهد مدلهای تککاره را با مدلهای شرطی هدف در طول زمان ادغام کنیم.
مدلهای تک وظیفهای یک خط پایه محکم برای ارزیابی حالت سایه ارائه میدهند و به تیم اجازه میدهد تا پیشبینیهای یک مدل جدید را با خط پایه موجود در طول آزمایش مقایسه کند. هنگامی که مدل شرطی هدف به خوبی با پیشبینیهای مدل تک وظیفهای هماهنگ شد، محققان میتوانند بدون تغییر در گردش کار کاربر، به مدلی قدرتمندتر و یکپارچهتر روی آورند.
استفاده از این رابط زبانی سطح بالا برای هدایت رباتها تجربه کاربری جدیدی را برای جمع آوری دادهها فراهم میکند. جانگ میگوید: یک اپراتور به جای استفاده از واقعیت مجازی برای کنترل یک ربات میتواند چندین ربات را با زبان سطح بالا هدایت کند و از آنجایی که اقدامات سطح بالا به ندرت ارسال میشود، اپراتورها حتی میتوانند رباتها را از راه دور کنترل کنند.
محققان تاکید میکنند که این ویدئو نشان میدهد که رباتها وظایف خود را بر اساس مسیر انسانی تغییر میدهند که نشان میدهد این فرآیند کاملاً مستقل نیست. پس از ایجاد مجموعه دادهای از فرمان بینایی به زبان طبیعی، گام منطقی بعدی خودکار کردن پیشبینی اقدامات سطح بالاست که این را میتوان با استفاده از مدلهای بینایی مانند GPT-4o، VILA و Gemini Vision به دست آورد.
انتهای پیام