مدل هوش مصنوعی جدید برای تولید ویدئو با وضوح بالا

مدل هوش مصنوعی جدید پژوهشگران چینی که می‌تواند ویدئوهایی را با وضوح بالا تولید کند، در قالب یک نرم‌افزار منبع باز در دسترس قرار گرفته است.

به گزارش ایسنا، گروهی از پژوهشگران هوش مصنوعی «دانشگاه پکن»(Peking University)، شرکت «کوایشو تکنولوژی»(Kuaishou Technology) و «دانشگاه پست و مخابرات پکن»(BUPT) یک مدل هوش مصنوعی جدید را به نام «پیرامید فلو»(Pyramid Flow) ابداع کرده‌اند که می‌توان از آن برای تولید ویدیوهای با وضوح بالا در حد 768p استفاده کرد.

به نقل از تک اکسپلور، طی چند سال گذشته، چندین نهاد اعم از خصوصی و عمومی تلاش کرده‌اند تا مدل‌های هوش مصنوعی مولد ویدیو را بسازند زیرا چنین مدل‌هایی را می‌توان برای ایجاد اپلیکیشن‌هایی با قابلیت تولید محتوای ویدیویی به منظور استفاده در تلویزیون و تصاویر متحرک با هزینه بسیار کمتر از فیلم‌برداری صحنه‌های واقعی استفاده کرد.

این بدان معناست که ارزش مدل‌های هوش مصنوعی به سرعت در حال افزایش است. پژوهشگران چینی در این تلاش جدید تصمیم گرفتند که مدل خود را به صورت منبع باز بسازند؛ به این معنی که همه بدون پرداخت هزینه بتوانند یک اپلیکیشن را برای آن توسعه دهند و آن را به صورت محلی از جمله برای استفاده تجاری اجرا کنند.

سازندگان پیرامید فلو، قابلیت‌های جدیدی را به مدل‌های تولید ویدیو با هوش مصنوعی اضافه کرده‌اند. این مدل پیش از تولید نتیجه نهایی پردازش، ویدیو را در چندین مرحله با وضوح پایین تولید می‌کند. به گفته این گروه پژوهشی، اپلیکیشن مجهز به این مدل می‌تواند یک ویدیوی پنج‌ ثانیه‌ای را در ۵۶ ثانیه تولید کند که نتیجه آن وضوح 384p خواهد بود.

پژوهشگران خاطرنشان کردند که روش آنها ویدیو را با استفاده از قدرت محاسباتی بسیار کمتر تولید می‌کند و این باعث می‌شود که هزینه کمتری داشته باشد. همچنین، تعداد ورودی‌های مورد نیاز برای تولید ویدیو را به ‌طور چشمگیری کاهش می‌دهد و آن را کارآمدتر می‌کند.

این گروه پژوهشی تحت مجوز دانشگاه «ام‌آی‌تی»(MIT) کد پیرامید فلو را به همراه نمونه ویدیوهایی که نتایج بسیار واقعی را از مدل نشان می‌دهند، در پلتفرم «گیت‌هاب»(GitHub) فرستاده‌اند. همچنین، آنها مجموعه داده‌های منبع باز را که برای آموزش مدل خود به کار برده‌اند، فهرست کرده‌اند و مجموعا ۱۰ میلیون ویدیوی کوتاه را به آن افزوده‌اند.

این گروه پژوهشی درباره ادعاهای مطرح‌شده توسط کسانی که ارسال ویدیوهای مجازی به پایگاه‌های داده منبع باز را نقض قانون کپی‌رایت می‌دانند، صحبتی نکردند. در هر حال، آنها معتقدند پیرامید  فلو می‌تواند یک فناوری مناسب برای تنظیم دقیق داده‌های منبع باز بدون نیاز به پرداخت به شخص ثالث باشد.

انتهای پیام

  • سه‌شنبه/ ۲۴ مهر ۱۴۰۳ / ۱۰:۴۶
  • دسته‌بندی: هوش مصنوعی
  • کد خبر: 1403072418418
  • خبرنگار : 71604