به نقل از فیز، دانشمندان رایانه تلاش میکنند تا تجربهای سه بعدی برای کاربران فراهم کنند که به آنان امکان مشاهده یک صحنه را با نماهای مختلف بدهد، اما این امر به تجهیزات دوربین ویژهای نیاز دارد که برای افراد معمولی به راحتی در دسترس نیست. برای تسهیل روند کار، دکتر نیما کلانتری، استاد گروه علوم رایانه و مهندسی دانشگاه A&M تگزاس، امریکا و دانشجوی دکترا، کوئینبو لی، رویکردی مبتنی بر یادگیری ماشین ایجاد کردهاند که به کاربران امکان میدهد یک عکس واحد بگیرند و از آن برای ایجاد نماهای جدید از صحنه استفاده کنند.
کلانتری گفت: «مزیت رویکرد ما این است که اکنون ما به ثبت یک صحنه به روشی خاص محدود نمیشویم. ما میتوانیم هر تصویری را حتی با قدمت ۱۰۰ سال در اینترنت بارگیری و استفاده کنیم و در اصل آن را زنده کنیم و از زوایای مختلف به آن نگاه کنیم.»
ترکیب نما، فرآیند تولید نماهای جدید از یک شی یا صحنه با استفاده از تصاویر گرفته شده از یک نمای مشخص است. برای خلق تصاویر جدید، از اطلاعات مربوط به فاصله بین اشیاء در صحنه برای ایجاد یک عکس مصنوعی گرفته شده از یک دوربین مجازی قرار گرفته در نقاط مختلف استفاده میشود.
طی چند دهه گذشته، روشهای مختلفی برای ترکیب این تصاویر جدید ایجاد شده است، اما بسیاری از آنها نیاز به کاربری دارند که بهصورت دستی چندین عکس از یک صحنه را از منظرهای مختلف بهطور همزمان با پیکربندیها و سختافزار خاص ضبط کند که این روش دشوار و زمانبر است. با این حال، این روشها برای تولید تصاویر نمای جدید از یک تصویر ورودی طراحی نشدهاند. برای سادهسازی فرآیند، محققان پیشنهاد کردهاند که همان روند فقط با یک تصویر انجام شود.
کلانتری گفت: «هنگامی که چندین تصویر دارید، میتوانید محل اشیاء موجود در صحنه را از طریق فرایندی به نام سه گوشهسازی تخمین بزنید. این بدان معناست که شما میتوانید بگویید، بهعنوانمثال، شخصی در جلوی دوربین قرار دارد که خانه و سپس کوه در پس زمینه تصویر وی است. این مورد برای ترکیب نما بسیار مهم است. اما وقتی یک تصویر واحد دارید، همه این اطلاعات باید از همان یک تصویر استنباط شود که چالش برانگیز است.»
با گسترش اخیر یادگیری عمیق که زیرمجموعهای از یادگیری ماشین است، شبکههای عصبی مصنوعی از مقادیر زیادی داده برای حل مشکلات پیچیده یاد میگیرند، مسئله ترکیب نمای تک تصویر توجه زیادی را به خود جلب کرده است. باوجود این که این روش برای کاربر قابل دسترستر است، اما یک کاربرد چالش برانگیز برای سیستم است، زیرا اطلاعات کافی برای تخمین محل اشیاء در صحنه وجود ندارد.
آنان برای آموزش یک شبکه یادگیری عمیق جهت ایجاد نمایی جدید بر اساس یک تصویر ورودی واحد، مجموعه بزرگی از تصاویر و تصاویر نمای جدید مربوط به آنها را به شبکه نشان دادند. اگرچه این یک فرآیند دشوار است، اما شبکه یاد میگیرد که چگونه به مرور زمان این کار را انجام دهد. یک جنبه اساسی این رویکرد، مدلسازی صحنه ورودی برای سادهتر کردن روند آموزش برای اجرای شبکه است. اما کلانتری و لی در آزمایشهای اولیه راهی برای این کار نداشتند.
کلانتری گفت: «ما متوجه شدیم که نمایش صحنه برای آموزش کارآمد شبکه بسیار مهم است.»
محققان برای این که فرآیند آموزش بیشتر قابل کنترل باشد، تصویر ورودی را به یک تصویر چند صفحهای تبدیل کردند که نوعی نمایش سه بعدی لایهای است. ابتدا آنان تصویر را با توجه به اشیاء موجود در صحنه به سطحهای مختلف تقسیم کردند. سپس، برای تولید عکسی از صحنه با نمای جدید، سطحها را به روشی خاص در مقابل یکدیگر حرکت داده و آنها را ترکیب کردند. با استفاده از این نمایش، شبکه میآموزد که موقعیت اشیاء را در صحنه استنباط کند.
برای آموزش کارآمد شبکه، لی و کلانتری مجموعهای متشکل با بیش از ۲۰۰۰ صحنه منحصربهفرد را به شبکه نشان دادند که حاوی اشیاء مختلف بود. آنان نشان دادند که این رویکرد میتواند تصاویر متنوعی با کیفیت بالا از صحنههای مختلف را ایجاد کند که از روشهای پیشرفته قبلی بهتر است.
محققان در حال حاضر در تلاش هستند که رویکرد خود را برای ترکیب فیلمها گسترش دهند. از آنجا که فیلمها در اصل دستهای از تصاویر منفرد هستند که به صورت متوالی و با سرعت پخش میشوند، میتوانند از روش خود برای ایجاد نماهای جدید از هر یک از تصاویر بهطور مستقل در زمانهای مختلف استفاده کنند. اما وقتی ویدیوی تازه ایجاد شده پخش میشود، تصویر سوسو میزند و ثابت نیست.
کلانتری گفت: «ما در تلاش هستیم تا این جنبه از رویکرد را بهبود بخشیم تا تولید فیلم از نماهای مختلف مناسب باشد.»
از روش ترکیب نمایش تک تصویر نیز میتوان برای تولید تصاویر متمرکز استفاده کرد. همچنین از این روش میتوان بهطور بالقوه برای برنامههای واقعیت مجازی و واقعیت افزوده مانند بازیهای ویدیویی و انواع نرمافزارهای مختلف که به شما امکان کشف یک محیط بصری خاص را میدهد، استفاده کرد.
جزئیات بیشتر درباره این کار در مجله Association for Computing Machinery Transactions on Graphics منتشرشده است.
انتهای پیام