Как да създадете реалистични графики Grand Theft Auto 5 с дълбоко обучение

Този проект е продължение на предишната ми статия. В него обясних как можем да използваме CycleGAN за прехвърляне на стил на изображение и да го приложим, за да конвертираме Fortnite графики и да го направим да изглежда като PUBG.

CycleGAN е вид генеративна състезателна мрежа, която е в състояние да имитира визуалния стил на едно изображение и да го прехвърли върху друго. Можем да го използваме, за да направим графиката на играта да изглежда като тази на друга игра или реалния свят.

В тази статия исках да споделя още някои резултати, използвайки същия алгоритъм CycleGAN, който разгледах в предишната си работа. Първо, ще се опитам да подобря графиките на GTA 5, като ги адаптирам така, че да изглеждат като реалния свят. След това ще разгледам как можем да постигнем същите фотореалистични резултати, без първо да се налага да изобразяваме високо детайлни GTA графики.

За първата задача взех екранни снимки на играта като наш източник на домейн, който искаме да превърнем в нещо фотореалистично. Целевият домейн идва от набора от данни за градски пейзажи, който представя реалния свят (на който се стремим да направим играта ни подобна).

Резултати от CycleGAN

Въз основа на около три дни обучение в продължение на около 100 епохи, моделът Cyclegan изглежда много добре свършва работата по адаптиране на GTA към реалния свят. Много ми харесва как по-малките детайли не се губят в този превод и изображението запазва своята острота дори при толкова ниска резолюция.

Основният недостатък е, че тази невронна мрежа се оказа доста материалистична: навсякъде халюцинира логото на Mercedes, разрушавайки почти перфектното преобразуване от GTA в реалния свят. (Това е така, защото данните за градските пейзажи са събрани от собственик на Mercedes.)

Как да постигнете същата фотореалистична графика с по-малко усилия

Въпреки че този подход може да изглежда много обещаващ за подобряване на графиката на играта, не мисля, че истинският потенциал се крие в следването на този конвейер. С това искам да кажа, че изглежда непрактично да се направи толкова силно детайлно изображение и след това да се преобразува в нещо друго.

Не би ли било по-добре да синтезирате подобно качествено изображение, но с много по-малко време и усилия за проектиране на играта на първо място? Мисля, че истинският потенциал се крие в изобразяването на обекти с ниска детайлност и оставянето на невронната мрежа да синтезира окончателното изображение от това изобразяване.

И така, въз основа на семантичните етикети, налични в набора от данни за градски пейзажи, сегментирах обекти в екранна снимка на GTA, давайки ни представяне на графики с ниска детайлност. Помислете за това като игра, изобразяваща само няколко обекта, като пътя, колата, къщите, небето и т.н., без да ги проектирате в детайли. Това ще действа като входна информация за нашия модел за прехвърляне на стил на изображение, вместо много подробната екранна снимка от играта.

Нека видим какво качество на крайните изображения може да се генерира от такива семантични карти с ниска детайлност, използвайки CycleGANs.

Резултати от синтеза на изображения от семантични карти

Ето няколко примера за това как изглежда, когато пресъздаваме GTA графики от семантични карти. Имайте предвид, че не съм създал тези карти на ръка. Това изглеждаше наистина досадно, затова просто оставих друг модел на CycleGAN да го направи (той е обучен да извършва сегментиране на изображения, използвайки набора от данни за градските пейзажи).

Изглежда като добро преобразуване отдалеч, но като се вгледате внимателно е съвсем очевидно, че изображението е фалшиво и липсват всякакви подробности.

Сега тези резултати са 256p и са генерирани на графичен процесор с 8 GB памет. Авторите на оригиналната статия обаче са показали, че е възможно да се създаде много по-подробно изображение с размер 2048 x 1024p, като се използва графичен процесор с над 24 GB памет. Той използва контролираната учебна версия на CycleGAN, наречена pix2pixHD, която е обучена да изпълнява същата задача. И момче фалшивото изображение изглежда доста убедително!

Заключение

GAN имат голям потенциал да променят начина, по който развлекателната индустрия ще произвежда съдържание занапред. Те са в състояние да дадат много по-добри резултати от хората и за много по-малко време.

Същото е приложимо и за игралната индустрия. Сигурен съм, че след няколко години това ще революционизира начина, по който се генерират игровите графики. Ще бъде много по-лесно просто да имитирате реалния свят, отколкото да пресъздадете всичко от нулата.

След като постигнем това, пускането на нови игри също ще бъде много по-бързо. Вълнуващи времена напред с тези постижения в Deep Learning!

Още резултати във видео формат

Всички горепосочени резултати и други могат да бъдат намерени в моя канал в YouTube и във видеото, вградено по-долу. Ако ви е харесало, не се колебайте да се абонирате за моя канал, за да следите повече от работата ми.

Благодаря ви, че прочетохте! Ако тази статия ви е харесала, моля, следвайте ме в Medium, GitHub или се абонирайте за моя канал в YouTube.