كيفية إنشاء رسومات Grand Theft Auto 5 واقعية باستخدام التعلم العميق

هذا المشروع هو استمرار لمقالتي السابقة. في ذلك ، أوضحت كيف يمكننا استخدام CycleGANs لنقل نمط الصورة ، وتطبيقها لتحويل رسومات Fortnite وجعلها تبدو مثل PUBG.

CycleGAN هو نوع من شبكات الخصومة التوليدية القادرة على محاكاة النمط المرئي لصورة ما ونقلها إلى أخرى. يمكننا استخدامها لجعل رسومات اللعبة تشبه رسومات لعبة أخرى أو العالم الحقيقي.

في هذه المقالة ، أردت مشاركة المزيد من النتائج باستخدام نفس خوارزمية CycleGAN التي غطتها في عملي السابق. أولاً ، سأحاول تحسين رسومات GTA 5 من خلال تكييفها لتبدو وكأنها العالم الحقيقي. بعد ذلك ، سأغطي كيف يمكننا تحقيق نفس النتائج الواقعية للصور ، دون الحاجة إلى تقديم رسومات GTA عالية التفاصيل في المقام الأول.

بالنسبة للمهمة الأولى ، التقطت لقطات شاشة للعبة كمجال مصدر لدينا نريد تحويله إلى صورة واقعية. يأتي المجال الهدف من مجموعة بيانات مناظر المدينة التي تمثل العالم الحقيقي (الذي نهدف إلى جعل لعبتنا شبيهة به).

نتائج CycleGAN

استنادًا إلى حوالي ثلاثة أيام من التدريب لنحو 100 حقبة ، يبدو أن نموذج Cyclegan يقوم بعمل رائع للغاية في تكييف GTA مع مجال العالم الحقيقي. يعجبني حقًا كيف لا تضيع التفاصيل الصغيرة في هذه الترجمة وتحتفظ الصورة بالحدة حتى في مثل هذه الدقة المنخفضة.

الجانب السلبي الرئيسي هو أن هذه الشبكة العصبية كانت مادية تمامًا: إنها تهلوس شعار مرسيدس في كل مكان ، وتدمر التحويل المثالي تقريبًا من GTA إلى العالم الحقيقي. (ذلك لأن مجموعة بيانات مناظر المدينة تم جمعها بواسطة مالك مرسيدس.)

كيفية الحصول على نفس الرسومات الواقعية للصور بأقل جهد

في حين أن هذا النهج قد يبدو واعدًا جدًا في تحسين رسومات اللعبة ، لا أعتقد أن الإمكانات الحقيقية تكمن في متابعة خط الأنابيب هذا. أعني بذلك أنه يبدو من غير العملي تقديم مثل هذه الصورة التفصيلية للغاية ثم تحويلها إلى شيء آخر.

ألن يكون من الأفضل تركيب صورة ذات جودة مماثلة ولكن مع وقت وجهد أقل بكثير في تصميم اللعبة في المقام الأول؟ أعتقد أن الإمكانات الحقيقية تكمن في تقديم الكائنات بتفاصيل منخفضة والسماح للشبكة العصبية بتوليف الصورة النهائية من هذا العرض.

لذلك ، بناءً على الملصقات الدلالية المتوفرة في مجموعة بيانات مناظر المدينة ، قمت بتجزئة الكائنات في لقطة شاشة لـ GTA مما أعطانا تمثيلاً للرسومات منخفضة التفاصيل. ضع في اعتبارك هذا على أنه عرض لعبة لعدد قليل من الكائنات ، مثل الطريق والسيارة والمنازل والسماء وما إلى ذلك دون تصميمها بالتفصيل. سيعمل هذا كمدخل لنموذج نقل نمط الصورة الخاص بنا بدلاً من لقطة الشاشة المفصلة للغاية من اللعبة.

دعونا نرى ما هي جودة الصور النهائية التي يمكن إنشاؤها من مثل هذه الخرائط الدلالية منخفضة التفاصيل باستخدام CycleGANs.

نتائج تركيب الصور من الخرائط الدلالية

فيما يلي بعض الأمثلة عن كيفية ظهورها عندما نعيد إنشاء رسومات GTA من الخرائط الدلالية. لاحظ أنني لم أنشئ هذه الخرائط يدويًا. بدا ذلك مملاً حقًا ، لذلك تركت نموذج CycleGAN آخر يفعل ذلك (تم تدريبه على إجراء تجزئة للصور باستخدام مجموعة بيانات مناظر المدينة).

يبدو أنه تحويل جيد من بعيد ، لكن بالنظر عن كثب ، من الواضح تمامًا أن الصورة مزيفة ويفتقر إلى أي نوع من التفاصيل

الآن ، هذه النتائج هي 256 بكسل وتم إنشاؤها على وحدة معالجة الرسومات بسعة 8 جيجابايت من الذاكرة. ومع ذلك ، فقد أظهر مؤلفو الورقة الأصلية أنه من الممكن إنشاء صورة أكثر تفصيلاً بدقة 2048 × 1024 بكسل باستخدام وحدة معالجة الرسومات مع أكثر من 24 جيجابايت من الذاكرة. يستخدم إصدار التعلم الخاضع للإشراف من CycleGAN ، المسمى pix2pixHD ، والذي تم تدريبه لأداء نفس المهمة. والفتى تبدو الصورة المزيفة جميلة الرتق مقنعة!

استنتاج

تتمتع شبكات GAN بإمكانيات كبيرة لتغيير كيفية إنتاج صناعة الترفيه للمحتوى في المستقبل. إنهم قادرون على تحقيق نتائج أفضل بكثير من البشر وفي وقت أقل بكثير.

وينطبق الشيء نفسه على صناعة الألعاب أيضًا. أنا متأكد من أنه في غضون بضع سنوات ، سيحدث هذا ثورة في كيفية إنشاء رسومات الألعاب. سيكون محاكاة العالم الحقيقي أسهل بكثير من إعادة إنشاء كل شيء من البداية.

بمجرد أن نحقق ذلك ، سيكون طرح الألعاب الجديدة أسرع أيضًا. أوقات مثيرة في المستقبل مع هذه التطورات في التعلم العميق!

المزيد من النتائج في تنسيق الفيديو

يمكن العثور على جميع النتائج المذكورة أعلاه والمزيد على قناتي على YouTube وفي الفيديو المضمن أدناه. إذا أعجبك ذلك ، فلا تتردد في الاشتراك في قناتي لمتابعة المزيد من عملي.

شكرا لقرائتك! إذا أعجبك هذا المقال ، فيرجى متابعتي على Medium أو GitHub أو الاشتراك في قناتي على YouTube.