شيواوا أم فطيرة؟ بحثي عن أفضل واجهة برمجة تطبيقات لرؤية الكمبيوتر

يوضح ميم الإنترنت الشهير هذا التشابه المزعج المشترك بين الشيواوا والكعك. تتم مشاركة هذه الصور بشكل شائع في العروض التقديمية في صناعة الذكاء الاصطناعي (بما في ذلك أنا).

لكن أحد الأسئلة التي لم أر أي شخص يجيب عليها هو مدى جودة الذكاء الاصطناعي الحديث في إزالة عدم اليقين من صورة يمكن أن تشبه تشيهواهوا أو كعك؟ للترفيه والتعليم ، سأبحث في هذا السؤال اليوم.

أصبح التصنيف الثنائي ممكنًا منذ اختراع خوارزمية الإدراك الحسي في عام 1957. إذا كنت تعتقد أن الذكاء الاصطناعي مضخم الآن ، فقد ذكرت صحيفة نيويورك تايمز في عام 1958 أن الاختراع كان بداية لجهاز كمبيوتر "يمكنه المشي والتحدث ، انظر ، اكتب ، أعد إنتاج نفسه وكن واعيًا لوجودها ". بينما تم تصميم آلات Perceptron ، مثل Mark 1 ، للتعرف على الصور ، إلا أنها في الواقع يمكنها فقط تمييز الأنماط التي يمكن فصلها خطيًا. هذا يمنعهم من تعلم الأنماط المعقدة الموجودة في معظم الوسائط المرئية.

لا عجب في أن العالم أصيب بخيبة أمل وتبع ذلك شتاء الذكاء الاصطناعي. منذ ذلك الحين ، تفوقت التصورات متعددة الطبقات (الشائعة في الثمانينيات) والشبكات العصبية التلافيفية (التي ابتكرها Yann LeCun في عام 1998) بشكل كبير على التصورات أحادية الطبقة في مهام التعرف على الصور.

بفضل مجموعات البيانات الكبيرة المصنفة مثل ImageNet وحوسبة GPU القوية ، حققت بنيات الشبكات العصبية الأكثر تقدمًا مثل AlexNet و VGG و Inception و ResNet أداءً متطورًا في رؤية الكمبيوتر.

رؤية الكمبيوتر وواجهات برمجة تطبيقات التعرف على الصور

إذا كنت مهندسًا للتعلم الآلي ، فمن السهل تجربة هذه النماذج وضبطها بدقة باستخدام نماذج وأوزان مُدرَّبة مسبقًا في Keras / Tensorflow أو PyTorch. إذا لم تكن مرتاحًا لتغيير الشبكات العصبية بنفسك ، فأنت محظوظ. تدعي جميع شركات التكنولوجيا العملاقة الرائدة والشركات الناشئة الواعدة تقريبًا "إضفاء الطابع الديمقراطي على الذكاء الاصطناعي" من خلال تقديم واجهات برمجة تطبيقات برؤية حاسوبية سهلة الاستخدام.

أي واحد هو الأفضل؟ للإجابة على هذا السؤال ، يجب أن تحدد بوضوح أهداف عملك ، وحالات استخدام المنتج ، واختبار مجموعات البيانات ، ومقاييس النجاح قبل أن تتمكن من مقارنة الحلول مع بعضها البعض.

بدلاً من التحقيق الجاد ، يمكننا على الأقل الحصول على إحساس عالي المستوى بالسلوكيات المختلفة لكل منصة عن طريق اختبارها مع مشكلة لعبتنا المتمثلة في التمييز بين شيواوا وكعك.

إجراء الاختبار

للقيام بذلك ، قمت بتقسيم الميم الأساسي إلى 16 صورة اختبار. ثم أستخدم كود مفتوح المصدر كتبه المهندس Gaurav Oberoi لتوحيد النتائج من واجهات برمجة التطبيقات المختلفة. يتم دفع كل صورة عبر واجهات برمجة التطبيقات الست المذكورة أعلاه ، والتي تُرجع تسميات عالية الثقة كتنبؤاتهم. الاستثناءات هي Microsoft ، التي تقوم بإرجاع كل من التسميات والتسميات التوضيحية ، و Cloudsight ، التي تستخدم تقنية هجينة بين الإنسان والذكاء الاصطناعي لإرجاع تعليق واحد فقط. هذا هو السبب في أن ميزة Cloudsight يمكنها إرجاع تسميات توضيحية دقيقة بشكل مخيف للصور المعقدة ، ولكنها تستغرق وقتًا أطول من 10 إلى 20 مرة للمعالجة.

فيما يلي مثال على الإخراج. لمشاهدة نتائج جميع صور الشيواوا مقابل الكعك البالغ عددها 16 ، انقر هنا.

ما مدى جودة أداء واجهات برمجة التطبيقات؟ بخلاف Microsoft ، التي خلطت بين هذا الكعك لحيوان محشو ، أدركت كل واجهة برمجة تطبيقات أخرى أن الصورة كانت طعامًا. لكن لم يكن هناك اتفاق حول ما إذا كان الطعام عبارة عن خبز أو كعكة أو كعك أو كعك. كانت Google هي واجهة برمجة التطبيقات الوحيدة التي نجحت في تحديد الكعك باعتباره التصنيف الأكثر احتمالًا.

دعونا نلقي نظرة على مثال الشيواوا.

مرة أخرى ، كان أداء واجهات برمجة التطبيقات جيدًا. لقد أدركوا جميعًا أن الصورة هي كلب ، على الرغم من أن القليل منهم فاتهم السلالة بالضبط.

لكن كانت هناك إخفاقات محددة. أعادت شركة Microsoft تعليقًا خاطئًا بشكل صارخ ثلاث مرات منفصلة ، واصفة الكعك بأنه إما حيوان محشو أو دمية دب.

كان Google هو المعرف النهائي للكعك ، حيث أعاد "الكعك" كأعلى تصنيف لها لـ 6 من أصل 7 صور كعك في مجموعة الاختبار. لم تعرض واجهات برمجة التطبيقات الأخرى "فطيرة" كأول ملصق لأي صورة فطيرة ، ولكنها بدلاً من ذلك عرضت تسميات أقل صلة مثل "خبز" أو "ملف تعريف ارتباط" أو "كب كيك".

ومع ذلك ، على الرغم من سلسلة النجاحات التي حققتها Google ، فقد فشلت في هذه الصورة المحددة للفطائر ، حيث أعادت "مجموعة سلالات الكلاب" و "خطم" كتنبؤات.

حتى أكثر منصات التعلم الآلي تقدمًا في العالم تعثرت بسبب تحدي الشيواوا المضحك الخاص بنا. يتفوق الطفل البشري على التعلم العميق عندما يتعلق الأمر بمعرفة ما هو الطعام وما هو فيدو.

ما هي أفضل واجهة برمجة تطبيقات رؤية الكمبيوتر؟

من أجل معرفة الإجابة على هذا اللغز بعيد المنال ، يجب عليك التوجه إلى TOPBOTS لقراءة المقالة الأصلية بالكامل!