متى تستخدم خوارزميات مختلفة للتعلم الآلي: دليل بسيط

إذا كنت تعمل في التعلم الآلي لفترة كافية ، فأنت تعلم أن هناك مبدأ "لا غداء مجاني" - لا توجد خوارزمية ذات حجم واحد يناسب الجميع من شأنها أن تساعدك على حل كل مشكلة ومعالجة كل مجموعة بيانات.

أنا أعمل في Springboard - لقد أجرينا الكثير من الأبحاث في موارد وتدريب التعلم الآلي. في Springboard ، نقدم الدورة التدريبية الأولى عبر الإنترنت مع ضمان وظيفة التعلم الآلي.

ما يساعد كثيرًا عند مواجهة مشكلة جديدة هو أن يكون لديك كتاب تمهيدي لما قد تكون الخوارزمية هي الأنسب لمواقف معينة. هنا ، نتحدث عن المشاكل وأنواع البيانات المختلفة ونناقش الخوارزمية الأكثر فعالية لمحاولة كل منها ، جنبًا إلى جنب مع مورد يمكن أن يساعدك في تنفيذ هذا النموذج المحدد.

تذكر: الدليل موجود في الحلوى: أفضل نهج لبياناتك هو النموذج الذي يمنحك أفضل النتائج من الناحية التجريبية. يهدف هذا الدليل إلى صقل غرائزك الأولى ومساعدتك على تذكر النماذج التي قد تكون أكثر فاعلية لكل مشكلة وأيها قد يكون غير عملي للاستخدام.

لنبدأ بالحديث عن المتغيرات التي نحتاج إلى أخذها في الاعتبار.

U nsupervised التعلم مقابل التعلم تحت إشراف

التعلم غير الخاضع للإشراف هو المكان الذي تسمح فيه لخوارزمية التعلم الآلي ببدء التعلم وإخراج نتيجة دون أي معالجة بشرية واضحة للبيانات مسبقًا.

يتضمن التعلم الخاضع للإشراف بعض وضع العلامات ومعالجة بيانات التدريب مسبقًا من أجل هيكلتها للمعالجة.

سيكون نوع التعلم الذي يمكنك القيام به مهمًا للغاية عند بدء العمل باستخدام خوارزميات مختلفة للتعلم الآلي.

S سرعة واعتبارات الوقت

هناك اعتبارات تتعلق بالمكان والزمان لكل خوارزمية تعلم الآلة. أثناء الممارسة العملية ، من المحتمل أن تعمل مع إصدارات مُحسَّنة من كل خوارزمية تم تجميعها في إطار عمل ، فمن الجيد التفكير في كيفية تأثير الخوارزميات التي تختارها على الأداء.

الإخراج

ثالثًا ، وربما الأهم ، هو الناتج الذي تريد الحصول عليه . هل تحاول تصنيف البيانات؟ استخدامه للتنبؤ بنقاط البيانات المستقبلية؟ ما تتطلع إلى الحصول عليه كنتيجة وما تريد القيام به لبياناتك سيحدد إلى حد كبير الأساليب الخوارزمية التي يجب عليك اتباعها.

بعض الأمثلة

أنت تتطلع إلى بناء نموذج تنبؤي بسيط مع مجموعة بيانات جيدة التنظيم بدون الكثير من التعقيدات.

ربما يكون أفضل رهان هنا هو الانحدار الخطي ، وهو أمر يمكن أن يأخذ مجموعة كاملة من العوامل ومن ثم يعطيك نتيجة تنبؤية مع شرح بسيط لمعدل الخطأ وشرح بسيط للعوامل التي تساهم في التنبؤ. لا يتطلب الأمر الكثير من القوة الحسابية لتشغيل الانحدار الخطي أيضًا.

المصدر : الانحدار الخطي - عرض تفصيلي

إنك تتطلع إلى تصنيف البيانات التي تم تصنيفها بالفعل إلى نوعين أو أكثر من أنواع التسميات المتميزة بشكل حاد (على سبيل المثال ، محاولة تحديد ما إذا كان من المحتمل أن يكون الأطفال ذكرًا أم أنثى بناءً على وزنهم وطولهم) في بيئة خاضعة للإشراف.

الغريزة الأولى التي يجب أن تتحلى بها عندما ترى موقفًا كهذا هي تطبيق نموذج الانحدار اللوجستي . بعد تشغيل النموذج ، سترى أنه يفرض كل نقطة بيانات في فئتين مختلفتين ، مما يتيح لك بسهولة إخراج أي نقطة تنتمي إلى أي فئة. يمكن أيضًا تعميم نموذج الانحدار اللوجستي بسهولة للعمل مع فئات الهدف والنتائج المتعددة إذا كان هذا هو ما تتطلبه مشكلتك.

المصدر : بناء الانحدار اللوجستي

أنت تتطلع إلى وضع البيانات المستمرة غير المسماة في مجموعات مختلفة (على سبيل المثال ، وضع العملاء بسمات مسجلة معينة ومحاولة اكتشاف الفئات / المجموعات التي يمكن أن ينتمون إليها).

أول مناسبة طبيعية لهذه المشكلة هي خوارزمية التجميع K-Means ، والتي ستجمع البيانات وتجمعها عن طريق قياس المسافة بين كل نقطة. ثم هناك مجموعة متنوعة من خوارزميات التجميع ، مثل التجميع المكاني المستند إلى الكثافة للتطبيقات مع خوارزميات الضوضاء والتحول المتوسط.

المصدر : خوارزميات التجميع الخمس التي يحتاج علماء البيانات إلى معرفتها

أنت تبحث عن توقع ما إذا كانت سلسلة من الأحرف أو مجموعة سمات تندرج في فئة واحدة من البيانات أو أخرى (تصنيف النص تحت الإشراف) - على سبيل المثال ، ما إذا كانت المراجعة إيجابية أم سلبية.

من المحتمل أن يكون أفضل رهان لك هنا هو Naive Bayes ، وهو نموذج بسيط ولكنه قوي يمكن استخدامه لتصنيف النص. مع بعض المعالجة المسبقة للنص وتنظيفه (كن حريصًا بشكل خاص على إزالة كلمات إيقاف الحشو مثل "و" التي قد تضيف ضوضاء لمجموعة البيانات الخاصة بك) ، يمكنك الحصول على مجموعة رائعة من النتائج بنموذج بسيط للغاية.

الرهان اللائق الآخر هو الانحدار اللوجستي ، وهو نموذج بسيط لفهمه وشرحه ، وأقل صعوبة في التمييز من Naive Bayes (والذي غالبًا ما يعين الاحتمالات كلمة بكلمة بدلاً من تسمية مقتطف نصي بشكل شامل بأنه جزء من مجموعة أو أخرى ).

بالانتقال إلى شيء أكثر قوة ، من المحتمل أن تساعد خوارزمية آلة الدعم الخطي في تحسين أدائك إذا كنت تريد التخطي للأمام هنا ، فيمكنك (على الرغم من أنني أقترح تجربة كلا النموذجين ومقارنة أيهما يعمل بشكل أفضل - لدى Naive Bayes تطبيق سهل للغاية على أطر مثل scikit-Learn وهو ليس مكلفًا للغاية من الناحية الحسابية لذا يمكنك تحمل تكاليفه لاختبار كليهما).

أخيرًا ، يمكن أن يعمل تحليل كيس الكلمات أيضًا - فكر في القيام بمجموعة من الطرق المختلفة واختبار كل هذه الأساليب ضد بعضها البعض ، اعتمادًا على مجموعة البيانات المعنية.

المصدر : مقارنة واختيار نموذج تصنيف نص متعدد الفئات

أنت تتطلع إلى القيام بالتعلم غير المنظم على مجموعات بيانات الصور أو الفيديو على نطاق واسع (على سبيل المثال ، تصنيف الصور).

أفضل خوارزمية للتعامل مع الصور المختلفة هي الشبكة العصبية التلافيفية التي يتم تنظيمها بشكل مشابه لكيفية تحليل القشرة البصرية للحيوان.

يقاس الأداء (معدل الخطأ المنخفض) في منافسة ImageNet ، تأتي بنية SE-Resnet في المقدمة ، على الرغم من استمرار تطور المجال ، تظهر التطورات الجديدة كل يوم تقريبًا.

ومع ذلك ، يجب أن تدرك أن الشبكات العصبية التلافيفية كثيفة وتتطلب الكثير من القوة الحسابية - لذا تأكد من أن لديك قدرة الأجهزة على تشغيل هذه النماذج على مجموعات البيانات واسعة النطاق.

المصدر : مراجعة خوارزميات التعلم العميق لتصنيف الصور

أنت تتطلع إلى تصنيف نقاط النتائج التي تأتي من عملية محددة جيدًا (على سبيل المثال: عدد المعينين من عملية مقابلة سابقة الإعداد ، حيث تعرف أو يمكنك استنتاج احتمالات كل حدث بشكل حسابي).

ربما يكون الخيار الأفضل لهذا هو خوارزمية شجرة القرار التي ستشرح بوضوح نقاط الانقسام بين تصنيف شيء ما في مجموعة أو أخرى.

المصدر : أشجار القرار في التعلم الآلي

أنت تتطلع إلى إجراء تحليل متسلسل زمني ببيانات محددة جيدًا وخاضعة للإشراف (على سبيل المثال ، التنبؤ بأسعار الأسهم بناءً على الأنماط التاريخية في سوق الأوراق المالية المرتبة على أساس زمني من الماضي إلى الحاضر).

يتم إعداد شبكة عصبية متكررة للقيام بتحليل التسلسل من خلال احتواء ذاكرة داخلية متدفقة للبيانات التي تعالجها ، مما يسمح لها بمراعاة العلاقة بين البيانات والأفق الزمني وترتيب نشرها.

المصدر : الشبكات العصبية المتكررة و LSTM

تغليف

خذ التوصيات والموارد أعلاه ، وقم بتطبيقها كنوع من الغريزة الأولى لتصميمك - ستساعدك على القفز إلى أي عمل تقوم به بشكل أسرع قليلاً. إذا كنت مهتمًا بأن يتم إرشادك من قبل خبير التعلم الآلي في تعلم كيفية تدريب غرائزك بشكل أكبر ، فراجع المسار الوظيفي للذكاء الاصطناعي / التعلم الآلي في Springboard.