شرح 9 خوارزميات تعلم الآلة الرئيسية بلغة إنجليزية بسيطة

التعلم الآلي يغير العالم. تستخدم Google التعلم الآلي لاقتراح نتائج البحث للمستخدمين. تستخدمه Netflix للتوصية بالأفلام لمشاهدتها. يستخدم Facebook التعلم الآلي لاقتراح أشخاص قد تعرفهم.

لم يكن التعلم الآلي أكثر أهمية من أي وقت مضى. في الوقت نفسه ، من الصعب فهم التعلم الآلي. الحقل مليء بالمصطلحات. ويزداد عدد خوارزميات ML المختلفة كل عام.

ستقدم لك هذه المقالة المفاهيم الأساسية في مجال التعلم الآلي. بشكل أكثر تحديدًا ، سنناقش المفاهيم الأساسية وراء أهم 9 خوارزميات للتعلم الآلي اليوم.

أنظمة التوصية

ما هي أنظمة التوصيات؟

تُستخدم أنظمة التوصية للعثور على إدخالات مماثلة في مجموعة البيانات.

ربما يكون المثال الواقعي الأكثر شيوعًا للتوصية موجودًا داخل Netflix. وبشكل أكثر تحديدًا ، ستوصي خدمة بث الفيديو الخاصة بها بالأفلام والبرامج التلفزيونية المقترحة بناءً على المحتوى الذي شاهدته بالفعل.

نظام توصية آخر هو ميزة "الأشخاص الذين قد تعرفهم" في Facebook ، والتي تقترح أصدقاء محتملين لك بناءً على قائمة أصدقائك الحاليين.

أنظمة التوصية المطورة والمنشورة بالكامل معقدة للغاية. كما أنها كثيفة الاستخدام للموارد.

نظم التوصية والجبر الخطي

تتطلب أنظمة التوصية الكاملة خلفية عميقة في الجبر الخطي للبناء من نقطة الصفر.

لهذا السبب ، قد تكون هناك مفاهيم في هذا القسم لا تفهمها إذا لم تدرس الجبر الخطي من قبل.

لا تقلق ، على الرغم من ذلك - تجعل مكتبة بايثون scikit-Learn من السهل جدًا إنشاء أنظمة توصية. S0 لا تحتاج إلى الكثير من خلفية الجبر الخطي لبناء أنظمة توصية في العالم الحقيقي.

كيف تعمل أنظمة التوصيات؟

هناك نوعان رئيسيان من أنظمة التوصية:

  • أنظمة التوصية القائمة على المحتوى
  • أنظمة توصية التصفية التعاونية

تمنحك أنظمة التوصيات المستندة إلى المحتوى توصيات بناءً على تشابه العناصر بين العناصر التي استخدمتها بالفعل. إنهم يتصرفون بالضبط بالطريقة التي تتوقع أن يتصرف بها نظام التوصية.

تنتج أنظمة توصية التصفية التعاونية توصيات بناءً على معرفة تفاعلات المستخدم مع العناصر. يقال بشكل مختلف ، إنهم يستخدمون حكمة الجموع. (ومن هنا جاءت كلمة "تعاوني" في اسمها).

في العالم الحقيقي ، تعد أنظمة توصية التصفية التعاونية أكثر شيوعًا من الأنظمة القائمة على المحتوى. هذا في المقام الأول لأنها تعطي نتائج أفضل عادة. يجد بعض الممارسين أيضًا سهولة في فهم أنظمة توصية التصفية التعاونية.

تتمتع أنظمة توصية التصفية التعاونية أيضًا بميزة فريدة تفتقدها الأنظمة القائمة على المحتوى. وبالتحديد ، لديهم القدرة على تعلم الميزات بأنفسهم.

هذا يعني أنه يمكنهم حتى البدء في تحديد أوجه التشابه بين العناصر بناءً على سمات لم تخبرهم بها حتى.

توجد فئتان فرعيتان ضمن التصفية التعاونية:

  • التصفية التعاونية القائمة على الذاكرة
  • التصفية التعاونية القائمة على النموذج

لا تحتاج إلى معرفة الاختلافات بين هذين النوعين من أنظمة توصية التصفية التعاونية لتكون ناجحًا في التعلم الآلي. يكفي الاعتراف بوجود أنواع متعددة.

ملخص القسم

فيما يلي ملخص موجز لما ناقشناه حول أنظمة التوصية في هذا البرنامج التعليمي:

  • أمثلة على أنظمة التوصية في العالم الحقيقي
  • الأنواع المختلفة لأنظمة التوصية ، وكيف يتم استخدام أنظمة التصفية التعاونية بشكل أكثر شيوعًا من أنظمة التوصية القائمة على المحتوى
  • العلاقة بين أنظمة التوصية والجبر الخطي

الانحدارالخطي

يستخدم الانحدار الخطي للتنبؤ ببعض yالقيم بناءً على قيمة مجموعة أخرى من xالقيم.

تاريخ الانحدار الخطي

تم إنشاء الانحدار الخطي في القرن التاسع عشر بواسطة فرانسيس جالتون.

كان غالتون عالما يدرس العلاقة بين الوالدين والأطفال. وبشكل أكثر تحديدًا ، كان غالتون يبحث في العلاقة بين مرتفعات الآباء ومرتفعات أبنائهم.

كان أول اكتشاف لجالتون هو أن الأبناء يميلون إلى أن يكونوا بطول آبائهم تقريبًا. هذا ليس مفاجئا.

في وقت لاحق ، اكتشف جالتون شيئًا أكثر إثارة للاهتمام. يميل طول الابن إلى أن يكون أقرب إلى متوسط ​​الطول الإجمالي لجميع الناس مما كان عليه لوالده .

أعطى غالتون هذه الظاهرة اسمًا: الانحدار . على وجه التحديد ، قال "طول ابن الأب يميل إلى التراجع (أو الانجراف نحو) متوسط ​​(الطول)".

أدى ذلك إلى مجال كامل في الإحصاء والتعلم الآلي يسمى الانحدار.

رياضيات الانحدار الخطي

عند إنشاء نموذج انحدار ، كل ما نحاول القيام به هو رسم خط أقرب ما يمكن إلى كل نقطة في مجموعة البيانات.

والمثال النموذجي على ذلك هو "طريقة المربعات الصغرى" للانحدار الخطي ، والتي تحسب فقط قرب الخط في الاتجاه لأعلى ولأسفل.

إليك مثال للمساعدة في توضيح هذا:

مثال على الرياضيات وراء انحدار المربعات الصغرى

عند إنشاء نموذج انحدار ، فإن منتجك النهائي هو معادلة يمكنك استخدامها للتنبؤ بقيمة y لقيمة x ، دون معرفة قيمة y مسبقًا.

الانحدار اللوجستي

الانحدار اللوجستي مشابه للانحدار الخطي باستثناء أنه بدلاً من حساب yقيمة عددية ، فإنه يقدر الفئة التي تنتمي إليها نقطة البيانات.

ما هو الانحدار اللوجستي؟

الانحدار اللوجستي هو نموذج التعلم الآلي الذي يستخدم لحل مشاكل التصنيف.

فيما يلي بعض الأمثلة على مشكلات تصنيف التعلم الآلي:

  • رسائل البريد الإلكتروني العشوائية (بريد عشوائي أم لا بريد عشوائي؟)
  • مطالبات تأمين السيارات (شطب أم إصلاح؟)
  • تشخيص المرض

تحتوي كل مشكلة من مشاكل التصنيف على فئتين بالضبط ، مما يجعلها أمثلة على مشاكل التصنيف الثنائي .

يعد الانحدار اللوجستي مناسبًا تمامًا لحل مشكلات التصنيف الثنائي - فنحن فقط نخصص للفئات المختلفة قيمة 0و 1على التوالي.

لماذا نحتاج إلى الانحدار اللوجستي؟ لأنه لا يمكنك استخدام نموذج انحدار خطي لعمل تنبؤات تصنيف ثنائي. لن يؤدي ذلك إلى التوافق الجيد ، لأنك تحاول ملاءمة خط مستقيم من خلال مجموعة بيانات بقيمتين محتملتين فقط.

قد تساعدك هذه الصورة في فهم سبب عدم ملاءمة نماذج الانحدار الخطي لمشاكل التصنيف الثنائي:

تصنيف الانحدار الخطي

في هذه الصورة ، y-axisيمثل احتمال أن يكون الورم خبيثًا. على العكس من ذلك ، 1-yتمثل القيمة احتمال أن الورم ليس خبيثًا. كما ترى ، يقوم نموذج الانحدار الخطي بعمل ضعيف في توقع هذا الاحتمال لمعظم الملاحظات في مجموعة البيانات.

هذا هو السبب في أن نماذج الانحدار اللوجستي مفيدة. لديهم انحناء لخطهم الأنسب ، مما يجعلهم أكثر ملاءمة للتنبؤ بالبيانات الفئوية.

فيما يلي مثال يقارن نموذج الانحدار الخطي بنموذج الانحدار اللوجستي باستخدام نفس بيانات التدريب:

الانحدار الخطي مقابل الانحدار اللوجستي

الوظيفة السينية

السبب في وجود انحناء في منحنى نموذج الانحدار اللوجستي هو أنه لا يتم حسابه باستخدام معادلة خطية. بدلاً من ذلك ، يتم إنشاء نماذج الانحدار اللوجستي باستخدام الوظيفة السينية (تسمى أيضًا الوظيفة اللوجيستية بسبب استخدامها في الانحدار اللوجستي).

لن تضطر إلى حفظ وظيفة السيني لتكون ناجحًا في التعلم الآلي. مع ذلك ، فإن وجود بعض الفهم لمظهره مفيد.

المعادلة موضحة أدناه:

المعادلة السينية

السمة الرئيسية للوظيفة السينية التي تستحق الفهم هي: بغض النظر عن القيمة التي تمررها إليها ، فإنها ستولد دائمًا ناتجًا في مكان ما بين 0 و 1.

استخدام نماذج الانحدار اللوجستي لعمل تنبؤات

لاستخدام نموذج الانحدار الخطي لعمل تنبؤات ، تحتاج عمومًا إلى تحديد نقطة قطع. عادة ما تكون نقطة القطع هذه 0.5.

دعنا نستخدم مثال تشخيص السرطان من صورتنا السابقة لنرى هذا المبدأ عمليًا. إذا كان نموذج الانحدار اللوجستي ينتج قيمة أقل من 0.5 ، فسيتم تصنيف نقطة البيانات على أنها ورم غير خبيث. وبالمثل ، إذا كانت الدالة السينية تنتج قيمة أعلى من 0.5 ، فسيتم تصنيف الورم على أنه خبيث.

استخدام مصفوفة الارتباك لقياس أداء الانحدار اللوجستي

يمكن استخدام مصفوفة الارتباك كأداة لمقارنة الإيجابيات الحقيقية والسلبيات الحقيقية والإيجابيات الكاذبة والسلبيات الكاذبة في التعلم الآلي.

تكون مصفوفات الارتباك مفيدة بشكل خاص عند استخدامها لقياس أداء نماذج الانحدار اللوجستي. فيما يلي مثال لكيفية استخدام مصفوفة الارتباك:

مثال مصفوفة الارتباك

تعد مصفوفة الارتباك مفيدة لتقييم ما إذا كان نموذجك ضعيفًا بشكل خاص في ربع معين من مصفوفة الارتباك. على سبيل المثال ، قد يحتوي على عدد كبير بشكل غير طبيعي من الإيجابيات الخاطئة.

يمكن أن يكون مفيدًا أيضًا في تطبيقات معينة ، للتأكد من أن نموذجك يعمل جيدًا في منطقة خطيرة بشكل خاص من مصفوفة الارتباك.

في مثال السرطان هذا ، على سبيل المثال ، قد ترغب في التأكد تمامًا من أن نموذجك لا يحتوي على معدل مرتفع جدًا من السلبيات الخاطئة ، لأن هذا قد يشير إلى أن شخصًا ما لديه ورم خبيث صنفته بشكل غير صحيح على أنه غير خبيث.

ملخص القسم

في هذا القسم ، تعرضت لأول مرة لنماذج التعلم الآلي للارتداد اللوجستي.

فيما يلي ملخص موجز لما تعلمته عن الانحدار اللوجستي:

  • أنواع مشاكل التصنيف المناسبة للحل باستخدام نماذج الانحدار اللوجستي
  • أن الوظيفة اللوجيستية (تسمى أيضًا الوظيفة السينية) تنتج دائمًا قيمة بين 0 و 1
  • كيفية استخدام نقاط التوقف لعمل تنبؤات باستخدام نموذج تعلم آلة الانحدار اللوجستي
  • لماذا تعتبر مصفوفات الارتباك مفيدة لقياس أداء نماذج الانحدار اللوجستي

K- أقرب الجيران

يمكن أن تساعدك خوارزمية K- الأقرب للجيران في حل مشاكل التصنيف حيث يوجد أكثر من فئتين.

ما هي خوارزمية K-Nearest Neighbours؟

خوارزمية K- الأقرب للجيران هي خوارزمية تصنيف تعتمد على مبدأ بسيط. في الواقع ، المبدأ بسيط للغاية بحيث يمكن فهمه بشكل أفضل من خلال الأمثلة.

تخيل أن لديك بيانات عن طول ووزن لاعبي كرة القدم ولاعبي كرة السلة. يمكن استخدام خوارزمية K- الأقرب للجيران للتنبؤ بما إذا كان الرياضي الجديد إما لاعب كرة قدم أو لاعب كرة سلة.

للقيام بذلك ، تحدد خوارزمية K- الأقرب Kنقاط البيانات الأقرب للملاحظة الجديدة.

الصورة التالية تصور هذا ، بقيمة K لـ 3:

تصور k أقرب الجيران

في هذه الصورة ، يتم تصنيف لاعبي كرة القدم كنقاط بيانات زرقاء ولاعبي كرة السلة كنقاط برتقالية تم تصنيف نقطة البيانات التي نحاول تصنيفها على أنها خضراء.

نظرًا لأن غالبية (2 من 3) نقاط بيانات الخزانات لنقاط البيانات الجديدة هي لاعبو كرة قدم زرقاء ، فإن خوارزمية K-الأقرب للجيران ستتوقع أن نقطة البيانات الجديدة هي أيضًا لاعب كرة قدم.

خطوات بناء خوارزمية K- أقرب الجيران

الخطوات العامة لبناء خوارزمية جيران K هي:

  1. قم بتخزين كافة البيانات
  2. احسب المسافة الإقليدية من نقطة البيانات الجديدة xإلى جميع النقاط الأخرى في مجموعة البيانات
  3. رتب النقاط في مجموعة البيانات بترتيب زيادة المسافة منها x
  4. توقع باستخدام نفس الفئة مثل غالبية Kنقاط البيانات الأقرب إليهاx

أهمية K في خوارزمية K- أقرب الجيران

على الرغم من أنه قد لا يكون واضحًا منذ البداية ، فإن تغيير القيمة Kفي خوارزمية K- الأقرب للجيران سيغير الفئة التي يتم تعيين نقطة جديدة لها.

وبشكل أكثر تحديدًا ، Kسيؤدي الحصول على قيمة منخفضة جدًا إلى أن يتنبأ نموذجك تمامًا ببيانات التدريب الخاصة بك ويتوقع بشكل سيء بيانات الاختبار الخاصة بك وبالمثل ، فإن وجود Kقيمة عالية جدًا سيجعل نموذجك معقدًا بشكل غير ضروري.

يقوم التصور التالي بعمل ممتاز لتوضيح ذلك:

قيمة K ومعدلات الخطأ

إيجابيات وسلبيات خوارزمية K-Nearest Neighbours

لاختتام هذه المقدمة لخوارزمية الجيران K ، أردت أن أناقش بإيجاز بعض إيجابيات وسلبيات استخدام هذا النموذج.

فيما يلي بعض المزايا الرئيسية لخوارزمية K- الجيران:

  • الخوارزمية بسيطة وسهلة الفهم
  • من التافه تدريب النموذج على بيانات التدريب الجديدة
  • إنه يعمل مع أي عدد من الفئات في مشكلة التصنيف
  • من السهل إضافة المزيد من البيانات إلى مجموعة البيانات
  • يقبل النموذج معلمتين فقط: Kومقياس المسافة الذي ترغب في استخدامه (عادةً ما تكون المسافة الإقليدية)

وبالمثل ، فيما يلي بعض عيوب الخوارزمية الرئيسية:

  • هناك تكلفة حسابية عالية لعمل التنبؤات ، لأنك تحتاج إلى فرز مجموعة البيانات بأكملها
  • لا يعمل بشكل جيد مع الميزات الفئوية

ملخص القسم

فيما يلي ملخص موجز لما تعلمته للتو حول خوارزمية k- الأقرب للجيران:

  • مثال على مشكلة التصنيف (لاعبي كرة القدم مقابل لاعبي كرة السلة) التي يمكن أن تحلها خوارزمية الجيران K الأقرب
  • كيف يستخدم أقرب جيران K المسافة الإقليدية لنقاط البيانات المجاورة للتنبؤ بالفئة التي تنتمي إليها نقطة البيانات الجديدة
  • لماذا قيمة Kالأمور لعمل التنبؤات
  • إيجابيات وسلبيات استخدام خوارزمية K- الأقرب

أشجار القرار والغابات العشوائية

تعتبر أشجار القرار والغابات العشوائية أمثلة على أساليب الأشجار.

وبشكل أكثر تحديدًا ، تُعد أشجار القرار نماذج للتعلم الآلي تُستخدم لإجراء تنبؤات من خلال التنقل عبر كل ميزة في مجموعة البيانات ، واحدة تلو الأخرى. الغابات العشوائية عبارة عن مجموعات من أشجار القرار التي تستخدم أوامر عشوائية للمعالم في مجموعات البيانات.

ما هي طرق الشجرة؟

قبل أن نتعمق في الأسس النظرية لطرق الشجرة في التعلم الآلي ، من المفيد أن نبدأ بمثال.

تخيل أنك تلعب كرة السلة كل يوم اثنين. علاوة على ذلك ، تقوم دائمًا بدعوة نفس الصديق ليأتي للعب معك.

في بعض الأحيان يأتي الصديق بالفعل. في بعض الأحيان لا يفعلون ذلك.

يعتمد قرار القدوم من عدمه على عوامل عديدة ، مثل الطقس ودرجة الحرارة والرياح والتعب. تبدأ في ملاحظة هذه الميزات وتبدأ في تتبعها جنبًا إلى جنب مع قرار صديقك باللعب أم لا.

يمكنك استخدام هذه البيانات للتنبؤ بما إذا كان صديقك سيحضر للعب كرة السلة أم لا. إحدى التقنيات التي يمكنك استخدامها هي شجرة القرار. إليك ما ستبدو عليه شجرة القرار هذه:

مثال على شجرة القرار

تحتوي كل شجرة قرار على نوعين من العناصر:

  • Nodes: المواقع التي تنقسم فيها الشجرة وفقًا لقيمة بعض السمات
  • Edges: نتيجة الانقسام إلى العقدة التالية

تستطيع أن ترى في الصورة أعلاه أن هناك عقد ل outlook، humidityو windy. هناك ميزة لكل قيمة محتملة لكل من هذه السمات.

إليك جزئين آخرين من مصطلحات شجرة القرار التي يجب أن تفهمها قبل المتابعة:

  • Root: العقدة التي تقوم بإجراء الانقسام الأول
  • Leaves: العقد الطرفية التي تتنبأ بالنتيجة النهائية

لديك الآن فهم أساسي لماهية أشجار القرار. سنتعرف على كيفية بناء أشجار القرار من البداية في القسم التالي.

كيفية بناء أشجار القرار من الصفر

بناء أشجار القرار أصعب مما قد تتخيله. هذا لأن تحديد الميزات التي يجب تقسيم بياناتك عليها (وهو موضوع ينتمي إلى حقلي الانتروبيا واكتساب المعلومات) يعد مشكلة رياضية معقدة.

لمعالجة هذا الأمر ، يستخدم ممارسو التعلم الآلي عادةً العديد من أشجار القرار باستخدام عينة عشوائية من الميزات التي تم اختيارها كتقسيم.

على نحو مختلف ، يتم اختيار عينة عشوائية جديدة من الميزات لكل شجرة في كل تقسيم. هذه التقنية تسمى غابات عشوائية .

بشكل عام ، يختار الممارسون عادةً حجم العينة العشوائية للميزات (المشار إليها m) لتكون الجذر التربيعي لعدد الميزات الإجمالية في مجموعة البيانات (المشار إليها p). ليكون موجزًا ​​، mهو الجذر التربيعي لـ p، ثم يتم تحديد ميزة معينة بشكل عشوائي من m.

إذا لم يكن هذا منطقيًا تمامًا في الوقت الحالي ، فلا تقلق. سيكون الأمر أكثر وضوحًا عندما تقوم في النهاية ببناء أول نموذج عشوائي للغابات.

فوائد استخدام الغابات العشوائية

تخيل أنك تعمل مع مجموعة بيانات لها ميزة واحدة قوية للغاية. على نحو مختلف ، تحتوي مجموعة البيانات على ميزة واحدة أكثر تنبؤًا بالنتيجة النهائية من الميزات الأخرى في مجموعة البيانات.

إذا كنت تقوم ببناء أشجار القرار يدويًا ، فمن المنطقي استخدام هذه الميزة باعتبارها الجزء العلوي من شجرة القرار. هذا يعني أنه سيكون لديك العديد من الأشجار التي ترتبط تنبؤاتها بشكل كبير.

نريد تجنب ذلك لأن أخذ متوسط ​​المتغيرات شديدة الارتباط لا يقلل بشكل كبير من التباين. عن طريق التحديد العشوائي للميزات لكل شجرة في غابة عشوائية ، تصبح الأشجار مترابطة ويقل تباين النموذج الناتج. هذه العلاقة الزخرفية هي الميزة الرئيسية لاستخدام الغابات العشوائية على أشجار القرار المصنوعة يدويًا

ملخص القسم

فيما يلي ملخص موجز لما تعلمته عن أشجار القرار والغابات العشوائية في هذه المقالة:

  • مثال على مشكلة يمكنك توقعها باستخدام أشجار القرار
  • عناصر شجرة القرار: nodes، edges، roots، وleaves
  • كيف يسمح لنا أخذ عينات عشوائية من ميزات شجرة القرار ببناء غابة عشوائية
  • لماذا استخدام الغابات العشوائية لتزيين المتغيرات يمكن أن يكون مفيدًا لتقليل تباين نموذجك النهائي

دعم آلات المتجهات

آلات المتجه الداعمة هي خوارزميات تصنيف (على الرغم من أنه ، من الناحية الفنية ، يمكن استخدامها أيضًا لحل مشاكل الانحدار) التي تقسم مجموعة البيانات إلى فئات بناءً على تشريح أكبر فجوة بين الفئات. سوف يصبح هذا المفهوم أكثر وضوحًا من خلال التصورات في لحظة.

ما هي آلات المتجهات الداعمة؟

آلات المتجهات الداعمة - أو SVMs باختصار - هي نماذج تعلم آلي خاضعة للإشراف مع خوارزميات التعلم المرتبطة التي تحلل البيانات وتتعرف على الأنماط.

يمكن استخدام آلات المتجهات الداعمة لكل من مشاكل التصنيف ومشاكل الانحدار. في هذه المقالة ، سننظر على وجه التحديد في استخدام آلات ناقلات الدعم لحل مشاكل التصنيف.

كيف تعمل آلات المتجهات الداعمة؟

دعنا نتعمق في كيفية عمل آلات المتجهات الداعمة حقًا.

بالنظر إلى مجموعة من أمثلة التدريب - تم تمييز كل منها للانتماء إلى واحدة من فئتين - تقوم خوارزمية تدريب آلة متجه الدعم ببناء نموذج. يقوم هذا النموذج بتعيين أمثلة جديدة في إحدى الفئتين. هذا يجعل آلة متجه الدعم مصنّف خطي ثنائي غير احتمالي.

يستخدم SVM الهندسة لعمل تنبؤات قاطعة.

بشكل أكثر تحديدًا ، يقوم نموذج SVM بتعيين نقاط البيانات كنقاط في الفضاء ويقسم الفئات المنفصلة بحيث يتم تقسيمها بواسطة فجوة مفتوحة واسعة قدر الإمكان. من المتوقع أن تنتمي نقاط البيانات الجديدة إلى فئة بناءً على جانب الفجوة التي تنتمي إليها.

فيما يلي مثال مرئي يمكن أن يساعدك على فهم الحدس الكامن وراء آلات ناقلات الدعم:

كما ترى ، إذا وقعت نقطة بيانات جديدة على الجانب الأيسر من الخط الأخضر ، فسيتم تسميتها بالفئة الحمراء. وبالمثل ، إذا وقعت نقطة بيانات جديدة على الجانب الأيمن من الخط الأخضر ، فسيتم تصنيفها على أنها تنتمي إلى الفئة الزرقاء.

يسمى هذا الخط الأخضر بالمستوى الفائق ، وهو جزء مهم من المفردات لدعم خوارزميات آلة المتجه.

دعنا نلقي نظرة على تمثيل مرئي مختلف لآلة متجه الدعم:

في هذا الرسم التخطيطي ، يُسمى المستوى الفائق المستوى الأمثل . تُعرّف نظرية آلة المتجه الداعمة المستوي الفائق الأمثل بأنه المستوى الذي يزيد الهامش بين أقرب نقاط البيانات من كل فئة.

كما ترى ، يلامس خط الهامش فعليًا ثلاث نقاط بيانات - اثنتان من الفئة الحمراء وواحدة من الفئة الزرقاء. تسمى نقاط البيانات هذه التي تلمس خطوط الهامش متجهات الدعم وهي المكان الذي تحصل منه آلات ناقلات الدعم على أسمائها.

ملخص القسم

فيما يلي ملخص موجز لما تعلمته للتو عن آلات المتجهات الداعمة:

  • آلات المتجهات الداعمة هي مثال لخوارزمية التعلم الآلي الخاضعة للإشراف
  • يمكن استخدام آلات المتجهات الداعمة لحل مشاكل التصنيف والانحدار
  • كيف تصنف آلات المتجهات الداعمة نقاط البيانات باستخدام المستوى الفائق الذي يزيد الهامش بين الفئات في مجموعة البيانات
  • أن نقاط البيانات التي تلمس خطوط الهامش في آلة متجه الدعم تسمى متجهات الدعم . نقاط البيانات هذه هي المكان الذي تشتق منه آلات ناقلات الدعم اسمها.

K-Means Clustering

K-mean clustering عبارة عن خوارزمية تعلم آلي تسمح لك بتحديد أجزاء من البيانات المتشابهة داخل مجموعة بيانات.

ما هو K-Means Clustering؟

K-mean clustering عبارة عن خوارزمية تعلم آلي غير خاضعة للإشراف.

هذا يعني أنه يأخذ بيانات غير محددة وسيحاول تجميع مجموعات متشابهة من الملاحظات معًا داخل بياناتك.

تعد خوارزميات التجميع K-mean مفيدة للغاية في حل مشاكل العالم الحقيقي. فيما يلي بعض حالات الاستخدام لنموذج التعلم الآلي هذا:

  • تقسيم العملاء لفرق التسويق
  • تصنيف الوثيقة
  • تحسين مسار التسليم لشركات مثل Amazon أو UPS أو FedEx
  • تحديد مراكز الجريمة والرد عليها داخل المدينة
  • تحليلات رياضية احترافية
  • التنبؤ بالجرائم الإلكترونية ومنعها

الهدف الأساسي لـ K يعني خوارزمية التجميع هو تقسيم مجموعة البيانات إلى مجموعات متميزة بحيث تكون الملاحظات داخل كل مجموعة متشابهة مع بعضها البعض.

إليك تمثيل مرئي لما يبدو عليه هذا في الممارسة:

تصور لخوارزمية K Means Clustering

سوف نستكشف الرياضيات الكامنة وراء مجموعة K-mean في القسم التالي من هذا البرنامج التعليمي.

كيف تعمل خوارزميات التجميع K-Means؟

تتمثل الخطوة الأولى في تشغيل خوارزمية التجميع K-mean في تحديد عدد المجموعات التي ترغب في تقسيم بياناتك إليها. هذا العدد من المجموعات هو Kالقيمة المشار إليها في اسم الخوارزمية.

يعد اختيار Kالقيمة داخل خوارزمية التجميع K- خيارًا مهمًا. سنتحدث أكثر عن كيفية اختيار قيمة مناسبة Kلاحقًا في هذه المقالة.

بعد ذلك ، يجب عليك تعيين كل نقطة بشكل عشوائي في مجموعة البيانات الخاصة بك إلى مجموعة عشوائية. يعطي هذا مهمتنا الأولية التي تقوم بعد ذلك بتشغيل التكرار التالي عليها حتى تتوقف المجموعات عن التغيير:

  • حساب النقطه الوسطى كل العنقود عن طريق أخذ متوسط ​​متجه النقاط داخل تلك الكتلة
  • أعد تعيين كل نقطة بيانات إلى المجموعة التي بها أقرب نقطة مركزية

فيما يلي رسم متحرك لكيفية عمل هذا في الممارسة العملية لخوارزمية التجميع K-mean مع Kقيمة 3. يمكنك أن ترى النقطه الوسطى لكل عنقود ممثلة +بحرف أسود .

تصور لخوارزمية K Means Clustering

كما ترى ، يستمر هذا التكرار حتى تتوقف المجموعات عن التغيير - مما يعني أنه لم يعد يتم تخصيص نقاط البيانات لمجموعات جديدة.

يعني اختيار قيمة K المناسبة لـ K خوارزميات التجميع

إن اختيار Kقيمة مناسبة لخوارزمية التجميع K-mean أمر صعب للغاية في الواقع. لا توجد إجابة "صحيحة" لاختيار "أفضل" Kقيمة.

إحدى الطرق التي يستخدمها ممارسو التعلم الآلي غالبًا تسمى طريقة الكوع .

لاستخدام طريقة الكوع ، فإن أول شيء عليك القيام به هو حساب مجموع الأخطاء التربيعية (SSE) لك خوارزمية التجميع K لمجموعة من Kالقيم. يعني SSE في K أن خوارزمية التجميع يتم تعريفها على أنها مجموع المسافة المربعة بين كل نقطة بيانات في الكتلة والنقطة الوسطى لتلك المجموعة.

وكمثال على هذه الخطوة، قد حساب SSE لل Kقيم 2، 4، 6، 8، و 10.

بعد ذلك ، ستحتاج إلى إنشاء قطعة أرض من SSE مقابل هذه Kالقيم المختلفة . ستلاحظ أن الخطأ يتناقص مع Kزيادة القيمة.

هذا أمر منطقي - كلما زاد عدد الفئات التي تقوم بإنشائها داخل مجموعة بيانات ، زاد احتمال أن تكون كل نقطة بيانات قريبة من مركز مجموعتها المحددة.

مع ذلك ، فإن الفكرة وراء طريقة الكوع هي اختيار قيمة Kيبطئ عندها SSE معدل انخفاضه بشكل مفاجئ. ينتج هذا الانخفاض المفاجئ elbowفي الرسم البياني.

كمثال ، هنا رسم بياني لـ SSE مقابل K. في هذه الحالة ، تقترح طريقة الكوع استخدام Kقيمة تقريبًا 6.

تصور لخوارزمية K Means Clustering

الأهم من ذلك ، 6هو مجرد تقدير لقيمة جيدة Kللاستخدام. لا توجد أبدًا Kقيمة "أفضل" في خوارزمية التجميع K-mean. كما هو الحال مع العديد من الأشياء في مجال التعلم الآلي ، هذا قرار يعتمد بشكل كبير على الموقف.

ملخص القسم

فيما يلي ملخص موجز لما تعلمته في هذه المقالة:

  • أمثلة على مشكلات التعلم الآلي غير الخاضعة للإشراف والتي يمكن لخوارزمية التجميع K-mean حلها
  • المبادئ الأساسية لما هي خوارزمية التجميع K-
  • كيف تعمل خوارزمية التجميع K-
  • كيفية استخدام طريقة الكوع لتحديد قيمة مناسبة Kفي نموذج التجميع K- يعني

تحليل المكون الرئيسي

يتم استخدام تحليل المكون الرئيسي لتحويل مجموعة بيانات متعددة الميزات إلى مجموعة بيانات محولة بميزات أقل حيث تكون كل ميزة جديدة عبارة عن مزيج خطي من الميزات الموجودة مسبقًا. تهدف مجموعة البيانات المحولة هذه إلى شرح معظم التباين في مجموعة البيانات الأصلية بمزيد من البساطة.

ما هو تحليل المكونات الرئيسية؟

تحليل المكون الرئيسي هو أسلوب تعلم آلي يستخدم لفحص العلاقات المتبادلة بين مجموعات المتغيرات.

يقال بشكل مختلف ، تحليل المكون الرئيسي يدرس مجموعات من المتغيرات من أجل تحديد الهيكل الأساسي لتلك المتغيرات.

يسمى تحليل المكون الرئيسي أحيانًا تحليل العوامل .

بناءً على هذا الوصف ، قد تعتقد أن تحليل المكون الرئيسي مشابه تمامًا للانحدار الخطي.

ليس هذا هو الحال. في الواقع ، هاتان التقنيتان لهما بعض الاختلافات المهمة.

الاختلافات بين الانحدار الخطي وتحليل المكونات الرئيسية

يحدد الانحدار الخطي أفضل خط ملائم من خلال مجموعة بيانات. يحدد تحليل المكون الرئيسي عدة خطوط متعامدة تناسب مجموعة البيانات بشكل أفضل.

إذا لم تكن معتادًا على مصطلح متعامد ، فهذا يعني فقط أن الخطوط بزوايا قائمة (90 درجة) لبعضها البعض - مثل الشمال والشرق والجنوب والغرب على الخريطة.

دعنا نفكر في مثال لمساعدتك على فهم هذا بشكل أفضل.

تحليل مكون رئيسي

ألق نظرة على تسميات المحور في هذه الصورة.

في هذه الصورة ، يمثل المكون الرئيسي للمحور x 73٪ من التباين في مجموعة البيانات. يوضح المكون الرئيسي للمحور ص حوالي 23٪ من التباين في مجموعة البيانات.

هذا يعني أن 4٪ من التباين في مجموعة البيانات لا يزال غير مفسر. يمكنك تقليل هذا الرقم بشكل أكبر عن طريق إضافة المزيد من المكونات الأساسية إلى تحليلك.

ملخص القسم

فيما يلي ملخص موجز لما تعلمته حول تحليل المكونات الرئيسية في هذا البرنامج التعليمي:

  • يحاول تحليل المكون الرئيسي هذا العثور على عوامل متعامدة تحدد التباين في مجموعة البيانات
  • الفروق بين تحليل المكون الرئيسي والانحدار الخطي
  • كيف تبدو المكونات الأساسية المتعامدة عند تصورها داخل مجموعة بيانات
  • يمكن أن تساعدك إضافة المزيد من المكونات الأساسية في شرح المزيد من التباين في مجموعة البيانات