تعرف على كيفية تحديد أفضل أداء للانحدار الخطي للنماذج أحادية المتغير

اكتشف نموذج الانحدار الخطي الأنسب لبياناتك

مستوحاة من سؤال بعد مقالتي السابقة ، أريد معالجة مشكلة تظهر غالبًا بعد تجربة نماذج خطية مختلفة: أنت بحاجة إلى تحديد النموذج الذي تريد استخدامه. وبشكل أكثر تحديدًا ، سأل خليفة أردي صدقي:

"كيف يمكنني تحديد النموذج الأنسب لبياناتي؟ هل ألقي نظرة على مربع R ، SSE ، وما إلى ذلك؟ نظرًا لأن تفسير هذا النموذج (تربيعي ، جذر ، إلخ) سيكون مختلفًا تمامًا ، ألن تكون مشكلة؟

يمكن الإجابة على الجزء الثاني من السؤال بسهولة. أولاً ، ابحث عن النموذج الأنسب لبياناتك ثم فسر نتائجه. من الجيد أن تكون لديك أفكار حول كيفية شرح بياناتك. ومع ذلك ، فسر أفضل نموذج فقط.

سيتناول باقي هذا المقال الجزء الأول من سؤاله. يرجى ملاحظة أنني سوف أشاركمقاربتيعلى كيفيةلتحديد نموذج. هناك طرق متعددة ، وقد يفعلها الآخرون بشكل مختلف. لكني سأصف الطريقة التي تناسبني بشكل أفضل.

بالإضافة إلى ذلك ، ينطبق هذا النهج فقط على النماذج أحادية المتغير . النماذج أحادية المتغير لها متغير إدخال واحد فقط. أنا أخطط لمقال آخر ، حيث سأوضح لك كيفية تقييم النماذج متعددة المتغيرات مع المزيد من متغيرات الإدخال. لكن دعونا اليوم نركز على الأساسيات والنماذج أحادية المتغير.

للتدرب على هذا والتعرف عليه ، كتبت تطبيق ShinyApp صغيرًا. استخدمه والعب مع مجموعات البيانات والنماذج المختلفة. لاحظ كيف تتغير المعلمات وتصبح أكثر ثقة في تقييم النماذج الخطية البسيطة. أخيرًا ، يمكنك أيضًا استخدام التطبيق كإطار عمل لبياناتك. فقط قم بنسخه من جيثب.

استخدم R2 المعدل للنماذج أحادية المتغير

إذا كنت تستخدم متغير إدخال واحدًا فقط ، فإن adjusted R2القيمة تعطيك مؤشرًا جيدًا على مدى جودة أداء النموذج الخاص بك. يوضح مقدار التباين الذي يفسره نموذجك.

على عكس البسيط R2، adjusted R2يأخذ عدد عوامل الإدخال في الاعتبار. إنه يعاقب الكثير من عوامل الإدخال ويفضل النماذج البخل.

في لقطة الشاشة أعلاه ، يمكنك رؤية نموذجين بقيمة 71.3٪ و 84.32٪. على ما يبدو ، النموذج الثاني أفضل من النموذج الأول. ومع ذلك ، يمكن أن تظل النماذج ذات القيم المنخفضة مفيدة لأنها adjusted R2حساسة لمقدار الضوضاء في بياناتك. على هذا النحو ، قارن مؤشر النماذج هذا لنفس مجموعة البيانات فقط من مقارنته عبر مجموعات بيانات مختلفة.

عادة ، هناك حاجة قليلة إلى SSE

قبل أن تواصل القراءة ، دعنا نتأكد من أننا نتحدث عن نفس SSE. في ويكيبيديا ، يشير SSE إلى مجموع الأخطاء التربيعية. ومع ذلك ، في بعض الكتب المدرسية الإحصائية ، يمكن أن تشير SSE إلى مجموع المربعات الموضح (العكس تمامًا). حتى الآن ، افترض أن SSE يشير إلى مجموع تربيع الأخطاء.

ومن ثم ، فإن adjusted R2ما يقرب من 1- SSE / SST. مع إشارة SST إلى المجموع الكلي للمربعات.

لا أريد التعمق في الرياضيات وراء هذا. ما أريد أن تظهر لك هو أن من adjusted R2يتم حسابها مع SSE . لذلك لا تعطيك SSE عادة أي معلومات إضافية .

علاوة على ذلك ، adjusted R2يتم تطبيعه بحيث يكون دائمًا بين صفر وواحد. لذلك من السهل عليك وللآخرين تفسير نموذج غير مألوف adjusted R2بنسبة 75٪ بدلاً من SSE البالغ 394 - على الرغم من أن كلا الرقمين قد يفسران نفس النموذج.

إلقاء نظرة على القيم المتبقية أو شروط الخطأ!

غالبًا ما يتم تجاهل مصطلحات الخطأ أو ما يسمى بالمخلفات. غالبًا ما يخبرونك بأكثر مما قد تعتقد.

القيم المتبقية هي الفرق بين القيم المتوقعة والقيم الفعلية.

وتتمثل فائدتها في أنها يمكن أن تظهر لك حجم واتجاه أخطائك. دعنا نلقي نظرة على مثال :

هنا ، حاولت أن أتوقع مجموعة بيانات متعددة الحدود بوظيفة خطية. يوضح تحليل القيم المتبقية أن هناك مناطق يكون فيها النموذج متحيزًا لأعلى أو لأسفل.

ل ؛ 100 ، القيم المتبقية أعلى من الصفر. لذا في هذه المنطقة ، كانت القيم الفعلية أعلى من القيم المتوقعة - نموذجنا لديه ميل إلى الأسفل.50 < x &l

ل 100 < x &l؛ 150 ، ومع ذلك ، فإن المخلفات أقل من الصفر. وبالتالي ، كانت القيم الفعلية أقل من القيم المتوقعة - فالنموذج له تحيز تصاعدي.

من الجيد دائمًا معرفة ما إذا كان نموذجك يقترح قيمًا عالية جدًا أو منخفضة جدًا. لكنك عادة لا تريد أن يكون لديك أنماط كهذه.

يجب أن تكون المخلفات صفراً في المتوسط ​​(كما هو موضح بالمتوسط) ويجب توزيعها بالتساوي. يشير توقع نفس مجموعة البيانات بوظيفة متعددة الحدود 3 degreesإلى توافق أفضل بكثير:

بالإضافة إلى ذلك ، يمكنك ملاحظة ما إذا كان تباين أخطائك يزداد. في الإحصاء ، هذا يسمى التغاير المرونة. يمكنك إصلاح هذا بسهولة مع أخطاء قياسية قوية. خلاف ذلك ، من المحتمل أن تكون اختبارات الفرضيات الخاصة بك خاطئة.

رسم بياني للمخلفات

أخيرًا ، يلخص الرسم البياني حجم مصطلحات الخطأ الخاصة بك. يوفر معلومات حول النطاق الترددي للأخطاء ويشير إلى عدد المرات التي حدثت فيها الأخطاء.

تُظهر لقطات الشاشة أعلاه نموذجين لمجموعة البيانات نفسها. في الرسم البياني الأيسر ، تحدث الأخطاء ضمن نطاق من -338و 520.

في الرسم البياني الصحيح ، تحدث أخطاء داخل -293و 401. لذا فإن القيم المتطرفة أقل بكثير. علاوة على ذلك ، فإن معظم الأخطاء في نموذج المدرج التكراري الصحيح أقرب إلى الصفر. لذلك أفضل النموذج الصحيح.

ملخص

عند اختيار نموذج خطي ، هذه عوامل يجب وضعها في الاعتبار:

  • قارن فقط النماذج الخطية لنفس مجموعة البيانات.
  • ابحث عن موديل بمقاس R2 عالي الضبط
  • تأكد من أن هذا النموذج قد وزعت المخلفات بالتساوي حول الصفر
  • تأكد من أن أخطاء هذا النموذج تقع ضمن نطاق ترددي صغير

إذا كانت لديك أي أسئلة ، فاكتب تعليقًا أدناه أو اتصل بي. أنا أقدر ملاحظاتك.