تصنيفات من يجب أن تثق؟ IMDB ، Rotten Tomatoes ، Metacritic ، أو Fandango؟

يقوم عالم البيانات بالتحقيق

هل يجب عليك مشاهدة فيلم؟ حسنًا ، هناك الكثير من العوامل التي يجب مراعاتها ، مثل المخرج والممثلين وميزانية الفيلم. يعتمد معظمنا في قرارنا على مراجعة أو مقطع دعائي قصير أو فقط عن طريق التحقق من تصنيف الفيلم.

هناك عدة أسباب وجيهة لرغبتك في تجنب قراءة التعليقات أو مشاهدة مقطع دعائي ، على الرغم من أنها توفر معلومات أكثر بكثير من التقييم.

أولاً ، قد ترغب في تجنب المفسدين تمامًا ، مهما كانت صغيرة. انا افهم ذلك!

ثانيًا ، ربما تريد تجربة مشاهدة غير متأثرة بهذا الفيلم. عادةً ما ينطبق هذا فقط على المراجعات ، التي يتم رشها بإطارات ، مثل "هذا فيلم عن تعقيد الكون" أو "هذا الفيلم لا يتعلق بالحب حقًا". بمجرد تشفير هذه الإطارات في ذاكرتك قصيرة المدى ، من الصعب حقًا منعها من التدخل في تجربة الفيلم الخاصة بك.

سبب وجيه آخر هو أنك إذا كنت متعبًا أو مسرعًا ، فقد لا ترغب في قراءة مراجعة ، ناهيك عن مشاهدة مقطع دعائي مدته دقيقتان.

لذلك يبدو أن التصنيف الرقمي للفيلم يمثل حلاً جيدًا في مواقف قليلة جدًا ، لعدد غير قليل من الأشخاص.

تهدف هذه المقالة إلى التوصية بموقع واحد للحصول بسرعة على تصنيف فيلم دقيق ، وتقدم حجة قوية قائمة على البيانات لذلك.

معايير "الأفضل"

يشبه تقديم مثل هذه التوصية قول "هذا هو أفضل مكان للبحث عن تصنيف فيلم" ، وهو عبارة تقييمية ، تستند إلى بعض المعايير المستخدمة لتحديد ما هو أفضل ، وما هو أسوأ أو أسوأ ، وما هو الأفضل ، في هذه الحالة. لتوصيتي ، سأستخدم معيارًا واحدًا: التوزيع الطبيعي.

أفضل مكان للبحث عن تصنيف فيلم هو معرفة من يتم توزيع تقييماته بنمط يشبه إلى حد كبير نمط التوزيع الطبيعي أو مطابق له ، وهو ما يلي: بالنظر إلى مجموعة من القيم الموجودة في فترة زمنية معينة ، معظمهم في منتصفه ، والبعض الآخر في أقصى تلك الفترة الفاصلة. بشكل عام ، هذا هو الشكل الذي يبدو عليه التوزيع الطبيعي (المعروف أيضًا باسم Gaussian):

ما هو الأساس المنطقي وراء هذا المعيار؟ حسنًا ، من تجربتي الخاصة التي تتكون من عدة مئات من الأفلام ، يمكنني القول أنني رأيت:

  • عدد قليل من الأشياء الرائعة التي شاهدتها عدة مرات
  • زوجان كانا مروعين حقًا ، وجعلني أشعر بالندم على الوقت الذي أمضيته في مشاهدتهما
  • ومجموعة كاملة من الأشخاص العاديين ، معظمهم لا أستطيع حتى تذكر الحبكة بعد الآن.

أعتقد أن معظم الناس - سواء كانوا نقادًا أو محبي السينما أو مجرد رواد سينما عاديين - مروا بتجربة مماثلة.

إذا كانت تقييمات الأفلام تعبر بالفعل عن جودة الفيلم ، فيجب أن نرى نفس النمط لكليهما.

نظرًا لأن معظمنا يقيم الجزء الأكبر من الأفلام على أنها ذات جودة متوسطة ، يجب أن نرى نفس النمط عندما نقوم بتحليل تقييمات الأفلام. ينطبق نفس المنطق على الأفلام السيئة والجيدة.

إذا لم تكن مقتنعًا حتى الآن بضرورة وجود مثل هذا التطابق بين الأنماط ، ففكر في توزيع التصنيفات لفيلم واحد. نظرًا لتصنيف العديد من الأشخاص للفيلم ، فليس من الإيمان أن نفترض أنه في أغلب الأحيان سيكون هناك الكثير منهم لديهم تفضيلات مماثلة. سيوافقون عمومًا على أن الفيلم إما سيء أو متوسط ​​أو جيد (سأحدد لاحقًا هذه القيم النوعية). أيضًا ، سيكون هناك عدد قليل من الأشخاص الآخرين الذين سيقيمون الفيلم بإحدى القيمتين النوعيتين الأخريين.

إذا تصورنا توزيع جميع التصنيفات لفيلم فردي ، فسنرى على الأرجح أن مجموعة واحدة تتشكل في إحدى المناطق المقابلة لتصنيف منخفض أو متوسط ​​أو مرتفع.

بشرط أن يتم اعتبار معظم الأفلام متوسطة ، فإن المجموعة حول المنطقة المتوسطة لديها احتمالية أكبر لحدوثها ، وللمجموعتين الأخريين احتمال أصغر (ولكن لا يزال هامًا). (لاحظ أن كل هذه الاحتمالات يمكن قياسها كميًا من حيث المبدأ ، لكن هذا سيتطلب الكثير من البيانات ، وقد يكون لديه القدرة على تحويل هذه المقالة إلى كتاب.)

الأقل احتمالًا هو التوزيع المنتظم حيث لا توجد مجموعات ، ويتم تقسيم تفضيلات الناس بشكل متساوٍ تقريبًا عبر القيم النوعية الثلاث.

بالنظر إلى هذه الاحتمالات ، يجب أن يكون توزيع التصنيفات لعينة كبيرة بما يكفي من الأفلام واحدًا مع مجموعة غير حادة في المنطقة المتوسطة ، تحدها أشرطة ذات ارتفاع متناقص (تردد) ، والتي تشبه ، وبالتالي ، التوزيع الطبيعي.

إذا وجدت صعوبة في فهم كل هذا ، ففكر في هذا الرسم التوضيحي:

IMDB ، Rotten Tomatoes ، Fandango ، أو Metacritic؟

الآن بعد أن أصبح لدينا معيار للعمل به ، دعنا نتعمق في البيانات.

هناك الكثير من مواقع الويب التي تقدم تصنيفات أفلام خاصة بها. لقد اخترت أربعة فقط ، بناءً على شعبيتها بشكل أساسي ، حتى أتمكن من الحصول على تقييمات للأفلام بعدد مقبول من الأصوات. الفائزون السعداء هم IMDB و Fandango و Rotten Tomatoes و Metacritic.

لالماضيين، ولقد ركزت فقط على أنواعها تصنيف مبدع - وهي tomatometer ، و metascore -يرجع ذلك أساسًا إلى أنها أكثر وضوحًا للمستخدم على كل موقع من مواقع الويب (مما يعني أنه من الأسرع العثور عليها). يتم مشاركتها أيضًا على موقعين آخرين (تتم مشاركة metascore على IMDB ومقياس Tomatometer على Fandango). إلى جانب هذه التصنيفات المميزة ، يتمتع كلا الموقعين أيضًا بنوع تصنيف أقل ميزات حيث يمكن للمستخدمين فقط المساهمة.

لقد جمعت تقييمات لبعض الأفلام الأكثر تصويتًا ومراجعة في عامي 2016 و 2017. تحتوي مجموعة البيانات التي تم تنظيفها على تصنيفات لـ 214 فيلمًا ، ويمكن تنزيلها من مستودع Github هذا.

لم أجمع تقييمات الأفلام التي تم إصدارها قبل عام 2016 ، وذلك ببساطة بسبب حدوث تغيير طفيف في نظام تصنيف Fandango بعد وقت قصير من تحليل Walt Hickey ، والذي سأشير إليه لاحقًا في هذه المقالة.

إنني أدرك أن العمل مع عينة صغيرة أمر محفوف بالمخاطر ، ولكن على الأقل يتم تعويض ذلك بالحصول على أحدث لقطة لتوزيعات التصنيفات.

قبل رسم التوزيعات وتفسيرها ، دعني أحدد القيم النوعية التي استخدمتها سابقًا: على مقياس من 0 إلى 10 ، يكون الفيلم السيئ في مكان ما بين 0 و 3 ، ومتوسط واحد بين 3 و 7 ، والفيلم الجيد بين 7 و 10 .

يرجى ملاحظة الفرق بين النوعية والكمية. لإبقائها واضحة فيما يلي ، سأشير إلى التصنيفات (الكمية) على أنها منخفضة أو متوسطة أو عالية. كما كان من قبل ، يتم التعبير عن جودة الفيلم على أنها سيئة أو متوسطة أو جيدة. إذا كنت قلقًا بشأن أن مصطلح "المتوسط" هو نفسه ، فلا تفعل ذلك ، لأنني سأحرص على تجنب أي غموض.

الآن دعونا نلقي نظرة على التوزيعات:

بنظرة بسيطة ، يمكن ملاحظة أن الرسم البياني للميتاسكور (هذا ما يسمى هذا النوع من الرسم البياني) يشبه إلى حد بعيد التوزيع الطبيعي. يحتوي على كتلة سميكة في المنطقة المتوسطة تتكون من قضبان ذات ارتفاعات غير منتظمة ، مما يجعل القمة ليست حادة ولا حادة.

ومع ذلك ، فهي أكثر عددًا وأطول من القضبان في كل من المنطقتين الأخريين ، والتي تنخفض في الارتفاع نحو أقصى الحدود ، بشكل تدريجي إلى حد ما. كل هذا يشير بوضوح إلى أن معظم metascores لها قيمة متوسطة ، وهو ما نبحث عنه إلى حد كبير.

في حالة IMDB ، يكون الجزء الأكبر من التوزيع في المنطقة المتوسطة أيضًا ، ولكن هناك انحراف واضح تجاه القيم المتوسطة الأعلى. تبدو منطقة التصنيفات العالية مشابهة لما يتوقع رؤيته للتوزيع الطبيعي في ذلك الجزء من الرسم البياني. ومع ذلك ، فإن الميزة اللافتة للنظر هي أن المنطقة التي تمثل تصنيفات أفلام منخفضة فارغة تمامًا ، مما يثير علامة استفهام كبيرة.

في البداية ، ألقي باللوم على العينة الصغيرة ، معتقدًا أن العينة الأكبر ستعطي المزيد من العدالة لـ IMDB. لحسن الحظ ، تمكنت من العثور على مجموعة بيانات جاهزة على Kaggle تحتوي على تصنيفات IMDB لـ 4917 فيلمًا مختلفًا. لدهشتي الكبيرة ، بدا التوزيع كما يلي:

يبدو شكل التوزيع مشابهًا تقريبًا للعينة التي تحتوي على 214 فيلمًا ، باستثناء منطقة التصنيفات المنخفضة ، والتي تكون في هذه الحالة مكتظة بعدد 46 فيلمًا (من أصل 4917). لا يزال الجزء الأكبر من القيم في المنطقة المتوسطة ، مما يجعل تصنيف IMDB يستحق المزيد من الدراسة للتوصية ، على الرغم من أنه من الصعب منافسة metascore ، مع هذا الانحراف.

على أي حال ، ما هو رائع حقًا في هذه النتيجة هو أنه يمكن استخدامها كحجة قوية لدعم الأطروحة القائلة بأن عينة 214 فيلمًا تمثيلية إلى حد ما لجميع السكان. بعبارة أخرى ، هناك ثقة أكبر الآن في أن نتائج هذا التحليل ستكون هي نفسها - أو على الأقل مماثلة - للنتائج التي تم التوصل إليها إذا تم تحليل جميع تقييمات الأفلام من جميع مواقع الويب الأربعة.

مع هذه الثقة المتزايدة ، دعنا ننتقل إلى فحص توزيع تقييمات Fandango ، والتي لا يبدو أنها تغيرت كثيرًا منذ تحليل Hickey. لا يزال الانحراف مرئيًا نحو الجزء الأعلى من طيف تصنيف الفيلم ، حيث توجد معظم التصنيفات. منطقة النصف السفلي من متوسط ​​التصنيفات فارغة تمامًا ، تمامًا مثل منطقة التصنيفات المنخفضة. يمكن بسهولة أن نستنتج أن التوزيع بعيد كل البعد عن أن يلائم معياري. وبالتالي ، لن أفكر في ذلك أكثر من أجل توصية محتملة.

(أعدك بأن عذاب التمرير لأعلى سينتهي قريبًا. من الأسهل بكثير مقارنة التوزيعات إذا تم وضعها بالقرب من الأخرى ، بدلاً من جعلها مبعثرة عبر المقالة.)

أخيرًا ، يكون توزيع مقياس Tomatometer موحدًا بشكل غير متوقع ، وسيبدو أكثر انبساطًا في ظل استراتيجية binning مختلفة (يتم تحديد استراتيجية binning من خلال العدد الإجمالي للأشرطة ونطاقاتها ؛ يمكنك اللعب بهاتين المعلمتين عند إنشاء مدرج تكراري) .

ليس من السهل تفسير هذا التوزيع في السياق ، لأن مقياس الطماطم ليس تصنيفًا كلاسيكيًا ، ولكنه يمثل النسبة المئوية للنقاد الذين قدموا مراجعة إيجابية للفيلم. هذا يجعلها غير مناسبة للإطار النوعي السيئ - المتوسط ​​- الجيد ، لأنها تجعل الأفلام إما جيدة ، وإما سيئة. على أي حال ، أعتقد أنه لا يزال يجب أن يتلخص في نفس التوزيع الطبيعي ، مع وجود اختلاف معتدل بين عدد المراجعات الإيجابية والسلبية في معظم الأفلام (تقديم العديد من التقييمات من 30٪ - 70٪ تقييمات إيجابية) ، و عدد قليل من الأفلام التي لها فرق أكبر بشكل ملحوظ ، بطريقة أو بأخرى.

بالنظر إلى الاعتبار الأخير وشكل التوزيع ، فإن مقياس الطماطم لا يلبي معياري. فإنه يمكن أن يكون ذلك على عينة أكبر من شأنه أن يفعل ذلك أكثر عدالة، ولكن على الرغم من ذلك، إذا كان لي أن أوصي به، وأود أن تفعل ذلك مع بعض الاحتياطيات بسبب نظام تقييم إيجابي أو سلبي غامضة.

في هذه المرحلة من التحليل ، يمكنني القول أنه بالنظر إلى التوزيعات ، فإن توصيتي هي metascore.

ومع ذلك ، يبدو أن توزيع IMDB يستحق النظر أيضًا ، خاصةً إذا قمت بتعديل فترات التصنيف قليلاً للفئات النوعية الثلاث (الفترات التي حددتها بنفسي ، بشكل تعسفي إلى حد ما). من هذا المنظور ، من الواضح أن التوصية بالميتاسكور من خلال إجراء الفحص البصري في الغالب ليست كافية.

لذلك ، سأحاول التحديد بين هذين باستخدام طريقة كمية .

الفكرة هي استخدام متغير Fandango كمرجع سلبي ، ثم تحديد أي متغير ، من تصنيف IMDB و metascore ، هو الأقل ارتباطًا به (أسمي هذه المتغيرات لأنها يمكن أن تأخذ قيمًا مختلفة - على سبيل المثال ، metascore متغير لأنه يأخذ قيمًا مختلفة ، اعتمادًا على الفيلم).

سأقوم ببساطة بحساب بعض معاملات الارتباط ، وسيكون المتغير ذو القيمة الأصغر هو توصيتي (سأشرح بعد ذلك كيف تعمل معاملات الارتباط هذه). لكن قبل ذلك ، دعوني أبرر بإيجاز اختيار متغير Fandango كمرجع سلبي.

يحب مستخدمو Fandango الأفلام كثيرًا

أحد أسباب هذا الاختيار هو أن توزيع تصنيفات أفلام Fandango هو الأبعد عن التوزيع العادي ، مع وجود هذا الانحراف الواضح نحو الجزء الأعلى من طيف تصنيفات الأفلام.

السبب الآخر هو سحابة الشك حول Fandango التي خلفها تحليل Walt Hickey. في أكتوبر 2015 ، شعر بالحيرة أيضًا من توزيع مماثل ، واكتشف أنه على موقع Fandango على الويب ، يتم تقريب التصنيفات الرقمية دائمًا إلى أعلى نصف نجمة تالية ، وليس إلى أقربها (على سبيل المثال ، متوسط ​​التقييم 4.1 لفيلم من شأنه أن تم تقريبه إلى 4.5 نجوم بدلاً من 4.0).

أصلح فريق Fandango نظام التصنيف المتحيز ، وأخبر Hickey أن منطق التصنيف كان بالأحرى "خلل برمجي" على موقع الويب الخاص بهم ، مشيرًا إلى نظام غير متحيز على تطبيق الهاتف المحمول الخاص بهم. (المزيد حول هذا الموضوع في مقال Hickey.) لقد غيّر التعديل بعض المعلمات الإحصائية للأفضل ، لكنه لم يكن كافيًا لإقناعي بعدم العمل مع متغير Fandango كمرجع سلبي.

هذا ما يبدو عليه التغيير:

الآن ، دعنا نكبر على Fandango:

بين metascore وتصنيف IMDB ، أيهما أقل ارتباطًا بتصنيف Fandango؟

أقل ارتباطًا بتصنيف Fandango هو metascore. تبلغ قيمة Pearson r 0.38 بالنسبة إلى Fandango ، بينما تبلغ قيمة IMDB 0.63.

الآن اسمحوا لي أن أشرح كل هذا.

عندما يتغير متغيرين ، بأخذ قيم مختلفة ، فإنهما مرتبطان إذا كان هناك نمط يتوافق مع كلا التغيرين. قياس الارتباط يعني ببساطة قياس مدى وجود مثل هذا النمط.

تتمثل إحدى طرق إجراء هذا المقياس في حساب pearson r. إذا كانت القيمة +1.0 ، فهذا يعني أن هناك ارتباطًا إيجابيًا تامًا ، وإذا كانت -1.0 ، فهذا يعني أن هناك ارتباطًا سلبيًا تامًا.

يتناقص مدى ارتباط المتغيرات مع اقتراب Pearson r من الصفر ، من كل من الجانب السلبي والإيجابي.

دعنا نتصور هذا بشكل أفضل:

الآن ، لوضع التجريد أعلاه في السياق ، إذا قارنا كيف تتغير قيم نوعي التصنيف - على سبيل المثال Fandango و IMDB - يمكننا تحديد الدرجة التي يوجد بها نمط يتوافق مع كلا التغييرين.

بالنظر إلى معاملات الارتباط التي ذكرناها للتو ، هناك نمط بين Fandango و IMDB إلى حد أكبر مما هو الحال بالنسبة لـ Fandango و metascore. كلا المعاملين موجبين ، وعلى هذا النحو ، يُقال إن الارتباط إيجابي ، مما يعني أنه مع ارتفاع تصنيفات Fandango ، تميل تقييمات IMDB إلى الارتفاع أيضًا ، أكثر من metascores.

بعبارة أخرى ، بالنسبة إلى أي تصنيف فيلم معين على Fandango ، فمن المرجح أن يكون metascore مختلفًا عنه أكثر من تصنيف IMDB.

الحكم: استخدم ميتاكريتيك ميتاسكور

الكل في الكل ، أوصي بالتحقق من metascore كلما كنت تبحث عن تصنيف فيلم. وإليك كيف يعمل ، وعيوبه.

باختصار ، metascore هو متوسط ​​مرجح للعديد من المراجعات القادمة من النقاد المشهورين. يقرأ فريق Metacritic المراجعات ويعين لكل منها درجة من 0 إلى 100 ، ثم تُعطى وزناً ، بناءً على جودة المراجعة ومصدرها. يمكنك العثور على المزيد حول نظام التصنيف الخاص بهم هنا.

الآن ، أريد فقط أن أشير إلى بعض الجوانب السلبية للميتاسكور:

  • معاملات الترجيح سرية ، لذا لن تتمكن من معرفة مدى احتساب كل مراجعة في metascore.
  • ستواجه صعوبة في العثور على metascores للأفلام الأقل شهرة التي ظهرت قبل 1999 ، العام الذي تم فيه إنشاء Metacritic.
  • بعض الأفلام الحديثة التي لا تتحدث الإنجليزية لغتها الرئيسية ليست مدرجة حتى في Metacritic. على سبيل المثال ، الأفلام الرومانية Two Lottery Tickets (2016) و Eastern Business (2016) غير مدرجة في Metacritic ، بينما هي في IMDB ، مع التصنيفات.

كلمات قليلة

باختصار ، في هذه المقالة ، قدمت توصية واحدة حول مكان البحث عن تصنيف الفيلم. لقد أوصيت باستخدام metascore ، بناءً على حجتين: توزيعه يشبه إلى حد كبير الحجة العادية ، وهو الأقل ارتباطًا بتصنيف Fandango.

جميع العناصر الكمية والمرئية للمقالة قابلة للتكرار في بايثون ، كما هو موضح هنا.

شكرا للقراءة! وفيلم سعيد!